OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？第1页

xiaohuzc 网友的相关建议:

先占坑，从论文来看：DALL-E2 = CLIP + GLIDE？

DALL-E用dVAE提取图像的隐特征，而DALL-E2用CLIP的mage encoder，这其实相当于对齐了文本，因为dVAE的训练并没有文本的参与；而生成模型decoder也换成了更强大的GLIDE。原来的先验是直接用文本作为输入，这里也改用了CLIP的text encoder提取的文本特征。

xie-ling-xi 网友的相关建议:

半夜刷到这个文章，写点自己的看法。由于我不是做这个方向的，所以理解可能有误，望轻喷。

看到网页上和文章里的效果图，第一反应还是比较震惊的。我们都知道，跨模态语义理解其实并没有取得多么革命性的进步（基于CLIP的一系列方法都在强行对齐图像和文本的语义空间），那么在当前技术水平下，能够通过强大的工程能力，把以文生图任务推到这个水平，确实挺了不起的。

能把这么简单的方法调work，很体现工程能力

扫了一遍文章以后（核心思想就是上图），我就一直在想：这么简单的方法，真的能够产生文章展示出的这么惊艳的效果图（如下图）吗？从工程角度说，如果我要实现一个这样的系统，大概会把所有能用上的方法组合起来，而不是简单地把一句话丢给CLIP然后用token去生成图像，因为后者需要的训练样本太多了（以当前技术水平而言）。比如我要下面那个戴着帽子、穿着高领毛衣的柴犬，（人或者机器的）正常逻辑都是，先找到柴犬的图片素材，然后判断出帽子和毛衣应该加在什么位置，再把这些装饰放在合适的位置。但是这就很难生成某些惊人的样例，比如那张由星云幻化出来的柯基犬。

文章第2页的效果图：右下角柯基犬那张图，着实惊艳

从我有限的理解，如果纯data-driven的方法（如CLIP）能够学习到如此复杂的逻辑，我会表示非常惊讶。所以我猜测（再次声明，猜测没有根据，也很可能是错的），为了提升效果，系统中会不会引入多种已有的图像生成或者处理的技术。我要澄清两点。第一，使用这些技术并不意味着要hard-code一个pipeline，也有可能通过一些隐式module来实现；第二，如果真的通过这种人类可理解的方式实现了整个系统，我会认为算法处于一个更高的水平，而并不是觉得他们做了一些engineering的工作。

（原文：目前，我依然倾向于认为，整体系统并不像上面那个框架图那么简单，而是综合应用了多种技术：）

文本结构化理解：例如把“一张穿毛衣的柴犬的简笔画”解释成一个graph，每个节点都代表着要找什么素材，做具体的什么事；
从巨大的素材库中寻找合适的素材：这里CLIP的encoder就能发挥很大的价值；
结合结构化数据和素材，生成符合逻辑的图像；
图像美化：文章里说了，用了他们自己的GLIDE算法；
风格转化：可以预设若干素材库，用类似conditional GAN的方式来学习latent vector，并且最终完成渲染。

我最大的疑问是：算法真的能够通过CLIP这种暴力方法，学习出比较完整的逻辑吗？比如上面的例子中，“一个熊猫科学家在做实验”，它就真的能够生成出用手拿着烧瓶的例子：这里通过素材拼接的成分有多大，从隐空间生成图像的成分又有多大？

总之，有许多技术问题，我还没有搞清楚。懂行的同学，欢迎来讨论：）

最后想说一句：这玩意儿看起来太适合做PR了。而且，如果是半懂AI的人看到这些结果，很容易对当前以文生图的发展有过高的预期（不懂AI的不会觉得生成效果有多好，真懂AI的也会冷静地去分析方法的局限性），这或许也是AI的吊诡之处吧。

ding-ming-55-55 网友的相关建议:

这件事对我的打击真的是太大了，认识我的人知道我其实最近一年都在做text-to-image的任务，去年我做cogview1的时候就跟dalle撞了，然后不得不再继续优化了一个月搞到效果效果比dalle稍微好一点再发布。详见https://www.zhihu.com/answer/1664929807当初的回答。

然后前几天我觉得cogview2 settle down 了，都已经在朋友圈预热了（发了一些类似于下图的样例）。。。如果不是我莫名其妙被隔离了21天文章估计也写完了，然后突然就直接dalle2甩脸。。。

一个漂亮的女人抱着哈士奇

机器人骑机器马

然后尴尬的是都是层次化的方法，然后dalle跑了三层我偷懒+机器不够只两层确实分辨率差一倍，另外一些细节和数据上有差距，感觉效果不如dalle2，真的贼尴尬。。。

这两天在加紧肝文章，如果扔出去还可以勉强说同期工作，不过我看到楼下已经提前喷了哈哈，这辈子我“复刻dalle”的title看来是摘不掉了，真的太无奈了。。。

好气啊，不过输得心服口服，anyway下个版本一定打爆他们！

OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？的其他答案点击这里

前一个讨论

程序员远程办公在二三线城市陪女友和家人是一种什么体验？

下一个讨论

研究生研究数据库研究方向有前景吗？想写一个国产的数据库，类似mysql这种？

OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？第1页