先占坑,从论文来看:DALL-E2 = CLIP + GLIDE?
DALL-E用dVAE提取图像的隐特征,而DALL-E2用CLIP的mage encoder,这其实相当于对齐了文本,因为dVAE的训练并没有文本的参与;而生成模型decoder也换成了更强大的GLIDE。原来的先验是直接用文本作为输入,这里也改用了CLIP的text encoder提取的文本特征。
半夜刷到这个文章,写点自己的看法。由于我不是做这个方向的,所以理解可能有误,望轻喷。
看到网页上和文章里的效果图,第一反应还是比较震惊的。我们都知道,跨模态语义理解其实并没有取得多么革命性的进步(基于CLIP的一系列方法都在强行对齐图像和文本的语义空间),那么在当前技术水平下,能够通过强大的工程能力,把以文生图任务推到这个水平,确实挺了不起的。
扫了一遍文章以后(核心思想就是上图),我就一直在想:这么简单的方法,真的能够产生文章展示出的这么惊艳的效果图(如下图)吗?从工程角度说,如果我要实现一个这样的系统,大概会把所有能用上的方法组合起来,而不是简单地把一句话丢给CLIP然后用token去生成图像,因为后者需要的训练样本太多了(以当前技术水平而言)。比如我要下面那个戴着帽子、穿着高领毛衣的柴犬,(人或者机器的)正常逻辑都是,先找到柴犬的图片素材,然后判断出帽子和毛衣应该加在什么位置,再把这些装饰放在合适的位置。但是这就很难生成某些惊人的样例,比如那张由星云幻化出来的柯基犬。
从我有限的理解,如果纯data-driven的方法(如CLIP)能够学习到如此复杂的逻辑,我会表示非常惊讶。所以我猜测(再次声明,猜测没有根据,也很可能是错的),为了提升效果,系统中会不会引入多种已有的图像生成或者处理的技术。我要澄清两点。第一,使用这些技术并不意味着要hard-code一个pipeline,也有可能通过一些隐式module来实现;第二,如果真的通过这种人类可理解的方式实现了整个系统,我会认为算法处于一个更高的水平,而并不是觉得他们做了一些engineering的工作。
(原文:目前,我依然倾向于认为,整体系统并不像上面那个框架图那么简单,而是综合应用了多种技术:)
我最大的疑问是:算法真的能够通过CLIP这种暴力方法,学习出比较完整的逻辑吗?比如上面的例子中,“一个熊猫科学家在做实验”,它就真的能够生成出用手拿着烧瓶的例子:这里通过素材拼接的成分有多大,从隐空间生成图像的成分又有多大?
总之,有许多技术问题,我还没有搞清楚。懂行的同学,欢迎来讨论:)
最后想说一句:这玩意儿看起来太适合做PR了。而且,如果是半懂AI的人看到这些结果,很容易对当前以文生图的发展有过高的预期(不懂AI的不会觉得生成效果有多好,真懂AI的也会冷静地去分析方法的局限性),这或许也是AI的吊诡之处吧。
这件事对我的打击真的是太大了,认识我的人知道我其实最近一年都在做text-to-image的任务,去年我做cogview1的时候就跟dalle撞了,然后不得不再继续优化了一个月搞到效果效果比dalle稍微好一点再发布。详见https://www.zhihu.com/answer/1664929807当初的回答。
然后前几天我觉得cogview2 settle down 了,都已经在朋友圈预热了(发了一些类似于下图的样例)。。。如果不是我莫名其妙被隔离了21天文章估计也写完了,然后突然就直接dalle2甩脸。。。
一个漂亮的女人抱着哈士奇
机器人骑机器马
然后尴尬的是都是层次化的方法,然后dalle跑了三层我偷懒+机器不够只两层确实分辨率差一倍,另外一些细节和数据上有差距,感觉效果不如dalle2,真的贼尴尬。。。
这两天在加紧肝文章,如果扔出去还可以勉强说同期工作,不过我看到楼下已经提前喷了哈哈,这辈子我“复刻dalle”的title看来是摘不掉了,真的太无奈了。。。
好气啊,不过输得心服口服,anyway下个版本一定打爆他们!