百科问答小站 logo
百科问答小站 font logo



OpenAI 发布文字生成图像工具 DALL·E 2,它的画作水平如何?从技术角度如何评价它的能力? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

先占坑,从论文来看:DALL-E2 = CLIP + GLIDE?

DALL-E用dVAE提取图像的隐特征,而DALL-E2用CLIP的mage encoder,这其实相当于对齐了文本,因为dVAE的训练并没有文本的参与;而生成模型decoder也换成了更强大的GLIDE。原来的先验是直接用文本作为输入,这里也改用了CLIP的text encoder提取的文本特征。



user avatar   xie-ling-xi 网友的相关建议: 
      

半夜刷到这个文章,写点自己的看法。由于我不是做这个方向的,所以理解可能有误,望轻喷。

看到网页上和文章里的效果图,第一反应还是比较震惊的。我们都知道,跨模态语义理解其实并没有取得多么革命性的进步(基于CLIP的一系列方法都在强行对齐图像和文本的语义空间),那么在当前技术水平下,能够通过强大的工程能力,把以文生图任务推到这个水平,确实挺了不起的。

能把这么简单的方法调work,很体现工程能力

扫了一遍文章以后(核心思想就是上图),我就一直在想:这么简单的方法,真的能够产生文章展示出的这么惊艳的效果图(如下图)吗?从工程角度说,如果我要实现一个这样的系统,大概会把所有能用上的方法组合起来,而不是简单地把一句话丢给CLIP然后用token去生成图像,因为后者需要的训练样本太多了(以当前技术水平而言)。比如我要下面那个戴着帽子、穿着高领毛衣的柴犬,(人或者机器的)正常逻辑都是,先找到柴犬的图片素材,然后判断出帽子和毛衣应该加在什么位置,再把这些装饰放在合适的位置。但是这就很难生成某些惊人的样例,比如那张由星云幻化出来的柯基犬。

文章第2页的效果图:右下角柯基犬那张图,着实惊艳

从我有限的理解,如果纯data-driven的方法(如CLIP)能够学习到如此复杂的逻辑,我会表示非常惊讶。所以我猜测(再次声明,猜测没有根据,也很可能是错的),为了提升效果,系统中会不会引入多种已有的图像生成或者处理的技术。我要澄清两点。第一,使用这些技术并不意味着要hard-code一个pipeline,也有可能通过一些隐式module来实现;第二,如果真的通过这种人类可理解的方式实现了整个系统,我会认为算法处于一个更高的水平,而并不是觉得他们做了一些engineering的工作。

(原文:目前,我依然倾向于认为,整体系统并不像上面那个框架图那么简单,而是综合应用了多种技术:)

  • 文本结构化理解:例如把“一张穿毛衣的柴犬的简笔画”解释成一个graph,每个节点都代表着要找什么素材,做具体的什么事;
  • 从巨大的素材库中寻找合适的素材:这里CLIP的encoder就能发挥很大的价值;
  • 结合结构化数据和素材,生成符合逻辑的图像;
  • 图像美化:文章里说了,用了他们自己的GLIDE算法;
  • 风格转化:可以预设若干素材库,用类似conditional GAN的方式来学习latent vector,并且最终完成渲染。

我最大的疑问是:算法真的能够通过CLIP这种暴力方法,学习出比较完整的逻辑吗?比如上面的例子中,“一个熊猫科学家在做实验”,它就真的能够生成出用手拿着烧瓶的例子:这里通过素材拼接的成分有多大,从隐空间生成图像的成分又有多大?

总之,有许多技术问题,我还没有搞清楚。懂行的同学,欢迎来讨论:)

最后想说一句:这玩意儿看起来太适合做PR了。而且,如果是半懂AI的人看到这些结果,很容易对当前以文生图的发展有过高的预期(不懂AI的不会觉得生成效果有多好,真懂AI的也会冷静地去分析方法的局限性),这或许也是AI的吊诡之处吧。


user avatar   ding-ming-55-55 网友的相关建议: 
      

这件事对我的打击真的是太大了,认识我的人知道我其实最近一年都在做text-to-image的任务,去年我做cogview1的时候就跟dalle撞了,然后不得不再继续优化了一个月搞到效果效果比dalle稍微好一点再发布。详见zhihu.com/answer/166492当初的回答。

然后前几天我觉得cogview2 settle down 了,都已经在朋友圈预热了(发了一些类似于下图的样例)。。。如果不是我莫名其妙被隔离了21天文章估计也写完了,然后突然就直接dalle2甩脸。。。


一个漂亮的女人抱着哈士奇


机器人骑机器马

然后尴尬的是都是层次化的方法,然后dalle跑了三层我偷懒+机器不够只两层确实分辨率差一倍,另外一些细节和数据上有差距,感觉效果不如dalle2,真的贼尴尬。。。

这两天在加紧肝文章,如果扔出去还可以勉强说同期工作,不过我看到楼下已经提前喷了哈哈,这辈子我“复刻dalle”的title看来是摘不掉了,真的太无奈了。。。

好气啊,不过输得心服口服,anyway下个版本一定打爆他们!




  

相关话题

  自动化专业就业方向是什么,会变成程序猿吗? 
  如何评价 NVIDIA 发布的 DGX-1? 
  现在tensorflow和mxnet很火,是否还有必要学习scikit-learn等框架? 
  这个人的水平算天才的画画水平吗? 
  如何理解 Graph Convolutional Network(GCN)? 
  自学原画一年,附图,找不到工作我该怎么办? 
  普通人真的会注意到插画里的衣褶,动态,构图,素描关系这些要素吗?还是说这些标准只是专业人士在自嗨? 
  学原画一定要报名培训班吗? 
  如何理解 “在绘画中艺术家画的是感受中的真实,而非实际上的真实”? 
  自动化专业就业方向是什么,会变成程序猿吗? 

前一个讨论
程序员远程办公在二三线城市陪女友和家人是一种什么体验?
下一个讨论
研究生研究数据库研究方向有前景吗?想写一个国产的数据库,类似mysql这种?





© 2024-05-17 - tinynew.org. All Rights Reserved.
© 2024-05-17 - tinynew.org. 保留所有权利