// --- 更新:模型和代码开源啦!
文章的链接是 https://arxiv.org/pdf/2105.13290.pdf
之前的demo页面仍然有效,但是依旧没有上线特别耗时的超分辨率和多次生成后选择的部分。
//----------------
Demo链接==> CogView图文生成。
//-----------------
取匿了,因为周六唐老师要稍微介绍一下我的成果,没必要继续匿名了……先放一些CogView文本到图片的效果图。
其实在dalle最早的博客放出来之前,我们也独立地想到了这个VQAE+Transformer的算法框架,只不过投入不够,进展不够快,另外就是训练大模型时有一些意料之外的困难(例如精度),最后我还是基本解决了(虽然DALLE文章出来之后,他们的解法和我们不一样,感觉自己想到的还更加优雅)。不过这种规模的工作被抢先了真的太伤了,估计得想点新的创新点才能发文章……文章发了之前暂时不太会和别人详细交流技术细节了。
欢迎关注 @北京智源人工智能研究院 在20号的发布会~到时候可能放一个Demo网站出来(文章可能还早TAT)
//-----------------原答案-------------------
太夸张了,我搞这个任务快半年了。。。他这个blog中介绍的做法跟我们现在的方法几乎一致(除了大一点),但是我们感觉单纯升到13B完全达不到这个效果。。。因为这个问题跟数据集强相关,想知道数据集。。。(可能这玩意和clip强耦合,需要很多前者的产品)总之就是非常绝望,感觉自己搞的根本没意义,螳臂挡车。。。
120亿参数的DALL·E+CLIP还算是比1700亿参数的GPT-3温柔:)
思维发散一下,以后那些有大规模计算集群的云计算大厂估计就要自己做无标签的大规模预训练模型了,随后将模型release给下游算法公司/开发者用,后者拿着带有domain-specific标签的自有的小规模模型集子再跑一遍微调,做到轻量化,就成为上下游绑定的新生态了…;这也预示着有监督学习的价值基本榨干了,基本上业界下一代人工智能训练的形态会是大规模上游预训练+小规模下游微调的思路。NLP基本走通这个思路(GPT-3),CV也会跟随这个思路,由此改变CV的格局和开发模式,那对于开发者而言,适应算法并不难,要取舍的是适应这种生态。
Hinton也曾经说过【未来AI系统主要是无监督的;在学习共性和对共性是否存在做出反应的能力方面,无监督学习的能力几乎到人类水平。比如在人类视觉皮层寻找启发:人类的视觉采用一种重建的方法来学习,事实也证明,机器视觉系统中的重建技术增强了它们抵抗对抗性攻击的能力。然而,如果你采用一个拥有数十亿参数的系统,对某个目标函数执行随机梯度下降,它的效果会比你想象的好得多,规模越大,效果越好】。因此,无/自监督学习是未来的方向,但是当下至少两个问题待解决:一是如何设计更好的评价指标;二是如何扩展到更大体量的训练数据上去。当下具备这种能力的大厂也就是Google和FB…等。
Btw:利好GPU市场吧;这跟数据类型、神经网络类型或者graph类型相关了。未来GPU在AI主流workload中的用途还是做训练,做Inference任务用浮点结构是资源浪费+费电;未来,无监督学习的数据量更大,维度更高,GPU更接近需求,这也会间接导致另一种分化:训练和推理的需求差异越来越大了。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有