没进展
必须要给艺术家大厂 OpenAI 排面,当然了,我是肯定不会讲使用了钞能力的 GPT-3 的。
之所以把 OpenAI 叫做艺术家大厂,是因为他们的网站前端与博客封面做得太美了,充满了抽象艺术的迷幻色彩。让我感觉这是一个脱离了工程师低级趣味的工程师团队,真的太喜欢逛他们的网站了。
截个主页瞧瞧:
说到近两年有趣的进展,值得一提的是 OpenAI 在机器人灵巧手单手拧魔方上的进展。
这是一篇2019年10月的paper,所以也算是近两年吧。这个领域发展的太快了,我差点以为这是五年前的工作了。Paper 链接:Solving Rubik's Cube with a Robot Hand。视频如下:
说实话,让我单手拧个魔方都可能会拧到手抽筋,更不用说视频后面的外界干扰实验了。所以第一次看到这项工作的时候,我心中只有一个词:惊艳。
此外,作为一个颜控,机械臂的喷漆满足了我对美学的追求,曾经被我用到了专栏文章的封面。
视频中有句话我很喜欢:
We tried to build robots learn a little bit like humans do by trial and error.
Trial and error 的精神才是 Reinforcement Learning 这个分支留给我们的宝贵财富。
第二项工作还是强化学习,利用多智能体协作、对抗实现捉迷藏。
Paper Link: Emergent Tool Use From Multi-Agent Autocurricula
视频中的蓝色小人逐渐学会:
红色小人呢:
即使这是大规模分布式学习的结果,可能学了不知多少亿次,但是其体现出的智能性和策略性都让人耳目一新。
The most important: all of these works are learning from scratch!
就像 @Flood Sung 在 Deep Reasoning 开篇中提到的,我们现在想要让机器去解决人也需要思考一下的任务。
最后感慨一句,一个有情怀的研究院,会把每一项 project 当作独一无二的艺术品来看待。
这是一种神经网络模型,可以仅通过语音来重现某人的面孔。
结果并不是完美的,但相似之处也是显而易见的。
它是由麻省理工学院开发的,相关的研究论文[2]于2019年5月底发表。利用了数百万来自YouTube和其他来源的视频片段被用来训练这个模型。
如果有足够的数据,计算能力和时间,神经网络可以通过分析视频片段,将声音与面部配对以及找到两者之间的模式和趋势来“学习”如何重建人脸。
模型所生成的脸部会准确地重建鼻子,嘴唇,脸颊和骨骼等结构,除了眼睛之外,其余全部都可以重建。这个ML模型之所以能够work,是因为准确表示的特征在外观和语音之间具有直接相关性。例如,声音较深的人可能比声音较高的人有更宽的鼻子或下巴,而眼睛的形状和大小通常不会对某人的发音产生太大影响,这也是眼睛的重建工作不够准确的原因。
下面是作者列出的所有相关特征。相关性从-1到1,0为不相关,1为绝对相关性:
可以想象这样一个场景,你正在打电话和某个素不相识的妹子交谈。
听着她的轻声细语,你大概率在脑海中脑补出这样一幅场景:一位性格内敛,皮肤白晰,骨骼纤细,柔弱水灵,从小说吴侬软语长大的妹子,正撑着油纸伞走在寂静的雨巷。
与此同时,一幅典型的南方温婉姑娘的长相,想必也早已浮现在你的脑海里。
虽然你脑海中的形象可能与我的有所不同,但重要的是,我们两个都针对具有南方轻柔口音的女生提出了一些通用的“平均”形象。她可能是你平时遇到过或者相识的南方女生形象,或者某几个形象的组合。
这就是目前Speech2Face的工作方式,但是它有多达数百倍的模式可供考虑。其实我们的大脑已经可以部分完成Speech2Face的工作,例如能够仅通过声音来识别我们的同学朋友等。
这是Speech2Face的其他一些结果:
现在有些工作试图将Speech2Face与Nvidia的GAN [3](生成对抗网络)结合起来:
上面所有这些面孔都是由GAN生成的,它们都不存在于现实生活中。它们是神经网络输出的结果,该神经网络充分了解了实际人类的常见特征和模式,可以自行创建它们。甚至可以将神经网络的输出发送回输入,以进一步对其自身进行训练,从而为训练提供几乎无限的数据。
GAN可以创建不存在的人类面孔,Speech2Face可以通过声音来构建面孔。WaveNet [4]已经可以构建接近真实的人声了,他们的结合现在看来只是时间问题。
也许在不到10年的时间里,我们可能就有能力创造出一个声音和外表都和真实人类一样的人造生命,而且很难分辨出其中的区别,不会有大叔面孔萝莉发音这种事情发生。
尽管有答主已经介绍过了,但是有一些应用我想再分享一下:
GAN是Ian Goodfellow在2014年提出的深度学习领域中一个相对较新的概念,从那时起,它就动摇了应用于图像,文本和音频的AI。简而言之,GAN是一种神经网络,它会生成与训练集中的数据相同的伪随机变量。例如:
动态肖像:
虚假演讲:
甚至不存在的人类形象:
今年早些时候,Nvidia开发了一种名为GauGAN的AI,它可以通过粗糙的涂鸦来创建逼真的风景。看看下面的示例:
该系统使用生成对抗神经网络将粗糙的分割图转换为真实的世界。
It is like a coloring book picture that describes where a tree is, where the sun is, where the sky is, and then the neural network is able to fill in all of the detail and texture, and the reflections, shadows and colors, based on what it has learned about real images.
- -Bryan Catanzaro, NVIDIA
此外,创作者还制作了一个自主互动演示:演示地址
以上。
参考文献:
[1] Speech2Face: Learning the Face Behind a Voice
[2] Speech2Face: Learning the Face Behind a Voice
[3] Progressive Growing of GANs for Improved Quality, Stability, and Variation
有人说,AI技术经过最近十多年的快速发展,近一两年已经进入了下半场,取得的进展不如从前了。我并不这样认为,也许AI基础模型方面的发展一定程度上告别了之前大跨步前进,进入了稳步发展的阶段,但对于将AI技术应用于各行各业来说,黄金时代才刚刚开启。各种有趣的进展层出不穷,今天我们就谈一谈其中的一个领域:基于生成对抗网络的图像生成。
-------枯燥的理论部分,不感兴趣的可跳过--------
生成对抗网络(GANs)是Goodfellow等人在2014年提出的一个基于深度学习的生成模型。GANs包括两个深层神经网络:一个是用来捕获真实数据分布的生成器G和一个用来确定样本是来自模型分布还是真实数据分布的判别器D。该框架利用损失函数V(D,G)进行零和博弈,具体优化公式如下:
其中 为真实数据, 为真实数据分布, 为噪声, 为噪声分布(通常为高斯分布或均匀分布)。
以上公式可解释为: 的目标是根据真实数据分布来生成尽可能“真”的样本,通过最小化上述公式中的来实现; 的作用是将 生成的样本判别为“假”,将真实数据判别为“真”,通过最大化上述公式中的D进行优化。整个框架可以通过反向传播进行训练,这意味着 从 的决策中获得反馈,然后在下一次迭代中学习如何更好地欺骗 。
-------枯燥的理论部分结束--------
将以上零和博弈原则应用到图像生成领域,催生了一些有趣的任务,包括:从无到有生成高精度人脸图像,从低分辨率到高分辨率的图像超分辨率,还有图像风格转换。
这些任务在前几年陆续被提出来,但两年之前,这些任务上的生成能力还不够强大,效果还不那么逼真。这两年取得的进展可以用amazing来形容。看下面三个具体例子。
1、高精度人脸图像生成
首先介绍英伟达公司在2018年12月提出的一个高精度人脸图像生成的工作。这个算是一个石破惊天的工作,首先看下arXiv论文链接(https://arxiv.org/pdf/1812.04948.pdf)中的两个生成效果图。
从图片中可以看到,该论文方法生成的人脸与真实人脸几无差异,无论是整体上还是细节上。至少从我站上一个普通人的角度上来看,若是没有人告诉我些图像这是生成的,我是发现不了。而在此之前,虽然可以生成比较像的人脸,但大多分辨率不高,而且细节部分不够精致。
这个工作更大的意义在于人工智能图像生成进入了“眼见不再为实”的阶段,我第一次看到这些图片时的巨大心理冲击主要也在于此。
技术的发展进入到新的阶段,一方面凸显了人工智能安全、可控发展的必要性,比如控制不要让本着不良目的虚拟生成的内容在网络上流传,发展其有效鉴别技术,另一方面,也催生了一批新型应用场景,例如下图所示的卡通化人脸生成。图像生成技术的发展让人脸卡通化变成一个低门槛,可快速复制的行业,这恐怕是一个让很多漫画从业者颤抖的消息。
2、图像超分辨率
接下来再介绍一个图像超分辨率方面有趣的工作《PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》,发表在CVPR 2020。
虽然说图像超分辨在三四年前就有一些激动人心的工作,比如CVPR 2017上的SRGAN。但是,超分辨率的倍数一般还在宽高4倍(对应超分辨率到面积大16倍的图像)左右的范畴,PULSE做到了将一个16*16的小图像超分辨率到1024*1024,效果如下图所示:
可以看到,这个生成效果也是非常惊人的。
更重要的是,这意味着现在的技术已经可以从一个个非常小的人脸,例如照片拍到的比赛看台上的成百上千个人脸,生成出一个个高清晰度的人脸,虽然是虚拟生成的,但论文作者以及广大网友的测试表明,生成的人脸与真实人脸还是有一定的相似度。
更宽泛一点来说,对于监控视频分析等业务,从视频流中远处的小人脸重构出相似的高精度人脸,便于案情分析等,也在一定程度上成为可能。
另外值得一提的是,作者代码和模型开源后,人们发现基于作者的开源模型,大部分时候倾向于生成白人人脸,把美国前总统奥巴马的小图像输进去也是。这一现象引起了一场关于种族歧视的大辩论,以至于深度学习先驱,图灵奖得主Yann LeCun教授只不过针对这个问题发表了一些技术性的观点,也受到了网络暴民的群起攻之,最后不得不在推特上说farewell everyone。
3、图像风格转换—虚拟试衣
最后再介绍一个图像风格转换方面的工作,具体的,虚拟试衣。这是图像风格转换在电商这一垂直应用领域中的一个具体场景。具体来说,人们在购物网站浏览时,看到漂亮的衣服但经常困扰的是衣服究竟适不适合自己。不同于在实体店可以马上试穿,网络上只能靠脑补想象,失手的时候不可避免。对于卖家来说,会导致退货率高居不下,对于买家来说,也会浪费时间和精力。
随着这两年图像生成技术的进步,生成图像的质量和细节得到显著提升,虚拟试衣的实用性也得到了极大的提升,下图是亚马逊在2018年的虚拟试衣效果图
可以看到,衣服上身后什么效果,已经大致有谱了。最近,亚马逊在CVPR 2020上又进一步将这项工作进行了扩展,可以生成混搭的虚拟试衣。具体的,给定一张自己图像,以及一张甚至多张购物网站上参考图像的情况下,该方法能够生成混搭的穿衣效果,如下图所示。
以上。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有