百科问答小站 logo
百科问答小站 font logo



深度学习有哪些好玩的案例? 第1页

  

user avatar   zhu-wang-xiao-miao-o 网友的相关建议: 
      

1. 一个很酷的技术:Speech2Face[1]

这是一种新的神经网络模型,试图通过某个人的语音来重现其面孔。

可以看到,虽然结果并不是完美的,但相似之处也是显而易见的。

ta是由麻省理工学院开发的,相关的研究论文[2]于2019年5月底发表。利用了数百万来自YouTube和其他来源的视频片段被用来训练这个模型。

如果有足够的数据,计算能力和时间,神经网络可以通过分析视频片段,将声音与面部配对以及找到两者之间的模式和趋势来“学习”如何重建人脸。

模型所生成的脸部会准确地重建鼻子,嘴唇,脸颊和骨骼等结构,除了眼睛之外,其余全部都可以重建。这个ML模型之所以能够work,是因为准确表示的特征在外观和语音之间具有直接相关性。例如,声音较深的人可能比声音较高的人有更宽的鼻子或下巴,而眼睛的形状和大小通常不会对某人的发音产生太大影响,这也是眼睛的重建工作不够准确的原因。

下面是作者列出的所有相关特征。相关性从-1到1,0为不相关,1为绝对相关性:

可以想象这样一个场景,你正在打电话和某个素不相识的妹子交谈。

听着她的轻声细语,你大概率在脑海中脑补出这样一幅场景:一位性格内敛,皮肤白晰,骨骼纤细,柔弱水灵,从小说吴侬软语长大的妹子,正撑着油纸伞走在寂静的雨巷。

与此同时,一幅典型的南方温婉姑娘的长相,想必也早已浮现在你的脑海里。

虽然你脑海中的形象可能与我的有所不同,但重要的是,我们两个都针对具有南方轻柔口音的女生提出了一些通用的“平均”形象。她可能是你平时遇到过或者相识的南方女生形象,或者某几个形象的组合。

这就是目前Speech2Face的工作方式,但是它有多达数百倍的模式可供考虑。其实我们的大脑已经可以部分完成Speech2Face的工作,例如能够仅通过声音来识别我们的同学朋友等。

这是Speech2Face的其他一些结果:

现在有些工作试图将Speech2Face与Nvidia的GAN [3](生成对抗网络)结合起来:

上面所有这些面孔都是由GAN生成的,它们都不存在于现实生活中。它们是神经网络输出的结果,该神经网络充分了解了实际人类的常见特征和模式,可以自行创建它们。甚至可以将神经网络的输出发送回输入,以进一步对其自身进行训练,从而为训练提供几乎无限的数据。

GAN可以创建不存在的人类面孔,Speech2Face可以通过声音来构建面孔。WaveNet[4]已经可以构建接近真实的人声了,他们的结合现在看来只是时间问题。

也许在不到10年的时间里,我们可能就有能力创造出一个声音和外表都和真实人类一样的人造生命,而且很难分辨出其中的区别,不会有大叔面孔萝莉发音这种事情发生。

2. 另外,GAN(生成对抗网络)必须值得一提

尽管有答主已经介绍过了,但是有一些应用我想再分享一下:

GAN是Ian Goodfellow在2014年提出的深度学习领域中一个相对较新的概念,从那时起,它就动摇了应用于图像,文本和音频的AI。简而言之,GAN是一种神经网络,它会生成与训练集中的数据相同的伪随机变量。例如:

动态肖像:

虚假演讲:

甚至是不存在的人类形象:

3. 还有,Nvidia的GauGAN也是一个极其有趣的应用

今年早些时候,Nvidia开发了一种名为GauGAN的AI,它可以通过粗糙的涂鸦来创建逼真的风景。看看下面的示例:

该系统使用生成对抗神经网络将粗糙的分割图转换为真实的世界。

It is like a coloring book picture that describes where a tree is, where the sun is, where the sky is, and then the neural network is able to fill in all of the detail and texture, and the reflections, shadows and colors, based on what it has learned about real images. - -Bryan Catanzaro, NVIDIA

此外,创作者还制作了一个自主互动演示:演示地址

以上,谢谢!

参考

  1. ^Speech2Face: Learning the Face Behind a Voice https://speech2face.github.io/
  2. ^ https://arxiv.org/abs/1905.09773
  3. ^Progressive Growing of GANs for Improved Quality, Stability, and Variation https://research.nvidia.com/publication/2017-10_Progressive-Growing-of
  4. ^WaveNet: A Generative Model for Raw Audio | DeepMind https://deepmind.com/blog/wavenet-generative-model-raw-audio/



  

相关话题

  LeCun 为什么要卸任 FAIR(Facebook AI 实验室)负责人,工程和研究的矛盾可调和吗? 
  神经网络的损失函数为什么是非凸的? 
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果? 
  如果 2台 alphago 不断对战,是否会不断的强大? 
  如何看待 2019 年 12 月 10 日召开的 OPPO 未来科技大会,有哪些值得关注的信息? 
  学习机器学习应该看哪些书籍? 
  人工智能在哪些领域还落后于人类? 
  2021年人工智能领域有哪些关键性进展和突破? 
  有哪些比较好的元学习(meta learning)领域的学习资源? 
  为什么机器人还没取代廉价低端劳动力? 

前一个讨论
找到黑匣子了要多久能分析出来数据?为什么解码过程要这么复杂,耗费这么长时间?
下一个讨论
如何评价三国杀群内理论和玩法?





© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利