首页

如何看待米哈游逆熵科技AI生成的鹿鸣声音? 第1页

jiayu2dai 网友的相关建议:

ai生成声音和ai生成声音是不同的。就好像自行车和布加迪威龙都是车，但技术路线，复杂度，安全水平等各个方面完全不同一样。

我们从目的来分析，ai生成声音的目的是将一段文字，生成成声音。而按照主流技术路线，实现该目的的模块主要有两个——

一：将文字生成成声音特征。

二：将特征生成成声音。

其中，第二个模块是非常成熟的。lpcnet就是个比较不错的声码器，玩通这个模块只需要一个本科毕业生的水平就够了。这个不用多说，技术难点肯定不在这里（虽然他们做的并不好，只是没被发现而已。如43秒的“公主美丽善良”，弄成了“公主美一啥痒”但侧面证实了这是真ai，不是人手修音出来的，不然这么大的问题不可能没人发现）

难点在于，如何将文字生成成声音特征。特征是什么？特征一般包含了共振峰信息和音高。不懂的也不用深究，总之共振峰信息比较简单生成，你甚至可以用码本来完成。

音高信息则比较难。如果是一个字，那么很简单，音高设为一个正常女声的音高就行了。但要一句话，有音高起伏，有连续性，让人感觉到自然，那是很难的。wavenet这种快十年没有一点质量进步的模型更不用考虑了，肯定不是。

从产品的角度上来说，这是一款抓住用户痛点的产品。从技术的角度上来说，如果这段音频是输入文字得到共振峰信息，然后手动加入音高信息，然后放入声码器输出人声，那技术含量是较低的。如果是输入文字信息和起始音高，自动得到共振峰信息和音高信息，然后声码器输出人声，那么这个技术是逆天的。要真有这么个东西，我工作不做了，直接去他们公司把源码偷出来，坐牢都愿意。

其中有两句学猪叫，这属于清音。汉语中是没有纯粹的清音的。因此清音是没有办法通过自动生成的特征得来的。我认为这个ai还是技术含量不高的那一类。

如何看待米哈游逆熵科技AI生成的鹿鸣声音? 的其他答案点击这里

前一个讨论

请问机器学习中的预测与决策的区别是什么，他们的界限在哪里呢？

下一个讨论

半导体器件和材料研究生方向哪个更好？

服务条款

联系我们

关于我们

隐私政策

如何看待米哈游逆熵科技AI生成的鹿鸣声音? 第1页

相关话题

前一个讨论

下一个讨论

相关的话题