这个……我按照我自己的感觉来说吧……
首先,声库制作难……VOCALOID当初本身又不是为中文考虑开发的,甚至来说在语系上,汉藏语系的中文和(有资料说属于阿尔泰语系,也有资料说属于“孤儿”语系)日语韩语,印欧语系的欧洲各国语言截然不同。但是东亚三国国相似的经济,政治,文化,历史条件。搞的这款软件墙内开花香到墙外。中文的发音等复杂度的确是有的,为了适应这种复杂程度。中文声库一般比较大。
我清楚的记得17年玩VOCALOID3的时候看到洛天依声库解压出来四个G已经觉得比较大了……直到我后来在安装了乐正绫声库,解压出来是六个G(都是V3声库……)。
声库大肯定是有原因的,其中包含更多的采样适应更多的中文语音变化。说明中文需要照顾的发音相当多,如果照顾不周,必然有可能就是应该这样发的音被另外一个音替代,或者在采样上做不周到……
上海禾念几乎靠吃这碗饭生存,做出来的声库时不时也要被骂质量不佳,那么第一次涉足的初音v4c……
这导致的是中文声库的质量首先就不怎么样,很多按理来说机器就能做好的事儿,你必须要人守着来调,很多按理来说不该让人操心的事情只能让人去操心。想要达到一样的质量,中文必须付出更多的努力。
其次,要求也高。
从15~17年大发展之后,中文V家能够靠词曲和风格出名的基本上都已经占据了各种各样的生态位,可以说基本上分光了中文V家的“食邑”,后来者想要建功立业惊讶的发现现在不是他们能够靠作词作曲能出头的时代了,想要出名得要另辟蹊径。
于是动点p,酷路泽,以及后期瑞安,坐标p等人依靠优秀调校出名封地的时代来临了。
一方面靠调校出名给予了中文V家提高歌曲质量,使得其能够接近人声,另一方面,中文V家对于调校的要求水平不知不觉的被这些良调校带高了。
如果一个人习惯吃了精米白面,叫他再去吃窝头咸菜就很难了,“由俭入奢易,由奢入俭难”此言得之。大量的人不知不觉的提高了自己对于调校的要求,觉得这门手艺难了自然就正常。
如果了解一些语音学知识,你就会发现:
日语、英语、西班牙语声库都是以音素为单位的。
只有汉语声库是以音节为单位的。
英语声库里,ing, in, en, eng这些组合的/i/、/e/乃至/ŋ/都是可以拆出来重新组合的。甚至ei的e和i也是可以的。
你看汉语声库可以吗?
这种设计上的严重缺陷,限制了汉语声库的拆音可能和表现能力。
而且在不考虑声调的情况下,英语的发音比普通话复杂,音素更多。但英语声库又远大于普通话的。这只能归咎于声库的设计了。