个人总结:
辅音方面
唇位塞音(b、p)用来表现爆炸、破碎、碰撞等突然、急促性的响声,比如常见的拟声词bang、boom、砰、乒乓、啪等,人类语言里这样的动作或声响也很容易对应成唇辅音,比如汉语里爆、破、碰、拍、迫、逼等字,英语里的break,拉丁系语言的pause等。原理自然是人双唇从闭合到张开这个过程中明显的气流爆破感。
舌尖位置塞音(d、t)和高元音i搭配,用来模拟尖锐的高音,因为舌尖辅音和高舌位元音两者都有强烈的“抬升”感。比如人们把微波炉加热完毕的响声称为“ding”“叮”,乃至把它变成动词“叮一下”。同理,时钟表针走动的响声,汉语拟作“滴答”,英语拟作“tik tok”。倒计时、报警信号、电话铃声等也都不出“嘀”“叮”。
软腭位置清塞音(k)通常表示切割、曲折(但一般不会是浊音g),既可以拟声也可以拟态,因为软腭塞音本身就是一个在很窄的通道中闭合、阻塞的动作,而且音节后面最好再带一个塞音尾。拟声用法,如汉语的“咔嚓”“咳”,拟态用法就更多了,汉语“割”(中古kat)、曲(中古大概是khyok)、磕、卡(这个字可能本身就是个口语俗字),英语“cut”,法语“couper”,日语“きる”,朝鲜语“꺾다”(这词光看外形够拟态了)……
鼻辅音(m、n、ng)在语音学上称为“响辅音”,也就是说它们可以持续地发出声响,且鼻腔能提供强烈的震动感,所以鼻辅音适合模拟持续、响亮、悠远性的声响,尤其是接在元音后面作为尾音。这一点应该就不需要解释了,大家随便就能想出咣当、乒乓、轰隆、叮呤咣啷等一大堆拟声词。
摩擦音、气音、流音等(s、f、h、l),通常也可以持续地发,但发声的响度比鼻音小,所以适合放在音节开头位置来表现声音发出的场合。比如s表现笔尖、吸气等典型的摩擦动作,f(或hu)表现风和气流,h和l组合(“哗啦”“轰隆”),表现一个声音由弱变强的连续动作,等等。
元音方面
前低元音(a)表达响亮,前高元音(e、i)表达清脆、尖锐,后元音(o、u)表达低沉、悠远,这一点在动作叫声的模拟上体现得很明显:鸟(叽叽喳喳)、青蛙、羊、猫等主要用前元音,牛、虎、狼、狗等主要用后元音。表现爆炸的两个拟声词,“bang”给人的感觉是炸弹炸响的一刻,“boom”体现的就是爆炸后余波阵阵的冲击,所以鼻音尾也会相应地调整。同样,小雨是“淅沥”,大雨是“哗啦”,打雷就是“轰隆”,这里的前后元音使用也非常有意思。
值得注意的是,虽然人类在拟声和拟态上通常有一定的共性,但由于不同语言的历史演化,上述的规律也不是绝对的。而且不同语言对于自然声响的转述仍然会受本语言音系的影响,不同人对同一个声响的初始记录可能并不一样,但经过语言的大范围交流,某个声响可能会被一种语言的音系所固定,就像同是狗的叫声,汉语的音系更支持“wang”,印欧语则更支持“wow”;即便人们听到的是同一条狗的声音,最后表达出来的仍可能是不同的拟声词。
谢邀。这是一个音色匹配的问题,根据数年来作为一名使用汉语的人类个体的经验,unt 猜想性地提出以下模型:
首先是依据时间性(temporal)进行分类。将一门语言中的音素分为可延长发音的(元音、响音、擦音)和不可延长发音的(塞音、塞擦音),构成两个集合;人们将自然声音中的延长成分和瞬间成分分别在两个集合中进行匹配。
排除时间性之后,就是对音色(timbre)的匹配。简单来说,基本就是寻找人类语言音素集合中频谱包络(spectrum envelope)与自然声音的频谱包络的最接近的音素。对于元音辅音、清音浊音、乐音噪音而言,匹配标准肯定有所不同,但指导思想都是这样的。声码器(vocoder)也是以此为指导思想。对元音而言,频谱包络的峰值就是被我们称为共振峰(formant)的东西。如果一个自然声音也具有类似元音共振峰一样频谱包络,那它就很容易被我们映射到那个倒梯形的元音图中;为了让元音更接近原自然声音,人们还会考虑鼻化、卷舌、咽化、发声态等各种色彩。对噪音而言,除了频谱包络外,频谱平坦度(spectral flatness)可能也是一个重要的元素。
最后是周期性(periodic)上的匹配,即音高上的匹配。这个匹配不如前两个重要,但在汉语这样的声调语言中占有一席之地。这个匹配通常包括音高(音区)和音高包络(声调走向)上的匹配。
在这之后,还需要考虑音素组合规则和历史演变的问题,才会构成“合理”的拟声词。
以下以雷声为例:
自然界中的雷声是持续的,能量主要分布在中低频(图中高频的部分是雨水的声音),那么应该在浊音的元音里寻找。与它最接近的元音自然是前两个共振峰 F₁、F₂ 都最低的 [u]。雷声能量在中高频段的缺失又像是元音的鼻化色彩:鼻化时,鼻腔近似一个封闭的分支声管(不通行的支巷),吸收走一部分频率形成反共振峰,这个反共振峰正好位于中高频,与雷声相似(反共振峰效应对于高元音来说其实并不明显,但人们似乎是心理上认同了鼻音色彩 = 中高频缺失因而选择了鼻音色彩)。这样,雷声的拟声 [ũ] 在汉语音系下的匹配就是 ong [ũŋ] 这个韵母。
普通话里 ong 不能单独作为音节,而且这种雷声的起始阶段(attack/onset)应该是从无渐强的(否则就要用“咣!”、“邦!”来拟声了),那么用一个色彩性最弱的 h 来作声母是最合适的了。雷声中有随机出现的小 onset 或突强,用流音中最“塞”的 l 来表示也比较合适(注意,这种嵌 l 的方式可能不是拟声,而是单纯的构词手法)。雷声是噪音,且频率没有起伏,那么就用无标记的阴平来匹配。如此即生成了合理的音节——“轰隆隆”。
历史演变的问题有两个很有趣的例子。古代羊叫的拟声词是“芈”,为支韵上声,今天变成 mǐ 就完全不像了,于是重新造了“咩”。注意到,现在人们公认中古汉语的上声是个高调(即便推到上古也 ok),支韵是 /je/,这不就和羊叫声(“咩”)完美对上了嘛。另一个例子,“丼”是“投物井中聲”,覃韵上声,今天变成 dǎn 又完全不像了。但注意到上声是高调,覃韵是靠后、不完全低的元音,-m 尾,这不就又和今天的“咚”在听觉上对上了嘛。
信号处理(a.k.a. 编曲、混音)中有一种哇音效果器(wah-wah),声音如下:
使用了哇音效果的电吉他 https://www.zhihu.com/video/1084710368340791296音频来自 Wah-wah (music) - Wikipedia。
哇音效果器是用一个截止频率往返变化的低通滤波器实现的。截止频率低时,就像是 F₁、F₂ 很低的 [u];截止频率提升时,和 [u] 相比就像是 F₂ 提升了很多,也就是 [a] 音了。上面音频中的第一个音(F 滑到 F♯)的低分辨率频谱图如下,我用蓝线画出了这个音符的“共振峰”(下图),它就像 [wau] 的第二共振峰的变化一样。
现代音乐中,铜管乐器也会使用某些弱音器造成哇音,这甚至在发音原理上都和人发出 [u] 是一样的了(用“唇”盖住发声通道的出口)。
人通过控制发音的音色来模仿世间万物声音的能力是自发的、很乐于去使用的。呼麦(overtone singing)可能是人类控制元音共振峰达到的最伟大成就,能够让共振峰窄到集中于某个泛音上。人类不仅满足于自身能够模仿各种声音,还希望乐器也能如此。管风琴可能是用物理方式模仿声音的最伟大杰作。自中世纪以来,人们为管风琴发明了模仿各种各样的声音的音栓,能够模仿管弦乐队里除打击乐器以外任何一种乐器的音色,从唢呐一般的克拉里昂音栓(Clarion)到十分动人的天籁音栓(Voix céleste)。
好,我扯得太远了。