@科言君从听觉原理上解释的非常通透了,那么我从声音的本质和人的主观感知来补充一下。
我们平时听到的自己说话的声音,是通过骨传导和空气传导进入到内耳,被大脑感知的。一个把骨头当成传递媒介传导,一个把空气当成媒介传导。关于人怎么听到声音高低和人耳的介绍,我之前在一篇回答里详细介绍过:
而把一个麦克风放到我们面前录音,声音只经过空气传导到麦克风中。这和一个人站在我们面前听我们说话是一样的,所以你听到你自己说话的录音,和别人听到你说话的声音,是一样的。所以当你播你自己录音的时候惊呼“我的声音怎么那么难听!”,旁边的人一般都会淡淡的说一句:你说话就这样啊。
问题是,传导方式不一样,为什么会导致听到的声音不一样?
首先,人在听自己说话时,不管是哪种传导,听到的声音都有高频衰减。
空气传导:我们说话的时候嘴巴冲着前面,指向性向前,由于高频的绕射(衍射)能力不强,所以导致听到的低频成分减少。而低频绕射能力强,即使嘴巴冲着前面,也会有很大一部分又绕回到耳朵里。
骨传导:人头骨低频传导效率好于高频。
综上,我们听到自己说话的声音相对于录音发“闷”,更加低沉。
但区别并不仅仅在于此,其关键因素在于音色。当人在说不同话的时候,骨传导和空气传导的能力是不同的,同时又随频率变化。因此,导致两种传导叠加起来的声音在不同频率的增益有所变化,导致音色差异。比如发元音/a/“啊”的时候,骨传导较弱,空气传导占主导;发/i/“咦”的音,骨传导在2000赫兹会对声音有较强增益[1]。
下边的图给出人在发出不同元音时候的响度频谱图。发出的声音在经过骨传导和空气传导叠加之后被自己耳朵感知,其频率不会变化,但是会引起共振峰(图中的各个尖峰)峰值高低的变化,从而导致音色改变。而如果在嘴巴前面放麦克风录音的话,除了整体略有衰减,并不会产生这一系列的变化。
共振峰峰值的变化引起音色的改变,可以用乐器来解释。闭上眼睛,我们能听出不同的乐器,即使弹同一个音。如果“弹同一个音”仅仅对应单频的纯音信号,那么确实很难区分。而现实是在发出一个音的同时,会有很多高频谐波出现。比如拨动吉他的琴弦,根音发出基频(下图左上角动图),描述了这跟弦的振动模式。但是除了这一种振动模式,还有图中其他五种,甚至更多高阶的振动模式。每一种振动模式对应一个频率的声音,并且频率呈倍数关系。
下面视频就解释了为什么弹同一个音,不同乐器呈现出来的音色完全不同。视频里面纵向的是频率,横向为时间。当然时域上的变化也会引起完全不同的听感,比如中提琴在时域上有很强的变化,声音更“颤”。这里我们只关注纵向频域上的变化。视频中,每种乐器弹得都是128Hz对应的音,可以看到不同乐器达到的谐波阶次不一样(在纵轴上越往上,谐波频率越高,达到的谐波阶次也越高),比如大提琴有很高阶次的谐波,这些也会导致音色的不同。由于高频能量不高,我们听到的声音大部分来自于低频的谐波。在低频的谐波中,我们会发现,不同的乐器谐波能量分布区别很大(颜色越深,能量越高),峰值不尽相同。所以即使时域的变化相同,谐波阶次相同,这些声音的音色也都是不一样的,从而导致听觉上的差别。这些谐波对应语音的共振峰,由于听自己说话和听自己的录音的共振峰峰值(能量)不同,所以听起来不一样。
不同乐器弹一个音,听起来不一样 https://www.zhihu.com/video/1195931656953954304视频来源:http://whatmusicreallyis.com/
乐器依次为:钢琴,大键琴(Harpsichord),古典吉他,印度西塔琴(Sitar),中提琴(Viola),大提琴(Cello),上低音萨克斯(Baritone saxophone),低音管(Bassoon),日本尺八(Shakuhachi),手风琴(Accordion)
需要注意的是:
前面都是在“无损音质”前提下的分析,还有一个原因是“有损录音”,比如微信的录音被严重压缩,所以听起来就更不一样了。可以看做被压缩更严重的MP3格式,严重到人能听出音质不同的程度。感兴趣的同学可以用微信和手机自带的录音软件录同一段声音,看看区别有多大。
听起来不一样,所以我们会感觉奇怪。但是为什么大部分人听自己的录音,感受到的不仅仅是奇怪,而是不喜欢甚至是讨厌呢?
我们的声音不仅仅是传达我们想说的话,更重要的是传达“我是谁”、“我从哪里来”等一系列高端信息。话怎么说出来,是信息能否被精准表达的关键因素,而我们的声音又是体现信息中细节的关键。
那么问题来了。
我们在说话的时候,大部分精力都用在思考我们要说什么。而当我们听自己的录音的时候,我们有更多的时间去分析我们说话的内容,注意到话是怎么表达的,自己的语音语调是否得体等等。这些大部分是我们在说话的时候注意不到的。当发现我们想表达的、想给人留下的印象并不是我们的本意时(时常发生),于是乎就扎心了。
不过这个解释也有局限性。对大部分人来讲,并不是经常回放自己说话的录音。但是对于政客、歌手、演员等,会经常看自己的视频,听见自己说话的声音,在自己声音不断曝光的过程,肯定会渐渐适应。而且公众人物会经常训练如何在公共场合理的表达,那么他们是否还会羞于听到自己的声音?
还有人是因为不喜欢听到录音里自己的方言,比如我的东北老乡,总以为自己说话和播音员一样标准,结果听到录音里一嘴的大碴子味儿一下就崩溃了。
另外,在智能手机盛行后出生的10后们,都有家长们给他们录了无数个G的视频。他们对于自己的影像和声音早已熟悉,那么他们是不是感受不到我们这些老叔叔老阿姨们的苦衷呢?
你们是怎么认为的?你们是因为什么不喜欢听、或者是喜欢听自己的声音呢?
我的声学专栏
公众号/今日头条:
子鱼说声学
声学相关文章: