音质这个东西真的很明显吗？第1页

shi-wang-31-73 网友的相关建议:

这个问题下面的回答可能只有 @丧心病狂刘老湿的答案能一定程度上解答题主的问题，但还是过于简略。这里尽可能简单地回答一下题主的问题。

首先，我们先看一下题主在补充里面提供的图片：

从这里可以看出，题主问题中的“音质”，并非是我们平时在耳机或音箱评价里，“这个耳机音质真好”的那种“音质（sound quality）”，而更接近“音频品质（audio quality）”的概念，具体在这个问题里，指的就是“不同比特率之间的有损音乐格式与无损压缩格式下的音乐在听感上带来的不同差异”。

如果说人话，就是“有损和无损听起来到底有没有差别”。

题主头疼的是，明明QQ音乐上给了不同品质的文件，咋听起来差不多一样呢？那它给这么多选择干啥，让人选着玩儿？

针对这一点，我的回答是：

为什么呢？因为题主听的，是mp3。

（也可能是aac，不过这俩本质一个东西，所以就说成是mp3吧）

而正如之前所说的，mp3是一种有损压缩格式。那么问题来了，我们说的这个“有损”，到底“有损”在哪儿？

首先，在mp3出现之前，我们通常接触到的、未经压缩的音乐文件，往往是CD抓轨形成的诸如wav的文件形式。

而CD，或者wav，是一种数字信号的记录，也就是常见的0101。记录的是什么？声音，也就是模拟信号。

很明显，这俩不是一个东西。

那怎么记录？很简单，通过“采样”。

简单来说，就是在一段时间内选取无数个点，通过记录这些点在声音波形上对应的部分，然后再将这些记录下来的点依次连接起来的方式，来记录和回放声音这一模拟信号。

采样好是好，可是采多少样合适呢？毕竟同样一段波形，我一秒钟采3个样和一秒钟采80个样还原出来的肯定有差距。

好在这方面此时早有研究。

根据奈奎斯特-香农定理，如果信号带宽小于采样频率的二分之一，那么此时这些离散的采样点就能保证还原原信号。

换句话说，如果要记录一个模拟信号，采样频率应该不小于（准确地说，大于）模拟信号频谱中最高频率的2倍。

已知，人耳能听到的频率范围大约在20到20000hz之间。

那么，要完整地记录人耳听到的声音信号，采样率至少要大于40000hz,也就是每秒记录40000个数据点。

经过CD的发明者——索尼和飞利浦的一番争执后，CD的采样率被定在了44100hz上。（至于为什么是44100，知乎上早有人解答过，这里不再详细解释。）

同时，CD记录的16bit采样深度，能够为其提供约96db的信噪比，足以应对大部分音乐的记录与回放。

然而带来的问题就是，CD内容的wav文件，太大了。

具体多大呢？我们可以做个计算。

一般CD记录的是2声道内容，16bit的精度，加上44100hz的采样率，可得CD或者wav的比特率为2×16×44100=1411200 bps=1411.2 kbps。

也就是说一个wav文件，一秒钟大约要传输1411kb的数据。

也就是说，一个3分钟的wav文件，体积大约是3×60×1411.2/8=31747.5kb，大约30M。

太大、太麻烦、太没有必要了。

这个时候，“压缩”就成了头等大事。

其中自然有可以从压缩后的文件中完美还原wav内容的无损压缩，但这种压缩为了保证结果的“无损”，压缩率必然不可能做太小，这就限制了它的发挥。毕竟，一首歌20M和一首歌30M，好像区别也不是很大。

于是，为了更小的压缩率和更小的文件体积，有损压缩应运而生。

其中的代表，就是mp3，全称MPEG-1 Layer 3。

所谓“有损”，顾名思义，这种压缩格式对原文件的信息是有损失的。

问题在于，怎么决定损失哪些？

这就是mp3聪明的地方了。

为了解释这个问题，我们要先说一些心理声学的内容。

首先，人类对声音的感知，很大程度来自我们的耳朵：声音从耳道传至鼓膜引发振动，听小骨随后将鼓膜处的振动传导至内耳的耳蜗处，由内部的听毛细胞感受振动并将其转化为电信号，之后再由大脑对这些电信号进行处理，以此完成我们对声音的感知。

听起来没问题。但问题是，我们的耳朵不是所有听觉信号都传导。

也就是说，我们的大脑，包括耳朵，对于一些声音信息，其实是不care的。

这就涉及到了一个很重要的心理声学内容，叫做“掩蔽效应（Masking Effects）”。

举个简单的例子。

过年了，你正在家和女朋友通电话，这时候外面突然响起了一声炸响，一时间锣鼓喧天、鞭炮起舞、红旗招展、人山人海。

问：这时候你还能听到你女朋友在说什么吗？

大概率是听不到了。

（如果能听到，那就涉及到另一个重要的心理声学现象“鸡尾酒会效应（Cocktail Party Effects）”，这里不展开说了）

这种两个声音同时出现，其中一个响度较大的声音掩盖住响度较小的声音的现象，就属于所谓的“掩蔽效应”。

（当然掩蔽效应不只包括这一种，还有几个声音不同时发声所带来的时域掩蔽等，对于乐音和噪音的掩蔽关系也是需要区分的，这里不多讲了，知道有这回事就行了。）

而掩蔽现象的出现，就和这种“不care”的态度，有直接的关系：人耳内的听毛细胞只会对某一个区域内最强的声音刺激进行反应，剩下的它完全不关心。

我们的“有损压缩”，就是建立在这个基础上。

简单来说，mp3所做的“压缩”，一个很重要的步骤，就是通过构建心理声学模型，来找出原声音文件中人耳和大脑不care的部分，然后将其进行删除和改写。这一过程涉及到子带信号、滤波器的选择等多个方面，相当复杂，这里实在没必要一个个展开说了（不然说着说着就暴露出自己也不会了）。

通过这种方式，mp3就实现了在压缩的足够小的前提下，尽可能地减少压缩对文件听感的影响。

同时，在这一步骤完成后，mp3还会通过无损压缩的算法，使原本压缩后产生的音频数据进一步压缩，从而得到远小于普通无损压缩的压缩率，甚至能达到1:10乃至更高的压缩比。

这就意味着，原本1411kbps的wav文件，经过MP3的压缩之后，能达到192kbps、128kbps，甚至更小的比特率。原来需要30M 才能装下的音乐文件，现在只需要2.8M的空间，就能轻松地容纳。

而在此之上，MP3团队还通过进一步完善心理声学模型等方法，编写出了听感更胜一筹的aac格式，能够做到同等听感下更小的体积。只可惜因为种种原因，aac的普及一直弱于mp3。关于这一点已经有很多人在知乎上科普过，这里不做阐述。

回到开头。我说题主“听不出来就对了”的原因，也就基本解释清楚了：

因为mp3，从一开始，就是以“让你听不出来”为目标，而进行编写的。

但是解释到这里，还不算完。

前面说过，MP3格式中，比特率的下降，是通过对原文件中人耳和大脑不care的部分进行删减而得到的。其中删减的越多，比特率越小，得到的MP3文件体积也就越小。

但删着删着，就会出现一个问题：随着比特率越来越小，我们的大脑开始意识到，自己好像能听出来MP3和原文件的区别了。

这就是题主可能最关心的问题：MP3这种东西，到底压缩到什么程度，能保证和CD对比可以分辨出来差距呢？

这也是为什么我说 @丧心病狂刘老湿一定程度上解答了题主问题的原因：他只回答了320kbps比特率下MP3可识别性的方面，对更高压缩比的MP3文件没有进行讲解。

而题主在补充中说的“标准品质”，往往是128kbps，甚至更低比特率的MP3或者aac。

那么，128k及以下的MP3，是否可以做到听感上的不可闻呢？

关于这点其实有很多论文进行过论述——MP3是一个很早的压缩编码，这方面的研究实在相当多了。以至于2016年Richard King的一篇论文中就对之前相关研究的结论进行过总结，结果相当有趣：

我们可以看到，面对不同的实验条件，研究者所能得出的“可分辨比特率”呈现出明显的波动：在Rogowska的研究中，所有MP3音频文件的可感知比特率上限为96kbps，而在Pras的研究中，只有比特率到达192kbps以上时，所用的MP3文件才能保证与CD格式拉不开差距。事实上，在一些实验条件较为宽松的研究中，有时可以出现在320kbps比特率下仍可以分辨出MP3和CD差距的结果，这实际上也说明了在MP3比特率与可闻性的关系中，比特率并非唯一决定因素。

这坏事了——那题主的疑问到底怎么解答？

对此，我想以2012年Sean Olive的一篇名为“Some New Evidence That Teenagers and College Students May Prefer Accurate Sound Reproduction”的论文为例，对题主的问题尝试着进行回答。

在论文中，Olive找了一群年轻人，其中有18位高中生和40位大学生（41男17女），然后让他们在哈曼标准听音室（Harman International Reference Listening Room）内，用听音室内的音响系统（两个JBL LSR6332，4个HB5000低音炮，用mac mini输出信号到Echo Audio Firewire8音频接口进行数模转换后传输到Lexicon LX7功放进行驱动）聆听4首格式分别为128kbps和CD音质的歌曲进行ABX 盲听判断，共进行了696次判断。

最后的结果是，Olive发现相比于mp3，约70%的人更喜欢CD的音质——似乎可以证明对大部分年轻人来说，CD音质和128kbps比特率的MP3是可以分辨出来的。

……果真如此吗？

我们看一下另一篇论文。

这是Olive对于18位高中生的实验结果进行单独分析的一篇论文。从图表中我们可以看出，尽管身处几乎顶级的听音室之中，仍有大约4到6名学生在面对MP3和CD音质偏好的选择中难以得出明确的偏好结果——对他们来说，MP3和CD的声音就算有差别，也是各有千秋，难分高下。

所以回到题主的问题：音质（audio quality）这个东西真的很明显吗？正常人是否能听出来？

我只能说，如果只针对题主问题中提到的有损压缩文件——

是的，很明显。

至少在128kbps及以下的MP3里，很明显。

但是，题主作为年轻人，无法分辨出QQ音乐标准品质（128kbps及以下比特率MP3）和无损的区别，也是很正常的。

那么，是哪些因素影响了不同比特率MP3与CD分辨结果的差别呢？从以上的论文中，我们似乎可以找到这么几个可能的因素：

1、MP3编码

事实上，MP3在1993年（是不是？记不清了）问世之后，其压缩编码是在不断改进中的。这就需要涉及到两个概念：一个叫VBR，另一个叫CBR。

CBR即常数比特率，也就是整个MP3文件从头到尾每秒输出的比特数是不变的，不管这一秒内有没有基于心理声学模型可以掩蔽的内容，都稳定输出固定的数据量。一个完全没有掩蔽的音也是128kbps，一个完全被掩蔽掉的音也是128kbps。

VBR则是动态比特率，文件内每秒输出的比特数是随着音乐内容的多少而变化的。内容较简单则输出较少的数据，较多则相反。与CBR相比，有着体积上的优势。

放在频谱上则是：

我们可以看到，对于不同的编码方案，MP3对于信息的删改也是有区别的，这可能会带来听感上的差异。

同时，由于MP3漫长的发展历程，很多MP3编码器内部的算法、模型也是经过更新和迭代的。如最常见的LAME编码器，就经历了十几年的时间内从3.7到3.100的演变，对于MP3的压缩也略有不同。这种编码器版本的差异也有可能带来不同的分辨结果。

2、文件编码方式的不同

目前常见的压缩格式中，aac从一开始便被视作MP3的进阶产品，这在其音质表现上也有所体现——在部分实验中，aac要达到与其他有损压缩格式没有明显的听感差异只需要达到96kbps，而MP3可能要达到192kbps。也就是说，至少在低码率下，aac在音质上要比MP3更有优势，也更难与其他格式区分出来。

3、所听声音素材和音乐内容的不同

这一点在很多论文中都有所涉及。比如Rogowska的论文中，不同的EBU声音素材对于不同比特率的MP3的分辨有着明显差异：竖琴、萨克斯和中提琴对不同压缩比的分辨能力更强，而三角钢琴素材则分辨能力较差。

Pras的数据中流行乐和金属乐相较于管弦乐和歌剧更容易分辨出MP3和CD的区别——但差别不大且并非决定性因素。

Olive也认为自己实验结果与Pras数据的差距可能与所用的试听内容有关——部分曲目可能更容易分辨出MP3的缺陷：

4、人群、听众的不同

这一点在Olive和Pras的数据中较为突出。在Olive的论文中，随着不同学生群体听音经验的增加，其对于CD音质的偏好也在增长，也就是听的越多、越有经验，对MP3的辨别能力应该就越好，也就越可能更喜欢CD：

而根据Pras的数据，相比于音乐工作者，sound engineers在CD与MP3的偏好选择上则更突出地偏爱CD，且两类人群对于同一音乐的关注点也有所不同。

同样，Olive和Pras数据的区别，也可能与其所选的试听人群有关——Olive的实验针对学生，而Pras的调查对象则是专业的音乐人与工程师。

当然，可能有其他论文对于MP3的辨别有着其他方面的分析与结论，这里不再赘述。

因此，我们现在可以正式地回答题主的第一个问题：

MP3与CD音质的区分在大约128kbps采样率及以下较为突出，同时受多种因素影响，对于不同听众、不同听音素材、不同编码可能有不同的反馈。

在不同的条件下，mp3与CD音质的“最高可分辨比特率”会在96kbps到192kbps内波动，在256kbps及以上比特率的mp3文件中（根据Pras的数据）将与CD的音质不再具有明显的差别。

最后，我想简要地回答一下题主的第二个问题：

“要不要刻意去买一个千元耳机。”

对于这一点：我的回答只能是：不好说。

因为目前，很少（或者没有）人做过不同耳机对MP3的分辨能力研究。Olive本来有机会做，但不知道为什么没有做。Mizumachi倒是做过耳机与汽车音响对不同采样率MP3的对比，但这个实验过于宽松，结论有效性很差。

理论上，听众有可能会更喜欢在HATS人工头/人工耳上频率响应更为平顺的耳机。而耳机整体平滑的频响则或许能帮助辨别MP3和CD的差异，但这一问题目前没有得到验证（或者是验证了，但是我不知道）。不过从以上论文和之前hires音源的表现来看，至少在320kbps的MP3上，更换更好的耳机/音箱可能并不会帮助提高听众分辨MP3/CD的能力。而在Olive的论文中我们也不难发现，即使在极为优秀的音箱与视听条件下，仍然有部分听众没办法很好地分辨MP3和CD的音质高低——这意味着换了好耳机照样听不出来是有可能的。

同时，对于耳机的选择来看，目前的统计数据是在头戴式耳机和入耳式耳机这两类耳机中，耳机人群平均偏好与价格的相关性并不大。（这点目前存疑，统计结果数据不足。）

（注意，目前对实际所测的人群偏好与价格的相关性图表只有这两张，其他均为哈曼曲线预测值，靠谱程度一般，谨慎解读。）

如果考虑到不同听众的听音偏好、日常听音的非盲听环境、不同人群的听音曲目等方面，这意味着对于题主来说，“千元耳机”不一定能保证比自己之前的“非千元耳机”更好听。综合之前“好耳机不一定能帮助辨别MP3和CD”的结论，也就不难看出之前“不一定”的回答是如何得出的了。

综上：不建议题主更换千元耳机。如果要换，建议自己试听后再决定。

完

bingo-liu-66 网友的相关建议:

就说“插件是否能达到与硬件完全一致”这事。

理论上插件想达到与硬件“完全一致”的效果是不可能的，因为现实世界就是不完美的，同一个型号的两个不同设备都不可能达到“完全一致”，多少会有点微小差别，那么插件怎么可能跟硬件完全一致嘛……

但从另外一个角度上说，“像硬件一样”又是完全可能的——因为除了建模以外，我们还可以采样啊！老铁Acustica Audio了解一下呗？我直接对硬件进行采样，理论上你过硬件什么动静我就是什么动静。

不要跟我说什么“硬件基于的是模拟电路或数字驱动的实体”，在电声学领域里，采样和傅里叶变换破一切玄学，就这么简单。

eagleinsky 网友的相关建议:

事故已经定则了，说明已经过了执法机关了，这时候还扯个屁？

如果事故定则你没有责任，那你咋办都可以，别说三不一没有了，你全部都没有都行。

如果事故定则你有责任的话，你三不一没有只能让执法机关认为你在抗法。

音质这个东西真的很明显吗？的其他答案点击这里

音质这个东西真的很明显吗？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

音质这个东西真的很明显吗？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

音质这个东西真的很明显吗？第1页