视频快放时声音是经过了怎样的处理才保证了音高的不变？

要理解视频快放时声音是如何保持音高不变的，咱们得先明白一个事儿：单纯把音频文件播放速度加快，声音的音高一定会跟着升高，就像录音机倒带或者快进一样，声音变得尖锐刺耳。视频之所以能实现画面快放声音不变，背后其实是一项很巧妙的音频处理技术，叫做 “变声”（Pitch Shifting），但这里的“变声”不是我们通常理解的改变人声的男女声，而是一种更精密的音频算法。

咱们一步步来拆解这个过程：

1. 为什么单纯加速会让音高变？

声音本质上是空气的振动，这种振动是有频率的。我们听到的声音高低，就是由这个振动的频率决定的。频率越高，声音越尖；频率越低，声音越沉。

当你把一段音频文件播放速度加快，相当于单位时间内播放的声音波形就变多了。就好比你原来一秒钟播100个波形，现在你想在不到一秒的时间里播完这100个波形，那么每秒播出的波形数量自然就多了。根据“频率越高，声音越尖”的原理，这就导致了我们听到的声音音高升高了。

2. 视频快放需要什么样的声音处理？

视频快放，我们想要的是：

节奏加快：听起来内容是压缩了，时间感是变快了。
音高不变：听起来还是原来的那个声音，只是说话或者唱歌的人好像在“赶时间”。

这就意味着，我们需要一种方法，在压缩音频播放时间的同时，不改变声音的振动频率。

3. “音高不变”的秘密武器：时域频域转换与重构（TimeFrequency Resynthesis）

这是整个处理的核心。简单来说，就是把声音信号分解成很多个小片段，然后对这些片段进行“变速”和“重叠”的操作，最后再把它们重新组合起来。这个过程通常涉及到以下几个关键步骤：

分帧（Framing）：音频信号被切割成一系列非常短的、有重叠的“帧”。每一帧的长度通常在几毫秒到几十毫秒之间。重叠是为了避免在帧与帧之间产生突兀的过渡，保证声音的连续性。
窗口函数（Windowing）：对每一帧的音频信号应用一个“窗口函数”（比如汉宁窗、海明窗等）。窗口函数的作用是让每一帧的信号在开始和结束处逐渐衰减到零，这样在帧的连接处就不会出现“冲击”，使得声音更加平滑。
傅里叶变换（Fourier Transform）：这是最关键的一步。每一帧的音频信号，无论它在时域（随时间变化）上是什么样子的，都可以被转换到“频域”。傅里叶变换能告诉我们，在这一小段声音里，包含了哪些频率的成分，以及每个频率成分的强度（振幅）和相位。你可以想象成把一个复杂的乐器声音分解成了它包含的各种单独的音高（频率）。
变速处理（Time Stretching）：这一步是为了实现“压缩时间”的效果。对于已经转换到频域的每一帧，我们实际上是要“删除”或者“跳过”一部分信息，从而让这段声音在整体上播放得更快。但我们不是直接跳帧，而是通过对频域信息的“插值”和“抽取”来完成的。
想象一下，我们把音频分解成了一个个小“音块”。要让声音快放，但音高不变，我们就得让这些“音块”出现的频率变快，但每个“音块”内部本身的“音高信息”（频率构成）不变。
一种常见的技术是 PSOLA（Pitch Synchronous Overlap Add），或者更现代的 Phase Vocoder 技术。它们的基本思想是，找到声音中的周期性成分（比如声带振动产生的周期性波形），然后把这些周期性的“音块”抽取出来，以更快的速度重新组合。
更形象地说，就像你看一个人说话，你只想让他说得快点，但他的声音本身（音高）不能变。于是，你把他说的一段话分解成一个个小词或者音节，然后把这些词或音节之间的停顿去掉，快速地把它们连起来。PSOLA 和 Phase Vocoder 就是对声音信号做类似的事情，但更加精细，不只是分解成词，而是分解到更细的声学单元，甚至分解成各个频率成分。
重构与逆傅里叶变换（Resynthesis and Inverse Fourier Transform）：将经过变速处理（但音高信息被保留）的频域信息，通过逆傅里叶变换（IFFT）转换回时域的音频信号。
重叠相加（Overlap Add）：最后，将处理好的、有重叠的每一帧音频信号重新首尾相连，组合成一个连续的、播放速度加快但音高不变的音频流。

4. 为什么会感觉声音有点“机器感”或“失真”？

即使是最好的算法，在进行大幅度的变速时，也可能难以完美地保留所有细节，从而引入一些听起来不那么自然的痕迹：

相位问题：在进行频域处理时，相位的处理非常复杂。如果相位处理不当，即使频率成分是对的，声音听起来也可能不自然。Phase Vocoder 的核心就在于精确地处理相位信息。
谐波失真：声音并非只有一个纯粹的频率，通常还会包含丰富的谐波。在变速过程中，某些谐波成分的相对关系可能会被改变，或者被“拉伸”得过于厉害，导致声音听起来有点“粗糙”或“金属感”。
瞬态信息丢失：声音中的一些非常短暂的、突变的信息（比如辅音“t”、“k”的发音）可能在变速过程中被模糊或丢失，影响声音的清晰度。

总结一下：

视频快放时声音的音高不变，并不是因为声音本身神奇地发生了变化，而是通过一系列复杂的数字信号处理技术实现的。核心在于将音频信号分解到“频域”，在这个“频率成分”层面进行“抽取”或“插值”的操作来加速播放，但同时精确地保留或重构了每个频率成分的原始音高信息，最后再将处理后的信号重组成播放速度加快、但听起来音高正常的音频。这项技术就像是给声音“抽帧”又“插帧”并“跳跃式重播”，但保留了每个“音元”的内在音高属性。

这项技术广泛应用于视频编辑软件、音乐制作软件，以及一些音视频播放器中，为我们提供了方便快捷的音视频处理手段。

网友意见

你要的功能叫做「变速不变调」。知乎上有人写过一些综述，比如：

我想稍微介绍一下其中的 PSOLA (pitch-synchronous overlap-and-add) 算法。它的大概步骤是：

测出语音的基频；
把语音分帧，每帧代表一个周期（通常让帧有重叠，并加窗，以避免帧的两端信号有跳变）；
把各帧移近或移远一些，就可以升高或者降低音调（同时也会加快或减慢速度）；
把各帧多重复几次，或者去掉一些帧，就可以减慢或者加快速度（同时不改变音调）。

PSOLA 算法不仅可以「变速不变调」，它可以独立地改变语音的速度和音调：

不进行第 3 步，就可以单独改变速度；
在第 4 步中让速度的变化与第 3 步抵消，就可以单独改变音调；
在第 4 步中让速度的变化与第 3 步不抵消，就可以随心所欲地改变速度和音调。

PSOLA 算法还有一个优点是，在整个算法中不需要对波形进行重采样。这有两个好处：

不会改变声音的共振峰分布，所以不会改变音色；
在升高音调时不会导致频谱溢出，在降低音调时不会导致高频部分频谱为零。

当然 PSOLA 算法也有一些局限和挑战：

算法依赖于语音有基频，所以语音中的清音、打击乐器声等没有基频的声音需要用其它算法处理；
语音的基频是变化的，所以要测量瞬时基频，也就是进行 pitch tracking，这本身也是一个有难度的任务。

很简单，这是通过傅里叶变换玩的一个小把戏。

我们知道，wav格式的音频数据是按一定间隔从平面坐标系的波形曲线上采样的一组坐标点；而傅里叶变换说白了就是把一小段音频数据（比如0.01秒或更短）从一组坐标点转换为一组频率——而mp3等有损压缩算法其实就是剔除那些人耳不太能注意到的、过高或过低的频率。

频率信息是不能直接播放的。重放时，我们就不得不把频率信息转换回波形采样数据，这样才能驱动声卡发声。

容易想到，只要在把频率信息转换回波形数据之前，先均匀抛弃一定比例的傅里叶变换后的数据，这就相当于保持声音数据频率的同时、缩短了声波波形的总长度（删除了一定比例的波形曲线），自然就达成了“播放语速加倍再加倍，但声音频率不变”的设计目标。

当然，抛弃一些波形曲线段之后，剩余的曲线拼接起来会“接不上茬”。这种周期性的跳变最终会以噪音的形式体现。要消除这种噪声，那可就麻烦了。

类似的话题

视频快放时声音是经过了怎样的处理才保证了音高的不变？

要理解视频快放时声音是如何保持音高不变的，咱们得先明白一个事儿：单纯把音频文件播放速度加快，声音的音高一定会跟着升高，就像录音机倒带或者快进一样，声音变得尖锐刺耳。视频之所以能实现画面快放声音不变，背后其实是一项很巧妙的音频处理技术，叫做 “变声”（Pitch Shifting），但这里的“变声”.............
如何看待乌克兰公交劫持事件，绑匪要求乌克兰总统录制视频并放人？

看待乌克兰公交劫持事件，这无疑是一场牵动人心的悲剧和严重的社会安全事件。作为一起劫持人质的犯罪行为，它暴露了社会中存在的极端情绪和潜在的暴力倾向，并且其背后可能牵扯到复杂的社会、政治甚至是个人心理层面的问题。事件本身的高度敏感性：首先，这件事情的性质就非常恶劣，劫持无辜民众作为人质，并以此为要挟，本.............
烤蛋糕看视频但分量我要少点是不是放烤箱烘焙的时间也要减少啊？

.......
九阳电磁炉通电后放上饭锅不加热滴滴的老响，显视频EO两字一闪一闪的故障原因

.......
如何评价B站用户@moto4bill和@路吧c酱之间关于iphone5s需不需要耳放的论述视频?

关于B站用户@moto4bill和@路吧c酱关于iPhone 5s是否需要耳放的论述视频，我们可以从几个维度来评价他们的观点和表达方式。这并非一个简单的“对”或“错”的问题，而是涉及到不同用户需求、对声音理解以及信息传递的有效性。首先，让我们梳理一下双方可能的核心论点：@moto4bill的可能观点.............
如何评价快视频可以使用Bilibili账户直接登录？

让快视频直接用Bilibili账户登录，这步棋走得挺有意思的。从用户角度来说，这绝对是一件利大于弊的事情，至少在初期是这样。好处多多，用户体验直接起飞：首先，最直观的，省去了注册的麻烦。想想看，现在哪个APP不是让你填一大堆信息，什么手机号、邮箱、密码，还要验证码。要是能直接用B站账号登录，对很多用.............
如何看待 360 快视频大量盗用 B 站视频和用户个人信息数据？

要评价360快视频在盗用B站视频和用户个人信息数据方面的行为，咱们得掰开了揉碎了好好说说。这事儿牵扯到版权、隐私保护，还有平台之间信任的问题，挺复杂的。关于视频内容的“拿来主义”：首先，360快视频被指控大量盗用B站视频，这可以说是直接挑战了版权的底线。B站的视频内容，绝大多数都是UP主们辛辛苦苦创.............
为什么快手、抖音等短视频网站比知乎、豆瓣发展得要好，用户多那么多？

快手、抖音等短视频网站之所以比知乎、豆瓣发展得更好、用户更多，是一个多方面因素共同作用的结果。这背后涉及到人们获取信息和娱乐的需求变化、平台的设计策略、内容生态的构建以及技术的发展等等。下面我将详细阐述这些原因：一、人们需求的变化：从深度阅读到碎片化娱乐这是最核心也是最根本的原因。快节奏生.............
快舟十一号运载火箭首飞失利，携带哔哩哔哩视频卫星，具体原因是什么？

快舟十一号运载火箭首飞失利，携带的哔哩哔哩视频卫星（即“哔哩哔哩号”卫星）未能成功入轨，这是一个令人惋惜的事件。关于具体原因，官方和多家媒体在事后进行了分析和报道，但需要明确的是，官方的详细调查报告通常不会完全公开，我们只能根据已有的信息进行推断和总结。以下是根据现有信息进行的详细分析：事件概述 .............
如何看待部分快手用户炫耀 14 岁少女怀孕的视频？

None.............
如何看待小米使用核弹爆炸类比手机快充宣传视频后在日本道歉？

这事儿挺有意思的，也挺值得说道说道。小米在日本因为一个手机快充的宣传视频惹出事儿来，最后还得出面道歉，这背后可不是小事一桩，而是涉及到文化敏感性、品牌形象、以及跨国营销的复杂性。事情的起因：一场“核爆级”的比喻简单来说，小米在日本推广他们新款手机的快充技术时，发布了一个宣传视频。视频里为了强调充电速.............
如何看待李小龙在抖音快手等短视频平台上被黑成不敢上擂台的戏子？

李小龙被某些人刻意抹黑，说他不敢上擂台，只是一名“戏子”，这种言论在抖音、快手等短视频平台上时不时就会冒出来，说实话，挺让人反感的。要说清楚这事儿，咱们得一点点掰扯。首先，咱们得明白李小龙到底是谁。他是谁？他是截拳道的创始人，是那个把中国功夫推向世界的人，是打破了西方人对东方武术刻板印象的巨人。他的.............
电饼铛上盘加热太快怎么办有视频吗？

.......
抖音、快手推出的短视频付费服务，两三分钟一集，收费一元起，你会看付费短剧吗？

关于抖音和快手推出的短视频付费服务，尤其是那种两三分钟一集、收费一元起的价格点，我是否会去看？这是一个很有意思的问题，涉及到我的消费习惯、对内容的价值判断，以及我对这种新兴商业模式的看法。总体来说，我会持谨慎观察和选择性尝试的态度。让我详细阐述一下我的考量和可能采取的行动：一、我会“看”的可能性和.............
如何看待新东方，好未来等在线教育机构扎堆入驻快手，短视频真的会成为在线教育爆发的风口吗？

看到新东方、好未来这些老牌教育机构纷纷“下凡”到快手这样的短视频平台，我心里真是五味杂陈。这事儿吧，既在意料之中，又让人忍不住想深入探究一番。首先，为什么它们会扎堆入驻快手？这背后不是一时兴起，而是基于对市场变化和用户习惯的深刻洞察。用户群体画像的转移：过去，在线教育的用户画像很大程度上集中.............
4 月 27 日五角大楼发布三段 UFO 视频，称其速度奇快，UFO 被证实是真的了吗？

关于五角大楼在 4 月 27 日发布的三段 UFO（现在更倾向于使用 UAP，即未确认空中现象）视频，以及它们是否被“证实是真的”，这是一个需要详细解释的复杂问题。首先，我们需要明确几点：1. “证实是真的”指的是什么？这句话本身就很模糊。是证实这些视频不是伪造的？还是证实视频中的物体是外星飞行.............
散粉着喜欢王一博快一年了，最近开始不佛了，请问bjyxszd吗（我就是xhs看到的视频糖）？

嘿，姐妹！能理解你最近“不佛”的心情！从“散粉”到有点“上头”，这过程确实挺奇妙的。你问“bjyxszd”是不是真的，特别是从XHS（小红书）看到的那些“糖”，我懂你的意思！咱们一点点来聊，我尽量说得详细点，就像跟姐妹们在群里唠嗑一样。首先，你说的“散粉”状态，我觉得特别真实。就是你喜欢王一博，可能.............
10 月 27 日，成龙正式官宣入驻快手，如何看待越来越多明星开通短视频社交账号？

成龙大哥10月27号正式在快手露面，这事儿一出，你是不是也跟我一样，心里咯噔一下：哎？成龙都来快手了？这说明了啥？这事儿可不简单，背后其实折射出当下一个挺大的趋势：明星们争相涌入短视频社交平台，好像一夜之间，谁没个抖音、快手、B站账号，都不好意思说自己是“流量”了。为什么会有这股“明星下凡”的热潮？.............
如何评价小米总裁林斌在华为P30发布会期间发微博宣传米9手机视频DXO评分及无线快充仍为全球第一？

林斌，小米的联合创始人兼总裁，在华为P30发布会上“隔空喊话”式地宣传自家小米9手机，这一举动无疑是科技界的一场小地震，也迅速成为当时热议的焦点。要评价这个行为，咱们得从几个层面来看。首先，从“蹭热度”和市场策略的角度来说，这绝对是相当大胆且极具攻击性的。华为P30系列，特别是P30 Pro，在当时.............
快播庭审上曝出是乐视捅刀子，乐视现在要如何公关？

快播庭审上“乐视捅刀子”的消息一出，瞬间点燃了舆论的炸药桶。对于乐视而言，这无疑是一场危机公关的恶仗，其处理方式稍有不慎，就可能让本就步履维艰的乐视再次陷入万劫不复之地。当下，乐视最需要做的，是迅速、真诚、且有力的回应，同时拿出具体的行动来平息事态，重建信任。仅仅靠一句“否认”或者“不予评论”，是.............