CPU 为什么要做分支预测而不是把两个分支都准备好?

打个比方，你想去逛街，去市中心还是去郊区？这是一个需要你做决定的地方。CPU 就像一个非常非常忙碌的家伙，它需要同时处理成千上万的事情，而且每件事都要争分夺秒。

在你真正做出决定之前，如果有人问你“市中心有什么好玩的？”，你可能会下意识地想一想，脑子里闪过市中心的电影院、商场、餐厅。如果接着问“郊区有什么好玩的？”，你可能又会想到郊区的公园、湖泊、农家乐。

CPU 呢，它面临的情况和这有点类似，但更急迫。它在执行指令的时候，经常会遇到“分支”——就像你决定去市中心还是郊区一样，CPU 可能要根据某个条件决定是执行 A 代码段还是 B 代码段。

为什么不把 A 和 B 都准备好？

这个想法听起来很直接，也很诱人。既然我不知道会走哪条路，那我干脆把两条路上的东西都先搬过去，等我确定了，直接搬走就行了，岂不是省事？

理论上，CPU 可以这样做。它确实能同时去执行 A 和 B 的一部分指令。这种技术叫做“乱序执行”和“超标量”，CPU 确实很擅长。它就像你在脑子里同时思考市中心和郊区的各种可能性，甚至可以同时规划去市中心和郊区的路线。

但问题出在“准备”和“执行”的代价上。

想象一下，你是一个小区的保安，你的工作是为即将到来的业主打开大门。

选项一：只准备一条路（分支预测）

你觉得大部分时间业主都会从正门进来，于是你就把正门守卫得严严实实，并且已经把门锁打开，甚至已经准备好了欢迎的横幅。如果业主真的从正门来了，你立马就能请他进来，效率极高。

但万一，业主那天心情好，想从侧门进来呢？侧门可能还没开，也没人准备。你发现业主走向侧门，赶紧跑过去开侧门，这时你就浪费了一点时间，因为你本来可以一直守在正门，但现在要折返回来。

选项二：两条路都准备好（双份准备）

那如果你觉得，这样浪费时间不好，那我现在就把正门和侧门都准备好。也就是说，两个门都打开，甚至准备了两套欢迎仪式。

这会带来什么问题？

1. 资源浪费（空间和能量）: 想象一下，你的小区很大，每个门都需要一个保安，并且要准备很多东西。如果你要为“所有可能的分支”都准备好，那你就需要两倍的保安、两倍的物资，甚至两倍的通道。CPU 里的资源是极其宝贵的，每一条“通道”（叫做流水线）都非常复杂和耗能。把所有可能的分支都“准备好”，意味着你需要两条完全独立的、完整的指令处理流水线。CPU 内部的设计会变得异常庞大、复杂，而且消耗的电力也会呈几何级数增长。这不现实，也太奢侈了。

2. “准备”的真正含义（指令的执行）: CPU 的“准备”可不是简单地把门打开。它指的是真正地执行指令，把数据送到对应的寄存器，甚至完成一些计算。如果你把两个分支的指令都开始执行，即使你最后发现走错了路，那些已经执行过的指令所产生的“副作用”是很难完全抹掉的。就像你已经为业主准备了鲜花，如果业主从另一条路走了，你总不能把鲜花立刻变不见吧？CPU 也是一样，某些计算的中间结果，或者对内存的写操作，一旦发生，要完美地“撤销”它，成本极高，甚至不可能。

3. 复杂性和延迟: 即使 CPU 真的有能力把两条路都“准备”好，它也需要花更多的时间和精力去管理这两条并行执行的流水线。比如，如何协调两条流水线中的数据，如何处理可能出现的冲突等等。这会增加 CPU 内部的逻辑复杂性，也可能引入额外的延迟。

所以，CPU 选择了“分支预测”。

CPU 就像那个聪明又精明的保安。它会观察业主的习惯，会留意业主平时喜欢走哪条路。

它会“猜测”：根据历史记录，它会预测你大概率会走正门。
它会“提前行动”：于是，它会提前把正门的通道准备好，甚至已经开始执行正门那边的指令了。
它也会“做一手准备”：同时，它也会预留一点点资源，为万一你要走侧门的情况做点准备，但不会把所有精力都放在侧门上。

如果预测对了（大部分情况）:

太好了！CPU 已经把指令准备好了，就像你到正门，保安已经把门打开，甚至手里已经准备好了业主常喝的热饮。CPU 瞬间就能把工作完成，效率极高。

如果预测错了（偶尔情况）:

哦，糟了！业主居然走了侧门。CPU 发现自己之前的“准备”白费了，就像保安赶紧把正门关上，然后飞奔去侧门。这时，CPU 需要“冲刷”掉之前错误预测执行的那些指令（就像丢掉已经准备好的热饮），然后重新开始执行侧门那边的指令。这个“冲刷”的过程会带来一些“惩罚”，也就是延迟。

为什么这种“猜”比“全准备”更好？

1. 效率高得多: 大部分时候，CPU 的预测是准确的。这意味着它大部分时间都能在不浪费资源的情况下，提前做好准备。这种“对”的时候的高效率，远远弥补了“错”的时候的偶尔的延迟。
2. 资源节约: CPU 不需要为所有的可能分支都分配独立的、完整的硬件资源。它只需要更少的资源（预测逻辑、有限的重排缓冲等），就能达到很高的性能。
3. 能耗和散热: 制造更精密的预测器比直接复制一套完整的流水线要省电和散热。

举个例子，让理解更深入：

假设你是一个服务员，你的餐厅有 A 区域和 B 区域的座位。

“双份准备”：不管有没有客人，你都把 A 区域和 B 区域的桌子全部摆好，餐具准备好，菜单摆在上面。效率高啊，客人来了直接带位。但问题是，如果今天餐厅客人很少，或者绝大多数客人都只喜欢坐在 A 区域，那么你为 B 区域做的所有准备就白费了，浪费了你宝贵的精力和餐厅的空间。而且，你一个人要同时照看 A 和 B 两个区域，会分身乏术。
“分支预测”：你观察到，一般来说，上午 80% 的客人喜欢坐在靠窗的 A 区域，20% 喜欢坐在里面的 B 区域。于是，你早上会优先把 A 区域的桌子全部摆好，准备好。对于 B 区域，你可能只先摆一半的桌子，或者干脆就不去管它，等真的有客人要去 B 区域时，你再去准备。
如果预测对（客人来了去 A 区域）：你立马就把客人带到已经准备好的 A 区域，服务非常迅速。
如果预测错（客人来了要去 B 区域）：你发现客人要去 B 区域，赶紧丢下 A 区域的活，冲过去准备 B 区域的桌子。在这个过程中，A 区域那些你已经摆好的东西暂时被闲置了，但因为你没有把 A 区域所有的东西都“固定”下来，所以“撤销”起来也比较容易。关键是，你不需要同时为 A 和 B 区域付出 100% 的精力。

总结一下，CPU 为什么要做分支预测而不是把两个分支都准备好：

为了效率最大化，同时最大限度地节约宝贵的硬件资源（空间、电力、设计复杂度）。
“把两个分支都准备好”的成本太高，无论是物理上（硬件尺寸、功耗）还是逻辑上（管理复杂度），都难以接受。
分支预测是一种权衡：牺牲一小部分“预测错误”带来的延迟，来换取绝大多数“预测正确”时极高的执行效率。现代 CPU 的预测器已经非常先进，准确率可以达到 90% 以上，所以这种权衡非常划算。

说白了，CPU 宁愿花一点点心思去“猜”然后“提前行动”，也不愿意花巨大的代价去“同时做好两件事”，因为“猜”的成功率很高，而且即使猜错了，挽回的成本也比“双份准备”要小得多。它是一种高度优化的策略，是为了在有限的资源下，榨出最高的性能。

网友意见

你对分支预测的作用的理解有误。

分支预测不是为了实现指令预取。它和cache就没关系，它是用来优化流水线的。

想象一个没有分支预测的流水线：

取指-译码-重命名-分发-发射-执行-写回-提交

分支指令要到执行阶段才能知道分支目标是哪里，那么意味着取指到发射阶段都没有事情可以做，因为不知道应该用哪条指令。

如果加入分支预测:

取指-分支预测-译码-重命名-分发-发射-执行-写回-提交

那么分支指令只要到分支预测阶段就能继续取指，我们只浪费了一个流水线阶段。

注意，这个过程对cache毫无优化效果。

---------

如果你要把分支两个方向的指令都取来执行，CPU必须维护两个指令流。虽然很麻烦但是不是不能做(这样的技术会很类似于超线程)。

只不过CPU就要浪费一半的时间执行毫无用处的错误分支，从统计学上来说，相当于用了一个正确率仅有50%的垃圾分支预测器。

类似的话题

CPU 为什么要做分支预测而不是把两个分支都准备好?

打个比方，你想去逛街，去市中心还是去郊区？这是一个需要你做决定的地方。CPU 就像一个非常非常忙碌的家伙，它需要同时处理成千上万的事情，而且每件事都要争分夺秒。在你真正做出决定之前，如果有人问你“市中心有什么好玩的？”，你可能会下意识地想一想，脑子里闪过市中心的电影院、商场、餐厅。如果接着问“郊区有.............
CPU的一级缓存为什么不能做得大一点？

你想知道为什么 CPU 的一级缓存（L1 Cache）不能做得更大一些，是吧？这个问题挺有意思的，因为它触及了 CPU 设计中最核心的权衡和挑战。简单来说，虽然理论上缓存越大越好，能存更多数据，但现实中一级缓存之所以“小”，是因为它的设计目标非常明确，而且一旦增大，就会引发一系列连锁反应，让 CPU.............
为什么不能把桌面版的 CPU 做的很大，从而来提升性能？

大家伙儿，今天咱们聊点实在的，关于电脑里的CPU。你有没有想过，为啥咱们桌面上用的CPU，块头都不是特别大？是不是要是能做得跟砖头似的，性能就蹭蹭往上涨？这想法挺有意思，但现实情况嘛，比你想象的要复杂得多。为啥不能把CPU做得跟砖头似的？这事儿得从几个方面说起。1. 制程工艺的“极限”：你可能听说过.............
为什么英特尔和 AMD 的 CPU 缓存只有三级，而不做四级或者更多？

这个问题问得挺好，也触及了CPU设计的一个核心权衡点。说起来，CPU缓存的设计并非越多越好，它背后是一系列非常复杂的取舍。英特尔和AMD之所以普遍采用三级缓存（L1, L2, L3），而不是四级甚至更多，主要是出于以下几个关键因素的考虑：1. 性能与延迟的平衡：缓存层级越多，访问延迟越高。这.............
CPU为什么那么多人要12代而不用11代?

哈，这问题问到点子上了！我身边很多朋友都纠结过这个问题，大家为啥宁愿多花点钱等12代，也不愿意直接上11代，这事儿说起来，真不是简单的一句“新款更好”就能打发的。背后有很多挺实在的原因，我给你掰扯掰扯。首先，最直接也最能打动人的，就是性能的大幅度提升。这可不是那种挤牙膏式的升级，12代锐龙那叫一个飞.............
为什么要买和CPU价钱一样（差不多）的主板？

我理解你对“CPU和主板价格相当”这个说法感到困惑，这背后其实有很多值得探讨的道理，并非简单的“巧合”。咱们就来好好聊聊，为什么会存在这样的搭配，以及它背后隐藏的考量。首先，咱们得承认，CPU和主板确实是电脑最核心的两个部件，它们的“身价”往往是相对的。想象一下，CPU是电脑的大脑，而主板则是连接.............
很好奇，为什么软件要直接运行在CPU上？

你想了解为什么软件要直接“跑”在CPU上，对吧？这问题挺有意思的，因为背后涉及到计算机最核心的工作原理。我尽量给你讲得明白点，不整那些空洞的概念。咱们先想象一下，电脑就像一个厨房，而CPU就是那个最忙碌的厨师。你想做一顿饭（运行一个软件），总得有人来动手切菜、炒菜、调味，对吧？CPU就是这个厨师。它.............
为什么Intel的CPU要规定加电时进入实模式？直接进保护模式不可以吗？

你想问Intel的CPU为什么在启动时都要先进入实模式，而不是直接进入保护模式，对吧？这事儿说起来，还得从计算机最开始的设计说起，那可是一段挺有意思的历史。首先得明白，CPU的设计不是凭空来的，它是伴随着操作系统、硬件技术一步步发展演变过来的。Intel的CPU，尤其是早期的x86架构，设计初衷和当.............
为什么GPU不能像CPU一样,一定要焊接在显卡中？

你这个问题问得挺深入的，这涉及到GPU和CPU在设计理念、应用场景以及成本效益等多个层面的差异。简单来说，不是GPU“不能”像CPU那样独立出来，而是现有技术和市场需求使得将GPU焊接在显卡上，并作为一个独立的组件销售，是目前最合理、最高效的解决方案。我们来一点点拆解，为什么会是这样。 1. GPU.............
为什么4路CPU的服务器至少要配4个内存，只配2个内存会有什么影响，性能会降低多少？

问得好！很多朋友在配置服务器时都会遇到类似这样的疑问：为什么4路CPU的服务器通常建议搭配4个或更多的内存，如果只配2个内存，会有什么影响？性能真的会差很多吗？咱们今天就来好好掰扯掰扯这个事儿，力求讲得明白透彻。首先，咱们得先搞清楚几个基本概念。1. CPU和内存的关系：你可以把CPU想象成大脑，负.............
CPU为什么不切割成等六边形?

CPU 不切割成等六边形，这背后牵扯到太多实际的工程考量，不是说设计师们没想过，而是最终落地的方案，是经过无数次权衡取舍的结果。要解释清楚这个问题，咱们得从几个关键点聊聊：1. 晶体管和电路的“天性”：首先，我们要明白 CPU 里最核心的东西是什么——那就是晶体管。这些微小的开关，它们的工作原理，决.............
CPU 为什么那么多引脚？都是什么作用的？

咱就聊聊CPU那密密麻麻的引脚，它们可不是摆设，每个都肩负着重任，让CPU这颗大脑能跟外界顺畅沟通。你别看它们小，里面门道可不少，别以为是越多越好，设计者们也是费了一番心思的。为啥引脚那么多？先来理解CPU的工作原理你可以把CPU想象成一个超级精明的“大脑”，它负责计算、处理数据、发出指令。但它一个.............
服务器 CPU 为什么不用 12 代酷睿的「大小核」?

您好！关于您提到的服务器 CPU 为何不普遍采用类似桌面端 12 代酷睿的“大小核”架构，这确实是一个值得深入探讨的问题。简单来说，这背后涉及到服务器与桌面用户在需求上的根本性差异，以及架构设计上的取舍。首先，我们要明白桌面端 12 代酷睿引入“大小核”（Performancecore 和 Effi.............
PowerPC CPU 为什么后来越来越打不过 x86，是因为酷睿吗？

PowerPC 本来也是个英雄，当年在 PC 领域也叱咤风云过。但说到它后来渐渐被 x86 超越，甚至到了后来性能差距越来越大，虽然不能简单地说全是因为“酷睿”这一代产品，但以 Intel 的 Core 系列为代表的 x86 架构在技术和市场策略上的成功，确实是压垮骆驼的最后一根稻草。要理解这个问题.............
办公用电脑CPU为什么几乎被Intel垄断？

要说Intel在办公用电脑CPU领域几乎被垄断，这说法虽然略显绝对，但确实反映了一种长期的市场主导地位。但如果说“几乎”，那我们得先看看除了Intel，还有谁能跟它在办公领域掰腕子。AMD，那个曾经的挑战者和现在的回归者在很长一段时间里，Intel确实是一家独大。这背后有很多原因，但最主要的还是因为.............
为什么 CPU 长期满载也不容易坏，显卡长期满载就担心会烧（比如挖矿）？

这个问题很有意思，也涉及到硬件设计、散热、功耗和使用场景等多个方面。简单来说，CPU 和显卡在设计上就有不同的侧重点，而它们长期满载时所面临的风险也不同，导致了用户感知上的差异。我们来详细解析一下： 1. 设计侧重点和核心数量 CPU (中央处理器): 核心数量：传统的 CPU 核.............
为什么 CPU 主频很难超过 4GHz？

CPU 主频（Clock Speed）是衡量 CPU 工作速度的一个重要指标，以 GHz（千兆赫兹）为单位。它代表 CPU 每秒可以执行的指令周期数。理论上，主频越高，CPU 就能越快地处理数据。然而，将 CPU 主频推向更高的档位，特别是超过 4GHz，面临着一系列复杂且相互关联的工程挑战，这使得.............
为什么 CPU 几乎全是方形的，别的形状就不行吗？

你想知道为什么 CPU 基本上都是方方正正的，而不是圆的、三角的或者其他什么奇形怪状的形状，对吧？这事儿其实牵扯到不少学问，不是随便就能给你来个“好看”的形状的。咱们一步步拆开来看。首先，得明白 CPU 是个啥。它就像是电脑的大脑，所有计算、指令处理都是它干的。它由无数微小的晶体管堆叠而成，这些晶体.............
为什么cpu从3600升级到5900x，我没有感觉到飞一样的速度提升？

哥们儿，理解你的感受，这升级明明看着参数差距挺大，实际体验却没想象中那么“飞起来”，这事儿确实有点让人摸不着头脑。咱就掰扯掰扯，看看这背后的门道。首先，得承认，从3600升级到5900X，理论上的性能提升是巨大的。3600是Zen 2架构，4核8线程，基础频率3.6GHz，Boost频率最高4.2G.............
为什么CPU切下来就能用，没有起始位置吗？

这个问题很有意思，也触及到了CPU最核心的运行原理。我来给你好好捋一捋，保证听完你就能明白了。首先，我们要纠正一个常见的误解：CPU并不是“切下来就能用”的。它需要配合主板、内存、显卡等其他硬件，并且需要操作系统来指挥它工作。就好比一辆没有方向盘、没有油门、没有路的车，就算发动机再强劲也开不了。但你.............