CPU 单核性能为什么难以提升？

CPU 单核性能：为何进步缓慢？

近年来，我们在CPU领域见证了核心数量的飞跃，多核处理器早已成为主流。然而，当我们聚焦于“单核性能”——即CPU核心单独处理任务的能力时，会发现其提升的速度似乎不如从前那般迅猛。这背后的原因并非单一，而是由一系列物理、设计和技术上的限制共同作用的结果。

1. 物理定律的束缚：时钟频率的瓶颈

CPU的核心速度，也就是我们常说的“时钟频率”，是衡量单核性能的一个重要指标。简单来说，频率越高，CPU每秒钟能完成的指令越多。然而，提高时钟频率并非易事，它面临着严峻的物理挑战：

功耗与发热： CPU在工作时会消耗电力，其中一部分会转化为热量。时钟频率越高，晶体管的切换速度越快，单位时间内消耗的能量也越多，产生的热量也呈指数级增长。为了避免CPU过热损坏，我们需要更强大的散热系统，这不仅增加了成本，也限制了CPU的极限频率。我们已经看到，现代CPU的功耗设计是一个极其复杂的权衡过程，为了在有限的TDP（热设计功耗）内提供尽可能高的性能，厂商不得不对频率进行妥协。
信号传播延迟：随着CPU内部电路的微缩，信号在导线中传播所需的时间变得越来越重要。即使是光速，在微观的CPU芯片内部也需要一定的时间来传输信号。当频率达到某个临界点时，信号在完成一次周期性切换时可能还未完全到达目的地，这会导致错误或需要额外的延迟来确保数据准确性。这种“物理延迟”成为了提高时钟频率的另一大障碍。
量子效应：当晶体管尺寸进入纳米级别时，量子隧穿等效应开始显现，导致漏电流增加，电源效率下降，也为进一步提升频率带来难度。

2. 设计与架构的复杂性：摩尔定律的“隐形”挑战

尽管制造工艺不断进步（即“缩小光刻尺寸”），但CPU的设计和架构本身也变得越来越复杂，以期在有限的物理约束下榨取更多性能。然而，这些复杂的内部设计也带来了一些“隐形”的挑战：

流水线深度与分支预测：为了提高指令执行的并行性，CPU采用了流水线技术。然而，流水线越深，一旦发生“分支预测错误”（CPU在猜测下一条指令时出错），就需要清空流水线，导致大量工作被浪费，性能损失也越大。不断改进分支预测算法和流水线设计，虽然能提升效率，但其边际收益在不断递减。
缓存的优化与延迟：现代CPU拥有多级缓存（L1、L2、L3），用以存放经常访问的数据，减少CPU等待从内存读取数据的时间。然而，缓存的设计（大小、关联度、延迟）是一个精密的平衡艺术。更大的缓存需要更多的芯片面积和更高的功耗，而且也可能带来更高的访问延迟。如何设计出既能有效提高命中率，又能保持低延迟的缓存，是一个持续的挑战。
指令集架构（ISA）的演进：指令集架构（如x86）是CPU工作的底层语言。虽然新的指令集（如AVX）可以增加某些特定任务的效率，但引入新指令集也意味着需要维护向后兼容性，这会增加CPU设计的复杂性，并且并非所有程序都能直接受益于这些新指令。

3. 软件的局限性：并非所有问题都能单核解决

即使CPU单核性能再强，如果软件没有得到相应的优化，也无法完全发挥其潜力。

并行化挑战：许多现代应用程序的设计目标是利用多核CPU进行并行处理。但并非所有任务都能轻松地分解成多个独立的子任务进行并行化。一些任务本身就是串行的，需要前一步的结果才能进行下一步，这种“内在串行性”限制了多核并行带来的优势，也意味着即使单核性能提升，整体体验的提升也可能有限。
操作系统与调度：操作系统负责将任务分配给CPU核心。高效的线程调度至关重要。即使单核性能强大，如果操作系统无法有效地将任务分配到该核心，或者任务切换开销过大，性能提升也会受限。
算法与数据结构：软件的性能最终取决于其底层的算法和数据结构。即使硬件再强大，低效的算法依然会成为瓶颈。

4. 市场与成本的权衡

CPU厂商需要在性能、功耗、成本和市场定位之间做出权衡。

研发投入：突破单核性能的瓶颈需要巨大的研发投入，包括对新材料、新工艺、新架构的探索。
产品差异化：在多核时代，通过增加核心数量来提升整体性能，相对而言是更直接、更容易实现的产品差异化策略。如果厂商过度投入于单核性能的提升，而忽略了多核优化，可能会在市场竞争中失去优势。
消费者的需求：对于许多普通用户而言，日常的网页浏览、办公处理等任务，对单核性能的需求并没有达到极限。而对于专业用户（如视频编辑、3D渲染、科学计算），多核并行处理的优势更为明显。

总结

CPU单核性能的提升之所以变得“缓慢”，并非技术停滞不前，而是因为我们正以前所未有的方式挑战着物理定律的极限，并在设计、软件和市场等多个层面进行着复杂的权衡。虽然时钟频率的飞跃已经不再是主流，但CPU设计师们依然在通过更精密的微架构（如更高效的乱序执行、更好的分支预测、更优化的缓存管理）来挖掘单核性能的潜力。

与其说是“难以提升”，不如说是“提升的路径变得更加精细和复杂”。未来，单核性能的进步可能会更多地体现在指令集效率的提升、特定任务的加速优化以及与AI等技术更紧密的结合上，而不是简单地追求更高的时钟频率。

网友意见

0202年的今天，提升单核性能真的很难

单说x86的话，从第一代的8086发布以来，提升单核性能的方法几乎都用过了，但除了提高频率以外，其它方法都有其适用范围和限制。

先说提高频率的难度。提高频率会碰到功耗问题。CPU是无数晶体管构成的，每个晶体管的可以视为电容，整个CPU功耗是。其中α是工作晶体管的比例，特定的CPU运行特定的代码，这个比例是固定的；C是整个CPU所有晶体管等效电容之和，对于特定的CPU，也是固定的；f是CPU工作频率；U是CPU的工作电压。

有超频经验的都知道，CPU频率高了会不稳定，需要提高电压。这是因为电容充放电速度跟不上频率，要充放电更快就要更高的电压。打个比方，你要更快放满一桶水，就要把水龙头开更大。因此f越高，U也越高。上面的公式可以改为，其中β为电压~频率系数。所以，提高频率，功耗会以频率三次方的比例提高。半导体工艺的提升，可以有降低电容C，降低β的值。结果就是同样架构，新制程的CPU同频率下功耗可以更低，或者同样的功耗频率可以更高——但每一代新工艺的研发、投产都需要解决一系列的问题，以及大量的资金投入。最近几代CPU厂家的架构优化，主要是让不参与运算的晶体管关闭或者低速运行，降低α的值，但现在基本上已经降得差不多了，再优化也不会有太大的效果。事实上Intel在十五年前已经有可以运行在3.8GHz的奔腾4，而十五年后的今天，经过多次制程提升后，单核睿频最高频率不过5.0GHz。

在频率无法继续大幅提高提升的现在，要提升CPU单核性能，也不是没有其它手段。以IPC(Instructions Per Cycle/Clock，每时钟周期指令数，衡量CPU在相同频率下性能的一个重要指标)来说，CPU历史上出现过的比较有效的提升IPC方法有：

1、减少执行单个指令需要的时钟周期。限制是很多常用指令本身就只需要一个时钟周期，不可能再少了。即使是还需要多个时钟周期执行的指令，最常用的传统指令经过这么多年来的优化，也基本没有优化空间了。

2、指令流水线。现代工厂流水线生产可以提高效率，CPU也一样。指令数据从内存加载到正式执行，要经过一系列的处理如解码、指令分解、指令合并、数据准备等。用类似工厂流水线方式来处理，可以有效提高指令执行效率。限制是如果出现跳转指令（汇编里面的各种JMP、高级语言里的if/循环等），需要清空流水线重新加载指令。流水线级数越多，效率越高，但清空流水线导致的性能损失越大。为了降低这个问题的影响，现代CPU通常有分支预测机制。但分支预测既然是预测，总有预测错误的时候，并不能完全消除性能损失。

3、指令并发。使用多个相同或者不同的运算单元，可以同时运行，使得单个时钟周期可以执行更多指令。限制则是很多应用中，指令之间是有前后顺序的，执行后面的指令需要等待前面指令的运算结果。说句题外话，这是超线程技术工作的前提之一：应用不能有效利用上多个运算单元，闲置的运算单元可以用来处理另外一个线程的代码。

4、增加新指令，这个具体分两种情况：

SIMD(Single Instruction Multi Data，单指令多数据)，x86的SSE、AVX指令都是这类指令。最新的AVX512指令，一条指令对8个64位浮点数进行相同的处理，相当于性能提升了8倍。限制在于一是应用要对这样的指令进行优化且优化后的代码无法在之前的CPU上执行；二是仅适用于一批数据都进行相同处理的场景，即使是海量数据处理的应用，这样的代码占比也很少很高。例如H265视频编码应用x265，数据量足够海量了，但从AVX512得益很小。此外，大部分可以对AVX512优化的计算，用GPU处理能获得更好的性能。

新增等效于某种常见指令组合的指令。原来多个指令执行需要多个时钟周期，合并后的单条指令可以在一个时钟周期执行完成。例如FMA指令，就是一条指令计算A×B+C，而无需分两个时钟周期计算。这种指令一般来说现有程序直接就能用上，无需优化。限制在于只对特定代码有效，还是以FMA为例，更普遍的普通加法、乘法运算都不能从中获益。

5、减少等待时间。CPU比内存速度快得多，经常需要等待来自内存的指令或者数据，这个时间通常高达数十上百个时钟周期。提高内存性能是根本方法，但一方面内存容量越来越大，需要更多时钟周期进行寻址；另一方面内存性能总无法和CPU比。现在CPU采用了几个方法来降低指令/数据的等待时间：

多级CPU内部缓存。在数据使用前加载到CPU内更快的缓存中，最快的一级缓存等待时间是1~3个时钟周期。限制在于对于不在缓存中的数据，还是要等待数十上百个周期——按50周期算的话，不考虑并发和指令执行时间，缓存命中率达到98%，才能发挥一半的理论性能。然而实际情况中，大部分应用都无法达到这个命中率。

乱序执行。就是某个指令需要的数据需要从内存加载的时候，一边加载数据，一边先执行后面的指令。限制和指令并发类似，很多后续指令是需要前面指令的执行结果才能正确执行的。

集成主存控制器。最早的CPU是没有单独的内存控制器的，随着CPU频率越来越高，低速的内存成为CPU提升频率的阻碍，因此CPU厂家使用了前端总线，CPU通过高速的前端总线和主板的北桥芯片连接，北桥上有内存控制器用来访问内存。但北桥本身会带来更高的延迟。从AMD K8开始，CPU集成内存控制器，有效降低了访问内存的延迟。

上述这些技术，除了指令优化外，每个首次应用的时候都能给CPU性能带来大幅提升，然而这些基本上都是二十年前已经出现了，也就集成内存控制器稍微晚点，也有十七八年了。换句话说，近十多二十年来，并没有新的可以大幅提升CPU单核性能的技术出现。不管是AMD还是Intel，都只能是对这些技术做小幅优化。尤其是最常见的传统代码，几乎是已经没有优化空间了，Intel最新的Icelake架构，虽然说是综合IPC提高18%，但事实上，对于传统x86/x87指令，提升幅度很小不到10%，甚至某些应用中反而是有轻微下降。

CPU 单核性能为什么难以提升？

网友意见

类似的话题

CPU 单核性能为什么难以提升？

既然单个CPU性能提升有困难，为什么不把主板设计成双CPU的呢?

大型单机游戏靠的是CPU的单核性能还是多核性能？

CPU 能靠增大单核的规模去提高单核性能么？

多核的流行是否表明单个 CPU 核心性能的提升已达瓶颈阶段？

我用的阿里云虚拟主机独享尊享版CPU:单核内存:2G 空间:40G 带宽:1Mbps

单cpu多核体系是否可以“并行"（而不是并发）执行多个进程？

能不能做到cpu和显卡单独供电？

在拥有无限资源的情况下，CPU的体积可以做到“米”为单位吗？

CPU 的性能是不是快到天花板了？为什么？

CPU内部各个部件的时延大概是多少？（皮秒，纳秒）?

cpu是怎么制造的?

CPU 和 GPU 的区别是什么？

CPU 的摩尔定律是不是因为 10 纳米的限制已经失效了？10 纳米之后怎么办？

cpu有没有必要追求旗舰，对显卡没有大瓶颈的情况下，更好的cpu意义大不大，尤其是对游戏而言?

CPU 的工作原理是什么？

CPU、显卡、内存、SSD 哪个提速最明显，最有用？

CPU是怎么解决Cache的冲突的？

Cpu访问cache未命中，是否还需要访问一次cache? ?

CPU有SN号吗？或者是有每个CPU都不一样的唯一的识别码吗？

CPU 单核性能为什么难以提升？

网友意见

类似的话题

CPU 单核性能为什么难以提升？

既然单个CPU性能提升有困难，为什么不把主板设计成双CPU的呢?

大型单机游戏靠的是CPU的单核性能还是多核性能？

CPU 能靠增大单核的规模去提高单核性能么？

多核的流行是否表明单个 CPU 核心性能的提升已达瓶颈阶段？

我用的阿里云虚拟主机独享尊享版CPU:单核 内存:2G 空间:40G 带宽:1Mbps

单cpu多核体系是否可以“并行"（而不是并发）执行多个进程？

能不能做到cpu和显卡单独供电？

在拥有无限资源的情况下，CPU的体积可以做到“米”为单位吗？

CPU 的性能是不是快到天花板了？为什么？

CPU内部各个部件的时延大概是多少？（皮秒，纳秒）?

cpu是怎么制造的?

CPU 和 GPU 的区别是什么？

CPU 的摩尔定律是不是因为 10 纳米的限制已经失效了？10 纳米之后怎么办？

cpu有没有必要追求旗舰，对显卡没有大瓶颈的情况下，更好的cpu意义大不大，尤其是对游戏而言?

CPU 的工作原理是什么？

CPU、显卡、内存、SSD 哪个提速最明显，最有用？

CPU是怎么解决Cache的冲突的？

Cpu访问cache未命中，是否还需要访问一次cache? ?

CPU有SN号吗？或者是有每个CPU都不一样的唯一的识别码吗？

我用的阿里云虚拟主机独享尊享版CPU:单核内存:2G 空间:40G 带宽:1Mbps