CPU 的性能是不是快到天花板了？为什么？

这是一个非常有趣且复杂的问题，要回答“CPU 的性能是不是快到天花板了？为什么？”，我们需要从多个角度进行深入探讨。简单来说，不能一概而论地说CPU性能已经达到了绝对的天花板，但我们确实正面临着一些前所未有的物理和工程挑战，使得持续的、指数级的性能提升变得越来越困难。

下面我将详细阐述原因：

一、历史回顾：摩尔定律的辉煌与挑战

要理解CPU性能的瓶颈，首先要回顾一下过去几十年的发展动力——摩尔定律。

摩尔定律的含义：并非一个物理定律，而是由英特尔联合创始人戈登·摩尔在1965年提出的一个观察和预测：集成电路上可容纳的晶体管数目，大约每18到24个月便会增加一倍，性能也将随之提升一倍。
摩尔定律的驱动力：
晶体管小型化 (Scaling)：随着半导体制造工艺的进步，晶体管尺寸不断缩小，使得在相同面积上可以集成更多晶体管。更小的晶体管意味着更短的信号传输路径，从而提高速度，同时也能降低功耗。
架构创新 (Architecture)：通过改进指令集、流水线技术、缓存系统、乱序执行、超线程等，CPU能够更有效地处理指令，提高每时钟周期的指令数（IPC）。
时钟频率提升 (Clock Speed)：早期CPU性能的提升很大程度上依赖于提高时钟频率，即CPU每秒执行的时钟周期数。

然而，近十年来，摩尔定律的物理和工程限制越来越明显：

二、物理层面的瓶颈

1. 晶体管尺寸的极限：
量子隧穿效应 (Quantum Tunneling)：当晶体管尺寸缩小到几个纳米（今天的先进工艺节点如 7nm, 5nm, 3nm 已经是这个级别）时，电子会变得非常“活跃”。绝缘层（如栅极氧化层）的厚度也变得极薄，导致电子可以“穿过”绝缘层，即使它不应该越过这个“势垒”。这会引起漏电，导致功耗增加和错误发生。
原子级挑战：当晶体管结构接近原子级别时，量子力学效应变得更加显著且难以控制。制造出稳定、可靠、性能一致的原子级别晶体管是极其困难的。
材料限制：现有的硅基半导体材料在进一步缩小尺寸方面也面临固有的物理限制。寻找或开发新的半导体材料（如二维材料）是研究方向，但大规模商业化仍需时间。

2. 功耗和散热问题 (Power and Thermal Limits)：
动态功耗与漏电功耗：功耗主要分为两部分：动态功耗（晶体管开关时消耗）和漏电功耗（即使在不工作时也有微弱电流消耗）。随着晶体管数量的增加和开关速度的提升，动态功耗显著增加。同时，由于量子隧穿效应等原因，漏电功耗也随着尺寸缩小而上升。
热密度 (Thermal Density)：即使单个晶体管的功耗很小，但当数亿甚至数千亿个晶体管高度密集地排列在几平方厘米的芯片上时，产生的热量会非常集中。散热成为巨大的挑战。过高的温度会导致晶体管性能下降，甚至损坏。
功耗墙 (Power Wall) / 功耗墙 (Thermal Wall)：过去，提高时钟频率可以显著提升性能，但这也导致了功耗和散热的急剧增加，远远超出了现有散热技术的承载能力。因此，CPU的频率提升空间受到了“功耗墙”和“热墙”的严重制约。我们已经很久没有看到CPU主频大幅提升了。

3. 信号传输速度的极限：
光速限制：虽然芯片内的信号传输速度远未达到光速，但信号在铜线（或更先进的互连材料）中的传输仍然需要时间。随着芯片规模的增大和晶体管数量的增加，信号需要跨越的距离也可能增加，这会引入延迟。
互连瓶颈 (Interconnect Bottleneck)：芯片内部的连接线（互连）也需要消耗能量并且引入延迟。随着晶体管数量的激增，互连的数量和复杂性也随之增加，成为影响性能的另一个瓶颈。

三、工程层面的挑战

1. 制造工艺的复杂性与成本：
极紫外光刻 (EUV)：制造小于 7nm 的工艺节点需要极紫外光刻技术，这是一种极其复杂、昂贵且技术难度极高的技术。只有少数几家公司（如ASML）能够生产EUV光刻机，并且每次光刻的成本也非常高。
良品率 (Yield)：随着工艺越来越精细，制造缺陷的容忍度越来越低，良品率的控制变得更加困难，这直接影响了芯片的生产成本和效率。

2. 设计复杂性：
CPU核心数量爆炸：为了绕过频率和单核性能的瓶颈，CPU设计师开始增加核心数量（多核CPU）。然而，如何有效地利用这些核心，如何管理任务调度，如何防止核心间的通信成为新的瓶颈，都需要复杂的软件和硬件协同设计。
异构计算 (Heterogeneous Computing)：现代CPU往往包含不同类型的核心，例如高性能核心（Pcores）和高能效核心（Ecores），以及专门的AI加速单元等。如何智能地调度任务到最合适的核心上，以最大化性能并最小化功耗，是设计上的巨大挑战。

3. 内存墙 (Memory Wall)：
CPU速度与内存速度的差距：尽管内存技术也在进步，但CPU处理数据的速度远超内存读取数据的速度。这意味着CPU经常需要等待数据从内存中加载，这成为了一个显著的性能瓶颈。
缓存层级：为了缓解内存墙，CPU引入了多级缓存（L1, L2, L3）。但缓存的容量是有限的，且越接近CPU核心的缓存速度越快但容量越小。如何有效地管理缓存，提高缓存命中率，仍然是一个重要的设计考虑。

四、性能提升的转向与未来的发展方向

正因为上述瓶颈，CPU性能的提升不再仅仅是追求更高的时钟频率或更小的晶体管。取而代之的是：

1. 多核与并行计算：将大量任务分配给多个核心并行处理是当前CPU性能提升的主要手段。软件开发者也需要调整代码以更好地利用多核架构。
2. 指令集架构的演进：
SIMD (Single Instruction, Multiple Data) 指令集：如SSE、AVX系列指令，允许CPU一次性对多个数据执行相同的操作，特别适合图像、视频处理、科学计算等并行数据处理任务。
AI指令集：例如x86架构中的AVX512 VNNI指令、ARM架构中的SVE2等，专门优化了神经网络推理和机器学习任务。
3. 架构创新：
乱序执行 (OutofOrder Execution)、分支预测 (Branch Prediction)、超标量 (Superscalar) 执行：这些技术通过预测指令执行顺序、并行执行多条指令来提高IPC。
缓存设计优化：更大、更智能的缓存系统，例如AMD的3D VCache技术，将缓存堆叠在CPU核心上方，显著减少访问延迟。
Chiplet设计：将CPU设计成多个小的、独立的“小芯片”（Chiplets），然后将它们组合在一个封装中。这种设计可以降低制造难度和成本，同时允许更灵活地组合不同功能的Chiplets（如CPU核心、IO Chiplet、GPU Chiplet等）。
4. 异构计算：整合CPU核心、GPU核心、AI加速器（NPU/TPU）、DSP等，根据任务类型将其分配给最适合的处理器单元。例如，笔记本电脑中的Intel Core Ultra系列处理器就采用了这种策略。
5. 专用硬件加速：对于特定任务（如视频编码/解码、加密解密、AI推理），设计专用的硬件加速器，比通用CPU效率更高。
6. 新的计算范式：
量子计算：虽然目前还处于早期阶段，但量子计算有望在某些特定问题上提供指数级的性能提升，完全颠覆传统的计算模式。
类脑计算 (Neuromorphic Computing)：模仿人脑的结构和工作方式，旨在实现更高效的认知计算。

结论

CPU的性能是否“快到天花板”？更准确的说法是，我们正处于一个“后摩尔定律时代”的转折点。过去那种简单地缩小晶体管尺寸就能带来指数级性能提升的时代已经接近尾声，主要是因为物理和工程上的巨大挑战，特别是功耗、散热以及量子效应。

但这并不意味着CPU性能提升的终结。相反，未来的性能提升将更多地依赖于系统级创新、架构设计优化、并行计算、异构计算、专用硬件加速以及新的计算范式。这意味着开发者和用户也需要适应这种变化，学习如何更好地利用多核、异构计算能力，并理解不同类型的计算任务可能需要不同的硬件解决方案。

所以，虽然我们可能已经触及了传统CPU性能提升的“天花板”的边缘，但计算能力的进步并未停止，只是换了一种更复杂、更巧妙的方式继续前进。

网友意见

这取决于怎么定义「性能」，以及怎么定义「天花板」。

我们目前讨论的消费级CPU设计，往往不是无限功耗（随意超频）或者无限的芯片面积，往往更倾向于在特定功率范围（约为65W）和特定芯片尺寸（约为100mm2）下，怎么设计出更好的CPU。所以，在这个问题下考虑超频性能是不公平且有失偏颇的。

如果要系统回答这个问题，我们应该从CPU性能影响因素开始讲起。

如果我们以目前大家默认的CPU性能衡量标准（CPU单核运算性能）来讲，理论上CPU性能主要由三方面决定：

半导体工艺，也就是我们通常所说的5/7/10nm制程；
先进的微架构，采用的技术比如流水线、分支预测、乱序执行等等；
高速缓存架构^[1]。

就CPU性能，一个非常普遍的观点是，即使（基于硅）的半导体工艺可以继续演进，但纳米级晶体管尺寸带来的量子效应也已经变得越来越不可忽视，所以半导体制程带来的CPU性能提升可能会在5nm左右（就是现在）出现收益递减 ^[2]，这是「CPU性能达到天花板」这一观点的基础。

但是，这一观点是片面的，因为这种说法仅着眼于工艺进步的边际效应，而芯片本身的性能进步并不局限于工艺本身。在硬件，微架构，缓存架构，芯片驱动软件等等方面都有太多地方可以对CPU 晶体管利用率，能耗比，极限性能，芯片极限面积，甚至芯片软件开发时间等等方面做出优化，这些优化都会对传统意义上的「CPU性能」产生积极影响。

我可以把它们分为几类分别讨论，期望能够给大家一个关于芯片性能的更全面的视角。

1. 硬件 –--制程提升带来的边际效应越来越明显，下一步是什么？

1959年，诺贝尔奖获得者Richard Feynman在对美国物理学会的大会演讲上曾这么说过，「计算机性能的进步大多来自于计算机组件的小型化，（这些进步）在底部依然有足够的空间」^[3]。这里的「底部」其实就是在说CPU这类通用计算芯片。

考虑到CPU的小型化大多依赖于更小的晶体管尺寸和半导体制程的进步，这条评论本身也其实正在间接暗示摩尔定律推动CPU性能进步（注：这句话早于摩尔定律十几年）。而在过去五十年时间里，芯片的发展一直符合这个观点，或者说，

摩尔定律。

摩尔定律预测，预计18个月会将芯片的性能提高一倍（即更多的晶体管使其更快。

我们可以在这里解释的更加详细一点。众所周知，半导体电路（特别是CMOS电路）的电路功耗和工作频率成正比，而工作频率的提升意味着芯片性能的直接提升（大家可以想象超频给电脑所带来的性能增长）。

但是，正如我们之前所说，大多数情况下的消费级CPU在设计时都存在一定的功率范围。这种功率范围既不能太高导致整体耗电急剧增长（或触碰功率墙），也不能太低导致计算能力低下，所以，有没有一种可能让半导体芯片在功率不变的情况下直接提升性能工作频率？

换句话说，我们在期望能通过某些设计来提升CPU的能量效率？

答案是肯定的。

这也是1970年左右，Dennard （MOSFET）Scaling Law 产生的基础：在半导体芯片里，每代将会使晶体管尺寸减少30%，并且同时保持晶体管里各处的电场恒定。晶体管尺寸减少（也就是制程提升）会带来很多好处：

首先，晶体管尺寸减少30%（0.7倍），这意味着晶体管面积减少50%，换句话说，每一代晶体管密度都翻了一番。

其次，随着晶体管尺寸按比例缩放，延迟会减少0.7倍，或者极限频率会增加1.4倍，这是制程推动CPU性能提升的基础。

最后，为了保持电场恒定，在其他不变的情况下电压可以降低30%，功率降低50%。

Dennard Scaling Law 带来的直接预测结果是，在每一代半导体制程进步中，晶体管的密度都翻了一番，性能将提高 40%，而整体系统功耗几乎保持不变。如果配合摩尔定律，几乎等同于每18个月，芯片的每瓦性能将会翻一倍 (见下图 ^[4])。

这也是过去二十年间，推动芯片制程进步的主要动力：芯片设计师利用晶体管密度来设计更复杂的架构和晶体管速度以提高频率，而得益于晶体管密度的提升，设计师们有足够的空间在合理的功率和能量范围内同时获得复杂的架构和更高的频率。以一种简单粗暴的思路，甚至可以只依靠晶体管的小型化简单粗暴添加更多内核，然后通过制程进步带来的更多「免费」核心来提升CPU性能。

从另一方面来说，更先进的芯片制程不止影响了技术进步，它们也间接影响了计算机的价格（同样的钱能买到更多晶体管，也意味着能买到更多计算性能）。

实际上，在20世纪60年代初，一个晶体管要10美元左右，但随着晶体管越来越小，小到一根头发丝上可以放1000个晶体管时，每个晶体管的价格只有千分之一美分。据有关统计，按运算10万次乘法的价格算，IBM704电脑为85美分，IBM709降到17美分，而60年代中期IBM耗资50亿研制的IBM360系统电脑已变为3.0美分，具体统计数据见下图（数据收集自论文^[5]）。

但是在未来，大概率并非如此。

一些观点认为这代表着是摩尔定律的终结，即「后摩尔时代」的到来。这可以通过芯片领域的国家自然基金重点项目指南得到确认（见下图）：我们需要在「后摩尔时代」解决低功耗器件，新材料工艺和新架构的芯片设计问题。

从目前来看，在「后摩尔时代」，晶体管制程的进步仍会继续，但正如之前所说，单位面积晶体管密度增长会不断放缓，从而对整体芯片性能的影响越来越小。既然如此，架构方面和软件方面的提升就成了目前的性能提升重点，比如更有效的异构多核架构和领域定制处理器，以及目前的一些研究热点，非冯·诺伊曼体系结构、存内计算、多芯片封装等等。

多核架构：在很早之前，CPU的多核趋势就已经越来越明显，多核架构没有固定的组织形式，从某种程度上说，它和单核之间仅仅是解决方案区别，各有优劣。但是在半导体制程进步逐渐缓慢时，不同核心分别处理不同任务更有效利用CPU上的晶体管，从而达到更加高效的能效比。但是，多核架构分为同构和异构两种，其中各个核心到底如何分工？以及怎么处理多核心间的通信延迟？是目前提升CPU性能需要重点考虑的两个问题。

领域定制处理器（Domain-Specific Architecture）：有一种思路是，如果我们能把特定CPU任务直接通过晶体管设计进行优化，是不是能极大提升该领域的晶体管利用率？

答案是非常正确的，且有很多例子可以证明这一点。这也是芯片设计中的一种比较重要的设计思想---发现程序中的共性特点，并以硬件设计加速相关共性计算^[6]。

在计算机历史上，领域定制处理器最经典的例子是独立显卡的出现。随着当年影音和图像处理业务越来越多，通用的CPU不能非常有效的处理图形图像所需要的浮点型数据运算，所以显卡就此诞生。

此后也随着多媒体内容逐渐增多，显卡市场也得到了更蓬勃的发展，而且所支持的指令集和显卡架构也在不断升级。在Intel前几天发布的第11代英特尔酷睿处理器高性能移动版（H45）芯片组里，Iris Xe 集成显卡可以支持更快捷的视频转码和多媒体处理，这类领域定制处理器（集成显卡）可以帮助H45完成视频处理的硬件加速，并且通过更多的智能加速引擎为影音处理和游戏提供更好的性能。

领域定制处理器另一个非常典型的例子是人工智能芯片的兴起，以及（通用处理器）中对人工智能相关指令集的支持力度加大。在芯片设计领域，判断一类应用是否需要专用芯片支持，需要非常大规模的热点代码分析。

包老师曾经举过一个例子^[6]：通过代码分析，发现不少领域的TCP/IP协议栈（L5Ps）中包含大量的共性操作，所以在网卡上需要专门集成一个针对L5Ps的加速器，大幅度提升网络包处理能力。

08年左右人工智能相关算法方兴未艾，但是一些公司曾经通过大规模的代码分析出人工智能代码运算正在大幅度增加，所以需要设计专用硬件架构来提升人工智能计算效率。同样，在Intel 第11代英特尔酷睿处理器高性能移动版（H45）芯片组里，Intel也通过抽象出Advanced Vector Extensions指令集来大幅度加速电脑所需要的人工智能图像应用，通过Gaussian & Neural Accelerator (Intel® GNA)来提升人工智能语音处理速度。

随着制程提升带来的边际效应越来越明显，硬件方面的提升更多的可能会着眼于在特定面积下的领域定制处理设计，以及更有效的多核心通信方式；当然，半导体材料和工艺的飞跃性进步依然有可能。

2. 算法以及缓存

在很早之前（2010年左右），白宫总统科技咨询委员会就曾经做出过论断，在CPU性能优化上，算法带来的增益已经远远超过提升处理器速度所带来的增益^[3]。所以，一个普遍的观点是，上层的算法和调度方法会成为CPU性能提升的下一个关键点。

而另一个原因是，算法实现严重依赖于数学领域的建模和抽象，大多数问题往往无解或者暂时无法建模，只有少量问题有算法加速的空间。换句话说，算法的优化不同于芯片制程进步，它是离散而且充满了偶然性，这给相应的CPU性能提升带来了一定的偶然空间。

可以这么说，算法部分能够给CPU性能带来多少提升，很大程度上依赖于这段时间内解决了多少问题。如果大家看上图，就会发现在某些年份里，CPU性能提升是呈现阶梯状的，这正是因为当年算法领域出现了突破性进展。

作为主要研究算法的科研民工，其实我可以在这里加上一句，大多数算法进步也往往会因为假设条件过强，导致无法直接应用于实际工业中，算法和实现之间依然存在非常巨大的鸿沟。

但是，即使如此，我们依然可以想象到，算法的进步空间并没有受限，它依然可以给CPU性能带来更多提升空间。

3. 软件和生态

如果大家对软件行业有所了解，就会发先随着计算机普及，高级编程语言（特别是非常简单的脚本语言）变得越来越流行，比如Python。但是，这些代码本身其实是非常低效的。

前段时间Science上的一篇文章^[3]曾经指出，目前的高级编程语言的运行效率非常低下，如果我们用硬件实现相应的计算方式（以矩阵计算为例），那么速度提升可以达到数万倍，这是非常巨大的提升空间（见下图）。

高性能代码对CPU的性能提升有着极大的帮助，但是因为其耗时比较长，目前暂时没有太多关注。这导致我们即使能够看到这些性能提升空间，也暂时难以有效利用。

其中一个非常重要的原因是，算法设计需要人工思考，而且大多数人无法熟练从高级编程语言掌握到汇编语言，如果我们所有的算法都通过设计专用电路来加速的话，流片成本高昂到无法承受。

此外，随着目前的芯片硬件架构设计越来越领域化，高性能的代码可能会更加难以编写。所以，如果摩尔定律或者CPU性能越来越难以进步，可能会出现更多硬件和软件工程师共同设计代码，来优化相应的软件性能^[7]。

从另一方面上说，芯片本身需要软件驱动，而软件的运行速度并不是唯一衡量指标。事实上，对于越来越多的软件开发者来说，他们更需要的是减少软件开发时间，而不仅仅是「高性能」的计算水平。

这就是「CPU生态」的一种。CPU和芯片公司总是可以通过向开发者提供更简单的开发套件，来提升（或者有人说是压榨）CPU性能。大公司往往有更加充足的精力来建设相应生态，Intel应当是其中非常值得提及的例子。

H45提供了20通道的PCI-E接口，以及外置WiFi6芯片，这些外置接口和套件都可以为软件开发者提供更简单的开发方案和开发套件，从用更简单的指令集支持更多应用。从指令集来看，基于X86的指令集可以给第11代英特尔酷睿处理器高性能移动版（H45）提供非常良好的编译器生态，这又大大降低了开发成本，也可以通过原生提供更多丰富的接口，可以原生支持更多设备，从而方便用户扩展。

从另一方面来说，对生态的扩展也可以抽象出更多行业共性软件需求，提供更多有价值的高性能代码和指令集，从而进一提升和挖掘CPU性能，这是另一种CPU性能提升空间。

例如，大多3A游戏都深度支持Intel的指令集，从而提升软件使用效率；通过与Killer网卡的深度支持，也可以提升CPU与网卡之间的调度效率，提升用户的游戏体验。

Ending:

或许在可见的未来，芯片微架构，片上网络通信，领域定制处理器，或者本文中未提到的更多芯片优化技术可以给CPU带来更多性能提升。这些优化技术曾经在过去几十年内，在intel CPU中集成了数十上百种，例如超标量，乱序执行，超线程，硬件虚拟化，大页面等等。

又或许，在未来几年内，算法部分和高性能代码研发会出现更多突破性，直接影响到用户的体验。目前科研领域可能会期望更多来自材料领域的进展能够实际使用，影响到消费级CPU，这些都是未来可能的发展方向。

正如大多数芯片从业者都认为，目前的摩尔定律正在接近末尾，但是这并不意味着CPU的性能提升就会停止。未来虽然不可知，但是CPU性能的提升并不会因为制程的收益缓慢而停止。

参考

^ Borkar S, Chien A A. The future of microprocessors[J]. Communications of the ACM, 2011, 54(5): 67-77.

^ R. Merritt, “Path to 2 nm may not be worth it,” EE Times, 23 March 2018.

^ ^a ^b ^c Leiserson C E, Thompson N C, Emer J S, et al. There’s plenty of room at the Top: What will drive computer performance after Moore’s law? [J]. Science, 2020, 368(6495).

^ Rupp K. 42 years of microprocessor trend data[C]. GitHub. 2018.

^ Randall Goodall, D. Fandel, and H.Huff, “Long-Term Productivity Mechanisms of the Semiconductor Industry,” Ninth International Symposium on Silicon Materials Science and Technology, May 12–17, 2002, Philadelphia, sponsored by the Electrochemical Society (ECS) and International Sematech.

^^a^b多核之后，CPU 的发展方向是什么？ - 包云岗的回答 - 知乎 https://www.zhihu.com/question/20809971/answer/1678502542

^ President’s Council of Advisors on Science and Technology, “Designing a digital future: Federally funded research and development in networking and information technology”

远远没有。

cpu天花板这个事情，本来定义就很不明确。

现在你看到的cpu，不是技术天花板，而是成本收益决定了做成这个规模比较赚钱。

AI芯片有激进的，要一片硅片整个用上。

你以为cpu不行吗？

不考虑成本，不考虑良率，液氮散热，现在技术下，一片CPU的运算能力也会超过量产品很多。只是没有厂家疯了去干这种事情。

一般厂家会把功率控制在300w以内，看看现在的工艺下能做多高的性能。

单核心性能也没到极限。苹果已经证明，合理架构下适当的堆晶体管是可以提高IPC的。

M1 的八路解码到头了吗？二级缓存塞多少兆才是极限呢？

苹果或者高通，或者ARM就不会做更大的核心了吗？

新处理器的IPC是不是比M1 更好呢？

如果，针对一个只能跑单线程的程序，开发CPU，5nm工艺，300W功率只堆一个巨核，能堆出什么样子的CPU核心呢？

所以单核行动远没有到头，只是程序支持多核。没有人去消耗全部资源怼单核的IPC。

多线程性能这些年也没停滞，英特尔停了是因为14nm，AMD工艺一上去，核心数上去，同样功耗下，性能增长速度一点不慢。

GPU更是每年都有比较大进步。GPU也算是多核心的计算机。

多核性能，依赖于工艺进步，同样300W，一样的架构，7nm比14nm堆得核心多，互联快，性能就强。

工艺也没有到头，现在的5nm不是物理5nm。距离物理极限差得远，所以台积电才有2nm ，1nm的规划。

到物理极限还有一段距离。

在此之前，CPU性能还有很大空间。

过去10年进步慢，不是技术到极限了，而是英特尔挤牙膏。

现在美国一家公司的risv处理器用69mv做出3ghz芯片，性能相当于第一代i7 。

CPU进化恐怕还远没有完美。

CPU本身没有到顶。目前不往上，是因为性价比不好。

这个题目下的大多答案没有回答到点上：

现在随着散热成本的提升（芯片内），提高性能没那么明显的性价比了。

这个，我们可以从矿机芯片的发展同样看到：

1，从28nm-》7nm，矿机始终频率在500-800M，大家宁可降频来实现低功耗。这个频率性价比最好。（如果不降电压，矿机可以提高10+倍的频率）

2，CPU 可能在2-3G为最佳性价比。

3，将来功耗会成为核心的竞争优势。

4，做动态逻辑等的有福了。

（动态逻辑对时序/功耗有好处，苹果买过一家Intrinsity，专门做domino 动态逻辑的。华为想要这个取得进展，应该也至少掌握这个。）

Apple's Intrinsity Acquisition: Winners and Losers (anandtech.com)

长期来讲（3-5年），Intel有大麻烦，其两个核心竞争力都被打破：先进工艺被TSMC打破；服务器被Arm打破。

鉴于本回答依然存在热度，在此特地声明，以下关于主频的内容可能存在事实错误，仅供参考。本人水平有限，争取日后修正。

首先是制程很难再进一步缩小，也就是芯片的集成度遇到了天花板。7纳米以内的尺度将面临量子隧穿效应，电子可以在没有外部电场作用的情况下肆意穿越到它本不可能到达的地方，仿佛其间有个隧道一般。经典物理在此失效，0不再确定为0，1不再确定为1，这是晶体管怎么也无法逾越的屏障。尽管，研究者们正使用各种手段避免隧穿效应带来的麻烦，但他们心里比谁都明白，这是一条很快就将见底的死胡同。

再者就是主频也有不可逾越的天花板，因为电信号在介质中的传播速度再快，也快不过光速。即使按光速算，并且不考虑处理时间，在主频为4GHz的CPU中，一个信号最远只能跑7.5厘米。主频越高，这个距离就越短，甚至会出现上一个信号还来不及达到目的地下一个信号就已经产生的现象，这就乱套了。

说白了芯片作为人造物的登峰造极之作，遇到了物理学上量子力学和光速两大天花板，传统的电子计算机已经无法再遵循摩尔定律飞速发展了。

看到有朋友好奇7.5cm是怎么算的，很简单就是真空光速÷主频：

或许有朋友觉得7.5cm挺长的，芯片才多大？但这可是在不考虑信号处理延时的理想情况下算出来的，更重要的是，电在介质中的传播速度其实是这样一个公式：

表示介质的相对介电常数，表示介质的相对磁导率。对于真空来说，它们都是1，但对于大部分我们所用的导体，它们的值都大于1。硅的是11.68，铜的是0.999994（哎哟不错哦）。贴一下维基上各类材料的和，让大家有个直观感受。

有几条评论提到把芯片做大，多核的大芯片就不讨论了，N核带不来N倍的效率。如果把单die做大，除了上面提到的光速局限，还会面临良率降低的问题。晶圆在加工过程中会引入随机散落的瑕疵点，我们从一片晶圆上切下若干片die，如果瑕疵正好落在了某片die上，这片die就报废了。die越大，良率越低，成本就越高。

当然，如果你有幸买到一个由整块晶圆做成的CPU，基本能省下购置电磁炉的开支。

一. 先说单核性能：是的。

过去这些年中，单核性能的增长可以主要归功于以下2个方面：(1)处理器微结构（MicroArch）的发展。流水线、乱序执行、分支预测这些技术使得时间上和空间上，对电路的利用更加充分。(2)CMOS工艺的发展。更小的尺寸为计算部件带来了更低的延时、更低的功耗，为存储部件带来了更大的容量。

然而，(1)和(2)两个方面的发展速度都已放缓。对于(1)，微结构（MicroArch）的爆发增长期是在1985年——2002年，许多革命性的技术在这一时期被应用，2002年以后技术趋于成熟，发展速度放缓。对于(2)，抛开能不能制造出尺寸更小的CMOS元件这个问题不谈，即使可以制造出，功耗这一因素已经无法忽略。在 @逸之的答案中已经详细说了物理方面的因素，我这里再就量子的影响展开说，CPU的功耗可以粗略计算为：，在数百nm到数十nm的时代，占功耗大头的是，但是随着工艺的不断缩小，静态功耗占比越来越大。造成这种影响一个因素是，栅极上方的氧化层（栅氧）越来越薄，这一区域理想的功能是一个绝缘层，但现在厚度栅氧已经接近原子尺度，电子有一定概率会穿过，从而产生漏电流。

以上因素共同作用的结果就是性能增长的放缓。1980年——2004年，单核性能的进步速度约为每年52%，2005年——2012年约为每年20%，2015年——2019年约为每年3%。

二. 再说多核性能

我们可以将并行分为3类：(1)指令级并行instruction level parallel 简称ILP (2)数据级 data instruction level 简称DLP (3)线程级并行 thread level parallel 简称TLP。单核中主要利用的是ILP，ILP是所有3类中最好用的，所有程序都可以使用，并且对程序员透明，只需把工作丢给硬件。但剩下两类却没那么好用，不是所有程序所有算法都可以发掘出并行的空间。也就是说，一个速度为2的处理器，和两个速度为1的处理器是不一样的。

正文至此

以下内容给非cs、ee专业的同学补充一下背景知识，cs、ee专业的同学请跳过。

指令集架构（ISA）和微结构有什么区别？ x86架构、ARM架构、MIPS架构说的是指令集架构（ISA），它是软件和硬件的接口，规定了软件和硬件的交流方式，但是处理器具体的实现与ISA无关。微结构决定了处理器具体的实现，包括划几级流水、几发射、每级流水做什么之类的信息。

现代微处理器的物理实现方式是什么？ CMOS是现代芯片的驮马。今天几乎所有的数字计算电路都是由CMOS实现，但情况并非从来如此，比如早期的Intel 8080（1974年）仅采用NMOS逻辑实现。

类似的话题

CPU 的性能是不是快到天花板了？为什么？

这是一个非常有趣且复杂的问题，要回答“CPU 的性能是不是快到天花板了？为什么？”，我们需要从多个角度进行深入探讨。简单来说，不能一概而论地说CPU性能已经达到了绝对的天花板，但我们确实正面临着一些前所未有的物理和工程挑战，使得持续的、指数级的性能提升变得越来越困难。下面我将详细阐述原因：一、历.............

如果把14nm的cpu长宽增加一倍，是不是就可以得到7nm的cpu的性能？

这个问题很有意思，也触及到了集成电路制造和性能提升的核心问题。简单来说，把14nm CPU的长宽增加一倍，并不能直接得到7nm CPU的性能。它们是两个完全不同的概念，原因非常复杂，我来给你好好掰扯掰扯。首先，我们要明确一点：“nm”（纳米）在CPU领域，指的是“制程工艺”（Process Nod.............

如果英特尔一直以挤牙膏的方式研发 CPU，CPU 的性能是否会进入一段停滞期？

是的，如果英特尔一直以“挤牙膏”的方式研发 CPU，CPU 的性能很有可能会进入一段显著的停滞期。这里的“挤牙膏”是比喻英特尔过去那种更新缓慢、性能提升幅度微小的产品迭代策略。要详细解释这一点，我们需要从几个关键角度来分析：1. 什么是“挤牙膏”？“挤牙膏”这种说法通常用来形容英特尔在某些时期 CP.............

如果现在的CPU不集成核心显卡，将雕刻显卡的空间用于CPU是否能增强CPU的性能？

一个非常有趣的问题，它触及到了现代处理器设计的核心矛盾之一：资源分配。假设我们真的能剥离CPU中的集成显卡（iGPU），并将这部分宝贵的物理空间、功耗和设计精力投入到CPU核心本身，这会对CPU性能带来怎样的改变？这不仅仅是“一块地多了就能盖更多楼”那么简单，而是涉及架构、功耗、散热、市场定位等一系.............

大型单机游戏靠的是CPU的单核性能还是多核性能？

说起大型单机游戏对电脑性能的要求，CPU这块儿，大家免不了要纠结一个问题：到底是单核性能更重要，还是多核性能更吃香？这可不是一两句话就能说清楚的，里面门道还不少。咱们先得明白，一个游戏玩起来，CPU到底在干啥。它就像游戏的“大脑”，负责处理各种各样的计算和指令。比如，要计算场景里有多少个NPC，他们.............

多核的流行是否表明单个 CPU 核心性能的提升已达瓶颈阶段？

.......

cpu超频真的有必要吗？是降低使用寿命，还是带来更大的性能提升？

这年头，但凡对电脑性能有点追求的玩家或者技术爱好者，估计都绕不开“超频”这个话题。CPU超频，简单来说就是让你的CPU运行得比官方设定的频率更高，就像给它打了鸡血一样，理论上就能跑得更快。那么问题来了，CPU超频真的有必要吗？这事儿可不是一句话就能说清楚的，它牵扯到太多因素，就像谈恋爱一样，得看你.............

一般用户能体会到 CPU 的性能差距吗？

当然，我们来聊聊普通用户能不能感受到 CPU 的性能差距。这个问题其实比看起来要复杂一些，因为“性能差距”这个词本身就有不同的解读，而且普通用户使用电脑的场景也非常多样。首先，我们得明白，CPU 到底干了些啥。你可以把 CPU 想象成电脑的大脑。它负责执行各种计算、处理指令、协调其他硬件的工作。我们.............

SPEC CPU 2017的浮点性能测试项，与大多数用户无关，为什么将其视为CPU理论性能评测工具?

SPEC CPU 2017 浮点测试：为何它仍是衡量 CPU 理论性能的关键？很多人可能对 SPEC CPU 2017 的浮点测试项目感到陌生，甚至觉得它与自己日常使用电脑似乎没有什么直接关系。毕竟，大多数普通用户日常接触到的主要是文档处理、网页浏览、影音娱乐，甚至是一些轻度的图像编辑，这些场景对浮.............

为什么 GPU 每一代的更新性能上都有「重大突破」，而 CPU 近年来的更新换代被视为「挤牙膏」？

这是一个非常好的问题，触及了当前计算硬件发展的核心差异。GPU 和 CPU 在性能提升路径上的不同，主要源于它们的设计目标、架构演进以及市场驱动力。我们可以从以下几个方面详细阐述：为什么 GPU 每一代更新都有「重大突破」？GPU 的“重大突破”往往体现在以下几个方面，并且这些突破是可以被用户直观.............

锐龙 6000 系列和 Intel 12 代的 CPU 性能有多大差异，哪个更强?

聊起新一代的处理器，AMD 锐龙 6000 系列和 Intel 第十二代酷睿（ Alder Lake ）绝对是绕不开的话题。这两家巨头在 CPU 市场上的竞争可谓是火药味十足，每一次的更新换代都带来了不小的惊喜。那么，它们之间的性能差距到底有多大？哪个更胜一筹呢？我们不妨深入地来聊聊。核心架构的革新.............

若美国对华芯片禁售，举全国之力五年内能开发出 8 代 i5 性能的 CPU 和中端 GPU 芯片吗？

美国对华芯片禁售，中国举全国之力五年内能否开发出媲美第八代英特尔酷睿 i5 性能的 CPU 和中端 GPU 芯片，这是一个极其复杂且充满挑战的问题。答案并非简单的“能”或“不能”，而是需要深入分析中国在芯片研发、制造、人才、生态系统以及国际合作等方面的现状和潜力。核心问题：不是技术差距，而是“系统性.............

现在高端笔记本电脑的CPU真的性能过剩吗？

要说现在高端笔记本电脑的CPU是不是“性能过剩”，这事儿得掰开了揉碎了聊，而且答案也不是非黑即白那么简单。首先，咱们得明确一个概念：“性能过剩”到底指的是啥？对大多数人来说，性能过剩：如果你的主要用途是上网、看视频、处理文档、偶尔玩点轻度网游，那别说高端笔记本了，就是市面上主流配置的笔记本，.............

既然单个CPU性能提升有困难，为什么不把主板设计成双CPU的呢?

咱们聊聊为啥现在电脑主板上多见单CPU，而不是像过去那样常见双CPU设计，尤其是在CPU性能提升越来越不容易的当下。这事儿说起来，涉及到技术发展、应用需求、成本控制等好几个方面，不是简单一句“就可以解决性能瓶颈”那么简单。首先得明白，双CPU主板不是没人做过，过去确实流行过一阵子。在PC刚刚兴起或者.............

为什么4路CPU的服务器至少要配4个内存，只配2个内存会有什么影响，性能会降低多少？

问得好！很多朋友在配置服务器时都会遇到类似这样的疑问：为什么4路CPU的服务器通常建议搭配4个或更多的内存，如果只配2个内存，会有什么影响？性能真的会差很多吗？咱们今天就来好好掰扯掰扯这个事儿，力求讲得明白透彻。首先，咱们得先搞清楚几个基本概念。1. CPU和内存的关系：你可以把CPU想象成大脑，负.............

阿里云腾讯云这些云服务器一核心的的服务器CPU性能相当于什么样的CPU？

.......

为什么同性能的 8 核 16 线程 CPU，英特尔和 AMD 差了近 1000？

这问题问得挺实在的，很多人都疑惑，为什么同样是八核十六线程，英特尔和 AMD 的价格能差出个千八百块来。这可不是随便定价的，这里面道道可多了去了，得一点点掰开了说。首先，得明白一个最根本的点：“同性能”是相对的，而且价格差异不仅仅是性能决定的。即使是八核十六线程这个规格听起来一样，但它们内部的设计.............

为什么 GPU 的浮点运算性能远远强于 CPU？

CPU 和 GPU 在浮点运算能力上存在巨大差异，这并非偶然，而是源于它们各自的设计初衷和核心架构上的根本不同。要理解这一点，我们得深入剖析一下这两位计算大牛的“内在乾坤”。CPU：全能的“指挥官”，但对浮点运算并非“专精”CPU，或者说中央处理器，是计算机的“大脑”，它负责执行各种通用指令，从操作.............

为什么不能把桌面版的 CPU 做的很大，从而来提升性能？

大家伙儿，今天咱们聊点实在的，关于电脑里的CPU。你有没有想过，为啥咱们桌面上用的CPU，块头都不是特别大？是不是要是能做得跟砖头似的，性能就蹭蹭往上涨？这想法挺有意思，但现实情况嘛，比你想象的要复杂得多。为啥不能把CPU做得跟砖头似的？这事儿得从几个方面说起。1. 制程工艺的“极限”：你可能听说过.............

请教i7-3770这种老CPU现在带1080ti有没有性能上的阻碍？

i73770 搭配 1080 Ti 的组合，就像一位经验丰富的老司机开着一辆底子还不错的经典跑车，但能不能跑出它应有的极限，或者说会不会拖慢车速，这事儿得好好掰扯掰扯。首先，咱们得承认，i73770 这颗 CPU 已经算是老兵了。它诞生于 2012 年的 Ivy Bridge 架构，虽然当年它可是高.............