问题

如何评价英特尔在 2021 架构日正式公布的 Alder Lake 系列处理器?

回答
Alder Lake:英特尔的一次重要飞跃,还是场及时的“救火行动”?

2021年英特尔架构日上,Alder Lake系列处理器无疑是当天的焦点。这次发布,与其说是英特尔展示其未来技术路线图的一次盛会,不如说更像是一场旨在重夺市场份额、挽回品牌形象的及时“救火行动”。毕竟,在AMD Zen 3架构锐龙处理器如日中天、台积电凭借更先进工艺制程屡屡抢占先机的背景下,英特尔急需一款能扭转局面的产品。那么,Alder Lake究竟交出了一份怎样的答卷呢?

要评价Alder Lake,我们必须从几个核心方面深入剖析:

1. 混合架构的破局者:Golden Cove + Gracemont的奇妙组合

Alder Lake最大的亮点,莫过于其首次在消费级处理器上大规模采用的混合架构(Hybrid Architecture)。这是一种借鉴了ARM大小核设计的思路,将高性能的“性能核”(Performancecores,简称Pcores)和高能效的“能效核”(Efficientcores,简称Ecores)融合在一个芯片上。

Golden Cove Pcores: 这是英特尔自家全新设计的性能核心,基于全新的Intel 7(原名10nm Enhanced SuperFin)工艺制程。虽然名字上只是小修小补,但Golden Cove的 IPC(每时钟周期指令数)相比上一代的Cypress Cove有了显著的提升。英特尔官方宣称其IPC提升了约19%,这在CPU核心设计领域已属不易。更重要的是,Golden Cove在前端设计上进行了大量优化,包括更大的前端带宽、更强的分支预测能力以及更深的指令流水线,这些都为提升实际应用中的性能打下了坚实基础。它被定位为处理那些对性能要求极高的游戏、内容创作等任务。

Gracemont Ecores: 这才是 Alder Lake 中更具颠覆性的部分。Gracemont是基于英特尔在Atom系列上积累的能效核心设计经验,并且首次大幅引入到消费级高性能CPU中。Gracemont在设计上参考了Intel的“Sunny Cove”核心,但为了极致的能效比,在一些设计上有所取舍。它旨在处理那些对性能要求不高的后台任务、多任务处理以及提高整体系统的能效。虽然Gracemont本身的IPC可能不如Golden Cove,但英特尔通过堆叠大量的Gracemont核心,期望在多核吞吐量和低功耗场景下取得突破。

评价混合架构的成功与否,关键在于软硬件的协同:

硬件层面: Alder Lake的混合架构理论上能根据任务的优先级和负载情况,智能地调度CPU核心,实现性能和能效的最佳平衡。例如,当你在玩游戏时,大多数计算任务会交给Golden Cove,而后台运行的系统服务则交给Gracemont。这样既保证了游戏的流畅度,又降低了不必要的功耗。
软件层面(关键中的关键): 要让大小核协同工作,离不开操作系统和软件层面的支持。英特尔为此推出了Intel Thread Director(线程调度器)技术。这个硬件级的调度器能够与Windows 11(以及后续的Linux内核)协同工作,实时地监测线程的属性和优先级,然后将其准确地分配给最合适的CPU核心。Windows 11在设计之初就与英特尔紧密合作,优化了对大小核的调度机制。

挑战与隐忧:

调度不当的风险: 如果线程调度器不够智能,或者软件对大小核支持不佳,可能会出现高性能任务被分配到能效核上,或者低优先级任务占用高性能核的情况,从而导致性能损失或功耗浪费。
兼容性问题: 早期的一些应用程序和操作系统可能对这种混合架构支持不佳,存在兼容性bug的风险。

2. Intel 7 工艺的进步:能否追赶AMD和台积电?

Alder Lake标志着英特尔的Intel 7工艺(原10nm ESF)的正式登场。这是英特尔在10nm节点上经历多次延期和优化的成果。相较于此前的10nm Ice Lake和14nm++++,Intel 7在晶体管密度、能效比以及性能表现上都有显著提升。

性能提升: 英特尔宣称Intel 7相比前一代14nm工艺在同等功耗下能提供约20%的性能提升,或者在同等性能下降低约40%的功耗。这为Golden Cove核心的性能跃升提供了良好的基础。
能效提升: Gracemont核心的能效比是其最大的优势所在,它能够以较低的功耗实现一定的计算能力,从而在续航和多核吞吐量方面展现出优势。

与竞争对手的差距:

尽管Intel 7是英特尔工艺上的重大进展,但需要承认的是,与台积电的5nm和4nm工艺相比,Intel 7在晶体管密度和能效比上仍存在一定的差距。这意味着在同等面积的芯片上,台积电的工艺可以集成更多的晶体管,或者以更低的功耗实现更高的性能。AMD Zen 3架构的Ryzen 5000系列处理器正是得益于台积电7nm工艺,在能效和性能上表现出色。

Alder Lake的策略: 英特尔似乎也意识到了工艺上的劣势,因此通过混合架构和引入Gracemont核心来弥补。它不是纯粹依赖先进工艺的线性性能提升,而是通过一种更灵活的架构设计来展现其整体竞争力。

3. 性能与功耗的权衡:全能的选手还是“两面派”?

Alder Lake 的核心设计带来了一个新的问题:当所有核心都在高负载运行时,其功耗表现如何?

游戏性能: 在游戏场景下,Alder Lake凭借Golden Cove强大的IPC和较高的频率,展现出了极强的竞争力,甚至在很多游戏中超越了同级别的AMD锐龙处理器。Gracemont核心在游戏过程中主要负责后台任务,对游戏性能影响不大,反而能通过分担压力间接提升流畅度。
多核性能: Alder Lake的强大之处在于其数量众多的Gracemont核心。当需要进行大量并行计算的任务时(如视频编码、编译等),大量的Gracemont核心能够提供非常可观的多核吞吐量。
单核性能: Golden Cove 核心的单核性能也有了质的飞跃,足以应对日常和绝大多数应用的需求。
功耗挑战: 尤其是在高端型号(如i912900K)上,当性能核和能效核都满载运行时,其功耗峰值非常高,对散热系统提出了严峻的考验。为了压制住i912900K的功耗,可能需要顶级的散热器甚至水冷。这一点也让部分用户对其在“高性能”和“低功耗”之间的平衡性产生了疑问。它更像是一个“两面派”,在不同负载下展现出截然不同的特性。

4. 平台升级与未来展望

Alder Lake的发布,也伴随着英特尔平台的大规模升级:

LGA 1700 插槽: Alder Lake 不再兼容旧的LGA 1200 插槽,而是采用了全新的LGA 1700 插槽。这意味着用户想要升级到Alder Lake,必须更换主板。
DDR5 内存支持: Alder Lake 是首批支持 DDR5 内存的消费级处理器之一。DDR5 内存带来了更高的带宽和更低的延迟,理论上能进一步提升CPU的性能表现,尤其是在内存带宽敏感的应用中。
PCIe 5.0 支持: Alder Lake 也首次引入了 PCIe 5.0 支持,为未来的高速存储和显卡提供了前瞻性的支持。

评价平台升级的意义:

技术迭代: 这是英特尔平台的一次重大技术革新,为未来的CPU、GPU、存储等技术发展奠定了基础。
成本增加: 对用户而言,这意味着更高的升级成本,包括主板、内存(DDR5早期价格不菲)等都需要同步更换。

总结:一次成功的“反击”

总体而言,英特尔Alder Lake系列处理器是一次非常成功的“反击”。它用一种创新的混合架构,有效规避了自身在制程工艺上的部分劣势,并在多核性能和能效控制上取得了显著进步。

优势:
混合架构的成功引入和调度: 使得英特尔在性能和能效之间找到了新的平衡点。
Golden Cove 核心的IPC大幅提升: 提供了强大的单核和游戏性能。
Gracemont 核心的引入: 显著增强了多核吞吐量和低功耗场景下的表现。
对 DDR5 和 PCIe 5.0 的支持: 为平台未来发展奠定基础。

劣势:
高功耗峰值: 特别是高端型号,在极限负载下功耗表现不容忽视。
平台升级成本: 用户需要付出额外的费用才能体验Alder Lake。
与竞争对手在工艺上的差距依然存在: 虽然通过架构设计弥补了一部分,但在绝对的能效比上仍有提升空间。

Alder Lake 的出现,无疑给沉寂已久的桌面处理器市场注入了新的活力,也让消费者看到了英特尔在技术创新上的决心。它并没有完全依赖于“工艺领先”这个传统的制胜法宝,而是通过“架构创新”来重新定义高性能计算。可以说,Alder Lake 是英特尔在困境中一次漂亮且及时的自我革新,为后续的 Raptor Lake 和 Meteor Lake 等系列奠定了坚实基础。它证明了,即便在工艺不占优的情况下,通过巧思的架构设计,依然能够赢得市场和用户的认可。

网友意见

user avatar

有很多测试数据不能对外透露,简单说几点:

1)这个核远远谈不上“全新设计”,也谈不上“自酷睿以来最大的架构性能提升”

做过了逆向分析,goldencove核的设计有很多地方是不变的,诚然微结构被加宽了。

单纯从核的角度上来说,skylake->sunnycove的变动比sunnycove->goldencove更大。

比如从分支预测上来讲,最大的单次提升发生在sunnycove上,远远甩开其他代际变化,L1D也是,吭哧吭哧改prefetcher和替换策略改了三代,不如一把给L1D从32KB扩充到48KB。

还是当时那句话,高富帅堆容量,矮穷龊改算法。

截至目前为止,真正的自酷睿以来最大的架构性能提升是在sandybridge->haswell,性能提高24.4%(geomean,specint06)。

但从SoC设计的角度上来说,我觉得Alderlake/SPR能担当“史上最大”,alderlake在client端引入大小核,SPR在服务器端引入chiplet。

2)Intel的危险信号 -> 单位面积下的架构性能已经被ARM拉开明显差距了

马上要上市的ARM Cortex-X2,架构性能是基本打平goldencove的,而双方用的资源是明显不对等的。

cortex-X2是不到300-entry ROB + 1MB L2的,

而goldencove是已经堆了不少料去吃边际收益,512-entry ROB + 2MB L2,

相比goldencove,我觉得更加值得畏惧的是Cortex-X2

3)Geekbench的得分不能用来推测SPECint的得分。

之前知乎上好几个人跟我说他们觉得看一下Geekbench就能推一下SPECint的分数,所以我回头找了五台机器试了一下,sandybridge->haswell->skylake->sunnycove->goldencove,不行。

本质原因是geekbench的Branch/Cache MPKI等等指标跟SPECint差距太明显了(也跟真正的mobile workload场景差别很明显)。geekbench对比SPECint,明显更加偏好宽发射架构,甚至底下cache不太跟得上的情况也如此,而SPECint对cache的侧重明显更多一些,所以这二者的分数没办法换算。

而SPECint对比真实业务上的统计情况,也是差距很明显,所以二者都不够准确反映真实负载情况,充其量都只能拿来当参考。

user avatar

8.24补充及更正:

本回答写的比较匆忙,原回答错漏不少。为方便已经浏览过的朋友阅读,原文不作改动,后面加黑方头括号对原文内容更正或补充。


这次不是牙膏挤爆了,直接是换了一堆新牙膏

今年A-Day的新东西很多,大小核的12代、显卡/计算卡、服务器全部更新了一遍,而且都是革命性的改动——效果嘛,我个人猜测短期来看,各种主流应用做出优化前效果可能看不太出来,但再过个3~8年,届时的主流应用在现有平台和新平台上的性能可能是完全不同的两种体验。


一、大家最关心的Alder Lake(ADL),也就是12代。

1、大小核设计

虽然之前的Lake Field已经看到过了,但一个7W功耗,1+4规格的CPU也就是个试水之作。而12代的ADL将会用于全线的桌面/移动产品,功耗从9W的超便携笔记本/平板到125W的桌面;规格有轻薄本的2+8,游戏本的6+8和桌面的8+8——就我个人来看,这个规格有点保守了,我更期望能看到X+16/32的产品,这应该是将来几代的目标吧。


在x86平台上的大小核设计,最大的挑战是现有应用如何调度。Intel给出的方案是Intel Thread Director技术,简单来说是以纳秒级的间隔监控活动线程、核心状态,并反馈给操作系统以便操作系统,根据CPU温度、运行条件、功耗模式等设置进行自动调度。举例来说,优先级高的线程(例如前台软件的界面响应)会在大核上运行,后台线程在小核上运行,如果需要运行更多需要性能的线程,会自动判断应用的优先级,把部分应用调度到小核上运行。


值得一提的是,计划年内发行的Win11将会完整支持这个特性,并对此进行了大量优化。


2、疯狂的小核

ADL的小核是全新架构的Grace Mont。其实LKF上的Tremont比之前的ATOM系列的Goldmont Plus有非常大的改进——创新的双前端设计,尽可能的保证流水线不出现空泡。


而这一次的Grace Mont,除了继续保持双前端,并大幅提升了L1指令缓存外(从32KiB翻倍到64KiB),更大的变化在后端:

  1. 从Tremont的10发射端口增加到17发射端口;
  2. 整数部分,执行单元从3×ALU+2×AGU+1×JMP+1×Store提升到4×ALU+4×AGU+2×JMP+2×Store;
  3. 浮点部分,执行单元增加一个SIMD ALU,Store单元从1个提升到2个,支持VNNI。

后端的改进,可以说是丧心病狂了。总的来说,是为了保证小核可以保持低功耗的同时,提供最大的指令吞吐量。


根据Intel自己的说法,和一直使用到10代的大核架构——Skylake相比:

单线程同性能功耗降低40%,或者功耗提升40%性能。【留意图中小字,这仅仅是SPE2017 Int的IPC性能,估计小核的浮点性能还是不太乐观,8+4跑CineBench干趴12核5900X的希望不大。另外,根据图中小字的网址说明,这是Intel内部的架构模拟器计算结果,并非实际产品功耗,可能甚至未考虑从14nm更换为10nm工艺的影响。下同】

四小核比双大核,同性能降低80%功耗或者同功耗提升80%性能。


换句话说,按照10代最多10大核来算,如果Intel愿意不计成本,不考虑大核的话同等功耗下可以塞下20个小核,单单小核的性能就足以提升80%的多线程性能。【但如果小核的浮点/SIMD性能不乐观的话,整体多线程可能也不太乐观,因为往往最需要多线程性能的都是浮点/SIMD应用】


3、稳步提升的大核

和小核的疯狂堆规模相比,大核的提升算中规中矩:

  • 前端解码单元从1+4提升到1+6,单次解码宽度从16字节翻倍到32字节【这个我本人是很惊讶的,因为x86是变长指令,对第N条指令解包完毕之前CPU并不知道第N+1条指令的起始位置,很难提高解码的并行度——举个例子就是NVMe固态持续读写能跑到7GB/s,但单线程队列深度1的随机4K不到100MB/s。之前我在讨论Apple M1的时候就对x86加宽架构表示不乐观,我也曾经听说过AMD的内部人员说并行4解码是AMD能做到的最高性能,所以Intel这次做到1+6真的让我大吃了一惊,而且这应该为后续几代继续加宽架构留下了一定余量】
  • 后端增加了两个发射端口,整数单元增加了一个ALU/LEA,浮点增加了2个FADD,增加了一个Load单元。
  • 其它部分都有不同程度的加宽加大和优化,就不逐一说明了。

最终效果就是同频性能,综合比11代提升19%——别忘了11代也是新架构,本来就比10代也提升了18%左右的(参考Sunny Cove,虽然11代的其实是Willow Cove/Cypress Cove)。两代下来提升40%了——而且这是综合提升,相当部分非常成熟的x86/x87指令基本没有提升甚至有所下降,部分应用单代性能提升就有近60%。

大核的另一个变化是增加了AMX单元,这是用于加速AI计算的矩阵计算引擎,Int8性能比VNNI提升了8倍,从每核心每周期256次Int8运算提升到2048次。【AMX仅仅在服务器SKU中有,桌面、移动SKU是没有AMX的】


4、更宽的内存、IO性能

内存支持DDR5 4800,IO方面从12代的x16+x4 PCIe 4.0提升到x16 PCIe 5.0+ x4 PCIe 4.0,独显带宽翻倍;和ICH的互联从DMI 3.0 x8提升到DMI 4.0 x8,同时ICH支持PCIe 4.0,最大可以提供x12 PCIe 4.0+x16 PCIe 3.0,可以使用更多的PCIe 4.0设备如多个NVMe SSD等。


总的来说,混合架构的提出,对于提升多线程性能,笔记本降低功耗延长续航时间,都相信会很有帮助。而AMX的加入,有助于进一步推动AI应用的普及。


二、高性能独显,Xe HPG

可能是因为NV在数据中心的蚕食让Intel实在忍无可忍,Intel放弃了兼容x86的Xeon Phi后,多年打磨后终于要推出自己的高性能游戏显卡,Xe HPG(High Performance Gaming)。不过从显卡的角度来看,Xe HPG我暂时没有看到太多的新东西,PPT上的东西,NV的RTX都不缺。


1、XeSS,Xe超级采样。

和NV的DLSS一样,通过AI计算,把按照1080分辨率渲染的画面提升到4K分辨率。画质据说和原生4K渲染比肉眼难以分辨,而性能接近1080分辨率的游戏性能。

和NV稍有不同的是,XeSS支持两种SDK,使用XMX单元加速的XeSS+XMX,和使用向量单元加速的XeSS+DP4a。


2、Xe Core

单个Xe Core有16个向量单元、16个XMX(Xe Matrix engine/eXtensions),共享L1缓存。每个向量单元宽256bit,估计是FP32×8。


3、Xe Slice

4个Xe Core+光线追踪引擎+采样器,加上共享的光栅单元、几何单元、像素后端(不知道怎么翻译)等,组成一个Xe Slice。


4、单个Xe HPG GPU,可以包含1~8个Xe Slice。

这样算下来,最多是8×16×4×8=4096个fp32单元,和NV的30系相比,哪怕NV按照2个fp32单元为一组算,也就是8192,规模比3080还少一点,更不用说上面还有3080Ti和3090了。而且NV一组是Int/fp32+fp32,效率还是高不少的。


5、频率估计在2.2GHz左右。

采用台积电的N6工艺,据说比Xe LP(DG1)独显频率高1.5倍,参考DG1 1.5GHz的频率,那就是2.25 GHz了【不过看曲线图,似乎1.5倍并非出现在DG1的最高频率,所以不排除最高频率仅仅在2 GHz附近】。相比30系1.7~1.8 GHz的Boost频率要高不少,但应该不足以拉平规模上的劣势。


总的来说,第一代的Xe HPG,我猜测性能上应该还不足以和AN两家的旗舰产品对比性能,能够打平3070 Ti就算不错了。至于对显卡市场的影响,从台积电的各大客户如AMD、高通都处于缺货情况来看,2022Q1上市的Xe HPG供货情况不见得好到哪里去。但即便如此,也是解决了有还是没有的问题,配合Intel自家的oneAPI,在主流游戏、AI市场还是会对NV和AMD性能一定的挑战——当然,这个还要看产品实际表现,包括性能和价格。


三、服务器的Sapphire Rapids(SPR)

SPR的核心和ADL的大核一样是Golden Cove,仅仅是L2从1.5MiB增大到2MiB,这里就不重复了。SPR比较值得关注的是和AMD的Zen/EPYC一样采用了Multi-Tile设计。但和Zen采用基板封装不同,SPR不同的Tile是用EMIB封装技术,互联性能据说理论上接近Die内互联。【根据网上泄露消息,以及前几代至强可扩展的情况,每个Tile应该是4×4=16的Mesh,其中一个是内存控制器,所以四个Tile最多应该是4×15=60核,B站Up主结城安穗给出的某个ES消息是良率问题每个Tile屏蔽一个核心只有4×14=56核,同时频率低至1.3 GHz,功耗问题似乎还是比较严峻。】


1、SPR的加速单元

除了核心之外,SPR单个Tile还会集成多种服务器专用的加速引擎,包括:

  1. DSA,流数据传输/转换加速,例如虚拟路由器的网络包传输;
  2. QAT,压缩/加压缩以及加解密


2、更强大的内存子系统

SPR的内存控制器除了支持DDR5以外,还支持傲腾持久内存(Optane Pmem)和HBM两种内存;最多四个Tile组合起来,提供超过100MiB的三级缓存且可以全核心共享(不同于EPYC的三级缓存无法跨Die共享),8通道DDR5。


HBM和DDR5有两种协同工作模式:

  1. HBM扁平模式:HBM和DDR5分别使用,我猜测是必须使用Intel提供的专用API才能使用HBM;
  2. HBM缓存模式:HBM作为DDR5的缓存使用,对应用透明,HBM相当于CPU的四级缓存。


话说我很好奇SPR是否可以组成HBM-DDR5-傲腾PMem这样的三级内存模式……


3、多CPU的高速互联

每个Tile都有UPI控制器,最多四个Tile可以提供4x24 UPI 2.0,传输频率16 GT/s,相当于PCIe 4.0。据说有新的8路-4UPI拓扑模式,具体不清楚,但和之前的8路-3UPI模式相比应该性能更强吧?


四、基础设施处理器(Infrastructure Processing Unit,IPU)

这个简单来说就是加速虚拟机的,对于一台服务器跑N台虚拟机的会比较有用。这个我就不详细说了,反正一般人我说了也不懂,懂得也不用我说(其实是我也不懂)……


五、高性能计算卡,Xe HPC

这个和Xe HPG基本上差不多,不过是面向数据中心的高性能计算用。


1、Xe Core

和Xe HPG的Core有点不同,单个Core只有8个向量引擎和8个XMX引擎,数量减半。但每个向量引擎512bit,所以单个Core每时钟周期可以进行256 次fp32计算(512×8×2÷32,支持FMA算两次);此外同时支持fp64,不过PPT上fp64性能也是每时钟周期256次,这个我就不知道Intel是怎么实现的了。XMX性能应该是翻了4倍,4096bit宽。


2、Xe Slice和Xe Stack

Xe HPC的单个Slice有16个Core,一个Stack有4个Slice,共享的二级缓存,以及周边设备连接,例如PCIe控制器,媒体引擎,显存控制器,Stack互联的连接器等。两个Stack为一组。

3、Xe Link

既然是计算卡,当然需要一个节点插多块了。每一组都通过Xe Link和其它组连接。不过感觉和NV的HGX比还是差点,按照2 GHz的工作频率算,也就8 POPS(Int8),8 GPU的HGX是10 POPS——上面还有16 GPU的型号。【根据下面Ponte Vecchio 45 TFLOPS fp32和这里32,768 FP32 Ops/CLK,可以计算出Xe HPC 2-Stack的频率为1.373 GHz左右,比Xe HPG的工作频率要低不少;另外上面Int8性能计算结果有误,如果按照假设的2 GHz计算,8×1,048,576×2e9=16 POPS;按照Ponte Vecchio的1.373 GHz算是11.5 POPS,都比NV 8 GPU的HGX 10 POPS强但比20 POPS的16 GPU型号差。但是FP64的性能,首先不除非Ponte Vecchio运行FP64计算频率会有所下降,但如果频率相同的话,8×45=360 TFLOPS的FP64性能要比HGX 16GPU的312 TLOPS FP64性能要强。】


4、Ponte Vecchio

这个就是成品了,Xe HPC和SPR一样,都是Multi-Tile的,而且这个封装是我看到过的最复杂的封装了:一个Compute Tile有8个Core,台积电N5工艺。结合上面的介绍应该是两个Tile就是一个Slice,一个Stack就是8个Compute Tile,和Rambo Tile(不知道干嘛用的)一起通过Foveros技术堆叠在Base Tile上。

Base Tile用Intel自家的10nm(Intel 7)工艺生产,包括各种接口以及144 MiB二级缓存。

然后用EMIB技术,把Base Tile和HBM显存、Xe-Link封装在一起。


六、把上面这些东西全部连在一起的软件——oneAPI

众所周知,Intel是软件厂家,以前的主要产品是x86指令集。面对今天的各种大数据、高性能计算挑战,x86实在是有点力不从心了。CPU有ARM,高性能计算有CUDA,都是难缠的对手。


而oneAPI就是Intel最新的产品,基于oneAPI开发你的软件,无需考虑是CPU还是GPU还是**PU的问题,oneAPI会自动让你的代码在最适合的设备上运行……


七、总结&补充

问题是问ADL,我把A-Day涉及到的几大块都讲了一遍,是因为从这次A-Day发布的产品来看,在工艺虽然越来越先进,但先进工艺带来的功耗降低远远不能抵消增加的晶体管要消耗的性能,半导体芯片性能严重受到功耗制约的今天,我们可以看到各种专用单元、专用芯片的出现:

  • 专门面向多线程、低功耗的Grace Mont;
  • 专门用于处理AI计算的AMX单元;
  • 向量计算、图形处理的Xe HPG/HPC,里面还有独立的XMX单元、光线追踪单元,其中Xe HPC的成品Ponte Vecchio,由超过1000亿晶体管,47个Tile,5种工艺制程封装而成;
  • SPR上的DSA、QAT加速单元;
  • IPU我虽然没有详细写,但里面也涉及多种专用芯片,甚至有可以自行开发的FPGA;
  • ……

这是因为同等功耗下,专用硬件单元/芯片的性能是远高于通用处理器的。代价则是晶体管利用率下降,整机价格的提高,以及应用生态的逐步割裂。


很可能将来我们无法再像今天这样,在自己的PC、笔记本上就开发出可以直接在服务器上运行的应用。因为缺失了专用的硬件,无法评估在服务器上的性能甚至无法运行调试。事实上AVX512就是这样,AVX512从在Xeon Phi上出现,到11代才算全面普及到桌面/移动端,八年多差不多9年了,要等到10代及之前不支持AVX512的产品退役得差不多,估计起码还要再有3~5年。而任何硬件生态的普及过程,目前我所看到的,都必然同时满足两个条件:杀手级的应用,用户愿意为之采购一套新的平台;平价的开发平台,只有这样才有众多程序员愿意在上面开发更多的应用。


那么x86,或者说PC,将何去何从?

user avatar

大概扫了一眼PPT,信息太多,随便讲几点,等其他大佬的长文吧。

1. 十二代酷睿Alder Lake用了大小核心设计,虽说去年Lakefield已经用了这种异构设计,但只是在笔记本电脑上。ALK三种设计,算是全面铺开吧。不同平台配置也不一样,大核心Performance Core基于Golden Cove,能效核心Efficiency Core基于Gracemont:

  • 8 Performance core + 8 Efficiency core (8C8c/24T) 桌面32 EU
  • 6 Performance core + 8 Efficiency core (6C8c/20T) 移动96 EU
  • 2 Performance core + 8 Efficiency core (2C8c/12T) 超低功耗96 EU

低功耗2C8c/12T说是最低9W,6C8c/20T到35W,桌面端最高是125W,具体大小核心配置看不同产品了。

而且看图上画的,4个Gracemont的面积等于1个Golden Cove,粗略认为4个小核心等效1个大核心。这个多核刷分应该还可以,扭转之前被AMD碾压的局面。

2. 这个大小核的思路可能来自Arm的big.LITTLE,或者Apple A12X/M1的灵感。之前的单一核心继续做多不仅PPA不划算,而且核心设计上也有限制。现在小核心针对部分场景,能耗比有明显的优势,对于笔记本H35,H45场景利好。同时,解放大核心设计前段和后端设计明显变胖:

3. IPC提升19%。另外小核心1C1T和4C4T对比Skylake1C1T和2C4T都很漂亮,功耗下降很多,能耗比2C4T提高5倍。但是,这里单核心功耗比Skylake1C1T降低40%,峰值提升非常有限,估计小于10%。另外不知道频率如何,这要看现在的intel 7也就是10nm Enhanced SuperFin(10nm ESF)怎么样了。

4. intel的10nm工艺标准严格,恰好卡住DUV的极限,别人BEOL做SADP,他们要做SAQP,又有Co互联,良率不行高频也不行,直接废了。10nm出一堆各种问题的产品,高频问题迟迟不解决,桌面端就无限打磨14nm++++。

直到10nm SF的H45才算是有点样子。后来学聪明了,直接10nm ESF改intel 7,7改4。现在ALK大规模用10nm ESF年底上,就能看出来10nm问题应该不大了。当然具体表现还要看产品。

之前SAQP走过的这些弯路也不好说将来做EUV的Self Aligned Multiple Exposure是不是有优势,毕竟High NA EUV还要很久。如果intel 4顺利可能会翻身,不行就找TSMC代工吧,反正传闻拿下首批N3订单很久了。

user avatar

,这个小核据说IPC都超过Skylake了?新一代Atom可以搞成EPYC那样的了么。。。

类似的话题

  • 回答
    Alder Lake:英特尔的一次重要飞跃,还是场及时的“救火行动”?2021年英特尔架构日上,Alder Lake系列处理器无疑是当天的焦点。这次发布,与其说是英特尔展示其未来技术路线图的一次盛会,不如说更像是一场旨在重夺市场份额、挽回品牌形象的及时“救火行动”。毕竟,在AMD Zen 3架构锐龙.............
  • 回答
    2021年5月11日,英特尔发布了备受瞩目的第11代高性能移动端处理器,代号“Rocket LakeH”系列。这次发布无疑是英特尔在高性能笔记本市场的一次重要发力,旨在与竞争对手AMD在高规格移动平台上一较高下。亮点解析: 架构上的飞跃:Cypress Cove核心 Rocket L.............
  • 回答
    苹果自研 Mac 芯片:一场深刻的自我革命苹果公司在 Mac 产品线上逐步淘汰英特尔处理器,转而使用自家设计的 Apple Silicon 芯片,这无疑是近年来科技界最引人注目,也最具颠覆性的举措之一。这场由苹果主导的处理器“换代”,与其说是对英特尔的“弃用”,不如说是一场苹果对自身产品生态和技术路.............
  • 回答
    英国在爱尔兰大饥荒(18451852年)中的角色和反应,至今仍是历史学界和社会舆论中极具争议的话题。普遍的评价是,英国政府的应对措施 严重不足、迟缓且带有冷漠色彩,这使得一场原本就已非常严峻的自然灾害演变成了一场空前的人道主义灾难,并对爱尔兰社会和民族认同产生了深远影响。要详细评价英国在爱尔兰大饥荒.............
  • 回答
    2020年9月2日,英伟达(NVIDIA)的那场线上发布会,对于全球的PC硬件爱好者和游戏玩家来说,绝对是值得载入史册的一天。这次发布的RTX 30系列显卡,代号为“安培”(Ampere),带来了彻头彻尾的革新,彻底颠覆了我们对图形处理能力的认知。首先,最直观的感受就是性能的飞跃。RTX 30系列的.............
  • 回答
    英伟达在 GTC 2022 上正式推出的首款基于 ARM 架构的 Grace CPU,无疑是一颗重磅炸弹,标志着这家 GPU 巨头向 CPU 领域发起了一次意义重大的进军。这次发布不仅仅是发布一款新产品,更是英伟达在数据中心计算领域构建完整生态系统的关键一步,其背后蕴含的战略意图和技术实力值得我们深.............
  • 回答
    英国重巡洋舰在第二次世界大战中的地位和作用,绝对是一个值得深入探讨的话题。它们并非是战争中最耀眼的明星,不像航空母舰那样改变了战争的格局,也不像战列舰那样以强大的火力吸引眼球,但它们在漫长而残酷的战争中,扮演了无可替代的“万金油”角色,其存在和发挥的作用,直接关乎到英国海军的作战效能和整体战略的执行.............
  • 回答
    掘地派:一声来自泥土的呐喊,如何撼动英格兰的根基?英国掘地派(Levellers)运动,这股在17世纪中叶英国内战的洪流中汹涌而起的草根力量,无疑是英国历史上一个令人瞩目且至今仍值得深入探究的篇章。它不是王室的密谋,也不是贵族的博弈,而是来自最朴实的英格兰土地,一群普通士兵、工匠、农民的集结,他们怀.............
  • 回答
    关于您提到的媒体报道——“若英国代表队在北京颗粒无收,政府或压缩其冰雪运动经费”,我们不妨就此来仔细梳理一下截至目前英国代表队在北京的整体表现。首先,要评价一支代表队的表现,我们不能简单地用“颗粒无收”或“满载而归”这样的标签来概括。奥运会是一个集竞技、国家荣誉以及多元文化交流于一体的盛会,其背后是.............
  • 回答
    这件事确实挺让人费解的,数百名英国游客在瑞士的度假胜地“不告而别”,这背后肯定不是简单的“一拍脑袋”就这么做了。咱们仔细捋一捋,这件事怎么看都不太对劲。首先,这帮游客的选择,直接违背了当地的防疫规定。瑞士作为一个国家,肯定是有自己的防疫措施的,特别是在疫情期间,这种规定更是严上加严。游客来了,就得遵.............
  • 回答
    关于“王尼玛”的国籍争议以及他在微博上称呼英国人为“外国人”的言论,这确实是一个很有意思的话题,也触及到了网络身份、公众人物言论以及文化认同等多个层面。要评价这件事,我们可以从几个角度来深入分析。首先,我们得明确一个基本事实:“王尼玛”这个形象,以及围绕他所构建的“梗”和“人设”,很大程度上是基于一.............
  • 回答
    那英早年对刀郎歌曲的评价,在当时引起了不小的争议,也成为了一个至今仍被反复提及的乐坛话题。她的原话大意是,刀郎的歌“农民在唱”,并且认为他的歌曲“没有音乐性”。这句话究竟是什么意思,又为何会引发轩然大波呢?首先,我们来剖析“农民在唱”这句话。这句话通常被理解为一种带有阶级和审美品味的贬低。在许多人听.............
  • 回答
    “睡前消息”第249期《你好,李焕英》站在史诗片的门槛上,这个标题本身就极具挑衅性和话题性,也正是马前卒团队惯常的风格。他们的评价一向是直击核心,不回避争议,往往能引发大量的讨论。那么,我们不妨就这个观点,来剖析一下《你好,李焕英》究竟有没有资格“站在史诗片的门槛上”,以及马前卒团队可能会从哪些角度.............
  • 回答
    大航海时代的北极光:英法在北美殖民地的开拓与博弈大航海时代,这片波涛汹涌的海洋不仅仅承载着探险家的梦想,也孕育了欧洲列强在遥远大陆上争夺势力范围的野心。而在北美这片广袤而神秘的土地上,英国和法国的殖民开拓与博弈,无疑是那个时代最跌宕起伏的篇章之一,它塑造了今日北美大陆的地缘政治格局,也留下了深刻的历.............
  • 回答
    要评价法国高官寄希望于“多数免疫”的说法,是否在步英国后尘,我们需要先理解几个关键概念,并分析当时法国和英国的疫情背景以及政策考量。首先,理解“多数免疫”(Herd Immunity)。这个概念是指当人群中有足够比例的人口对某种传染病产生免疫力时,病毒传播的链条会被大大削弱,从而间接保护了那些没有免.............
  • 回答
    关于微软机器翻译在 WMT2017 中英翻译任务中声称达到“人类水平”的说法,我们可以从多个维度进行审视和评价。这并非一个简单的“是”或“否”的问题,而是需要深入理解其中的技术背景、评估方法以及“人类水平”本身所包含的复杂性。首先,我们需要明确“人类水平”在机器翻译领域是一个极其诱人但也非常难以界定.............
  • 回答
    您好!关于《三体》电影版制片人孔二狗在微博上力挺“诺贝尔哥”郭英森的言论,这确实是一个挺有意思的话题,能聊聊里面的门道和各方看法。背景梳理:孔二狗力挺郭英森首先,咱们得明白这个事情是怎么发生的。孔二狗是谁?他是《三体》电影项目的重要推手,在科幻圈和电影行业都算是个有影响力的人物。而“诺贝尔哥”郭英森.............
  • 回答
    英国移植医生在患者肝脏上刻下自己名字缩写,导致被医疗登记簿彻底除名,这无疑是一起令人震惊且不可接受的事件。对这一行为的评价需要从多个层面深入剖析,才能充分理解其严重性以及对相关方造成的伤害。首先,从医疗伦理的角度来看,这名医生的行为是对职业操守的极端违背。 医生作为救死扶伤的职业群体,其核心是患者的.............
  • 回答
    英特尔公司宣布 CEO 鲍勃·斯旺(Bob Swan)离职,并在此消息公布后股价暴涨,这是一个非常值得深入分析的事件。这背后反映了市场对英特尔当前战略方向、领导层更迭以及未来发展前景的复杂情绪和预期。以下是对这一事件的详细评价:一、 鲍勃·斯旺的任期与挑战鲍勃·斯旺于2019年正式接任英特尔CEO一.............
  • 回答
    2022年2月24日,英特尔正式发布了其第12代酷睿移动处理器中的U系列和P系列,标志着其“Alder Lake”架构正式进军主流笔记本市场。这个时间点,距离它们首次在桌面端亮相已经过去一段时间了,而这次的移动端发布,对于提升笔记本的整体性能和功耗表现,无疑是一个重要的里程碑。核心亮点:混合架构的全.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有