有很多测试数据不能对外透露,简单说几点:
1)这个核远远谈不上“全新设计”,也谈不上“自酷睿以来最大的架构性能提升”
做过了逆向分析,goldencove核的设计有很多地方是不变的,诚然微结构被加宽了。
单纯从核的角度上来说,skylake->sunnycove的变动比sunnycove->goldencove更大。
比如从分支预测上来讲,最大的单次提升发生在sunnycove上,远远甩开其他代际变化,L1D也是,吭哧吭哧改prefetcher和替换策略改了三代,不如一把给L1D从32KB扩充到48KB。
还是当时那句话,高富帅堆容量,矮穷龊改算法。
截至目前为止,真正的自酷睿以来最大的架构性能提升是在sandybridge->haswell,性能提高24.4%(geomean,specint06)。
但从SoC设计的角度上来说,我觉得Alderlake/SPR能担当“史上最大”,alderlake在client端引入大小核,SPR在服务器端引入chiplet。
2)Intel的危险信号 -> 单位面积下的架构性能已经被ARM拉开明显差距了
马上要上市的ARM Cortex-X2,架构性能是基本打平goldencove的,而双方用的资源是明显不对等的。
cortex-X2是不到300-entry ROB + 1MB L2的,
而goldencove是已经堆了不少料去吃边际收益,512-entry ROB + 2MB L2,
相比goldencove,我觉得更加值得畏惧的是Cortex-X2
3)Geekbench的得分不能用来推测SPECint的得分。
之前知乎上好几个人跟我说他们觉得看一下Geekbench就能推一下SPECint的分数,所以我回头找了五台机器试了一下,sandybridge->haswell->skylake->sunnycove->goldencove,不行。
本质原因是geekbench的Branch/Cache MPKI等等指标跟SPECint差距太明显了(也跟真正的mobile workload场景差别很明显)。geekbench对比SPECint,明显更加偏好宽发射架构,甚至底下cache不太跟得上的情况也如此,而SPECint对cache的侧重明显更多一些,所以这二者的分数没办法换算。
而SPECint对比真实业务上的统计情况,也是差距很明显,所以二者都不够准确反映真实负载情况,充其量都只能拿来当参考。
本回答写的比较匆忙,原回答错漏不少。为方便已经浏览过的朋友阅读,原文不作改动,后面加黑方头括号对原文内容更正或补充。
今年A-Day的新东西很多,大小核的12代、显卡/计算卡、服务器全部更新了一遍,而且都是革命性的改动——效果嘛,我个人猜测短期来看,各种主流应用做出优化前效果可能看不太出来,但再过个3~8年,届时的主流应用在现有平台和新平台上的性能可能是完全不同的两种体验。
虽然之前的Lake Field已经看到过了,但一个7W功耗,1+4规格的CPU也就是个试水之作。而12代的ADL将会用于全线的桌面/移动产品,功耗从9W的超便携笔记本/平板到125W的桌面;规格有轻薄本的2+8,游戏本的6+8和桌面的8+8——就我个人来看,这个规格有点保守了,我更期望能看到X+16/32的产品,这应该是将来几代的目标吧。
在x86平台上的大小核设计,最大的挑战是现有应用如何调度。Intel给出的方案是Intel Thread Director技术,简单来说是以纳秒级的间隔监控活动线程、核心状态,并反馈给操作系统以便操作系统,根据CPU温度、运行条件、功耗模式等设置进行自动调度。举例来说,优先级高的线程(例如前台软件的界面响应)会在大核上运行,后台线程在小核上运行,如果需要运行更多需要性能的线程,会自动判断应用的优先级,把部分应用调度到小核上运行。
值得一提的是,计划年内发行的Win11将会完整支持这个特性,并对此进行了大量优化。
ADL的小核是全新架构的Grace Mont。其实LKF上的Tremont比之前的ATOM系列的Goldmont Plus有非常大的改进——创新的双前端设计,尽可能的保证流水线不出现空泡。
而这一次的Grace Mont,除了继续保持双前端,并大幅提升了L1指令缓存外(从32KiB翻倍到64KiB),更大的变化在后端:
后端的改进,可以说是丧心病狂了。总的来说,是为了保证小核可以保持低功耗的同时,提供最大的指令吞吐量。
根据Intel自己的说法,和一直使用到10代的大核架构——Skylake相比:
单线程同性能功耗降低40%,或者功耗提升40%性能。【留意图中小字,这仅仅是SPE2017 Int的IPC性能,估计小核的浮点性能还是不太乐观,8+4跑CineBench干趴12核5900X的希望不大。另外,根据图中小字的网址说明,这是Intel内部的架构模拟器计算结果,并非实际产品功耗,可能甚至未考虑从14nm更换为10nm工艺的影响。下同】
四小核比双大核,同性能降低80%功耗或者同功耗提升80%性能。
换句话说,按照10代最多10大核来算,如果Intel愿意不计成本,不考虑大核的话同等功耗下可以塞下20个小核,单单小核的性能就足以提升80%的多线程性能。【但如果小核的浮点/SIMD性能不乐观的话,整体多线程可能也不太乐观,因为往往最需要多线程性能的都是浮点/SIMD应用】
和小核的疯狂堆规模相比,大核的提升算中规中矩:
最终效果就是同频性能,综合比11代提升19%——别忘了11代也是新架构,本来就比10代也提升了18%左右的(参考Sunny Cove,虽然11代的其实是Willow Cove/Cypress Cove)。两代下来提升40%了——而且这是综合提升,相当部分非常成熟的x86/x87指令基本没有提升甚至有所下降,部分应用单代性能提升就有近60%。
大核的另一个变化是增加了AMX单元,这是用于加速AI计算的矩阵计算引擎,Int8性能比VNNI提升了8倍,从每核心每周期256次Int8运算提升到2048次。【AMX仅仅在服务器SKU中有,桌面、移动SKU是没有AMX的】
内存支持DDR5 4800,IO方面从12代的x16+x4 PCIe 4.0提升到x16 PCIe 5.0+ x4 PCIe 4.0,独显带宽翻倍;和ICH的互联从DMI 3.0 x8提升到DMI 4.0 x8,同时ICH支持PCIe 4.0,最大可以提供x12 PCIe 4.0+x16 PCIe 3.0,可以使用更多的PCIe 4.0设备如多个NVMe SSD等。
总的来说,混合架构的提出,对于提升多线程性能,笔记本降低功耗延长续航时间,都相信会很有帮助。而AMX的加入,有助于进一步推动AI应用的普及。
可能是因为NV在数据中心的蚕食让Intel实在忍无可忍,Intel放弃了兼容x86的Xeon Phi后,多年打磨后终于要推出自己的高性能游戏显卡,Xe HPG(High Performance Gaming)。不过从显卡的角度来看,Xe HPG我暂时没有看到太多的新东西,PPT上的东西,NV的RTX都不缺。
和NV的DLSS一样,通过AI计算,把按照1080分辨率渲染的画面提升到4K分辨率。画质据说和原生4K渲染比肉眼难以分辨,而性能接近1080分辨率的游戏性能。
和NV稍有不同的是,XeSS支持两种SDK,使用XMX单元加速的XeSS+XMX,和使用向量单元加速的XeSS+DP4a。
单个Xe Core有16个向量单元、16个XMX(Xe Matrix engine/eXtensions),共享L1缓存。每个向量单元宽256bit,估计是FP32×8。
4个Xe Core+光线追踪引擎+采样器,加上共享的光栅单元、几何单元、像素后端(不知道怎么翻译)等,组成一个Xe Slice。
这样算下来,最多是8×16×4×8=4096个fp32单元,和NV的30系相比,哪怕NV按照2个fp32单元为一组算,也就是8192,规模比3080还少一点,更不用说上面还有3080Ti和3090了。而且NV一组是Int/fp32+fp32,效率还是高不少的。
采用台积电的N6工艺,据说比Xe LP(DG1)独显频率高1.5倍,参考DG1 1.5GHz的频率,那就是2.25 GHz了【不过看曲线图,似乎1.5倍并非出现在DG1的最高频率,所以不排除最高频率仅仅在2 GHz附近】。相比30系1.7~1.8 GHz的Boost频率要高不少,但应该不足以拉平规模上的劣势。
总的来说,第一代的Xe HPG,我猜测性能上应该还不足以和AN两家的旗舰产品对比性能,能够打平3070 Ti就算不错了。至于对显卡市场的影响,从台积电的各大客户如AMD、高通都处于缺货情况来看,2022Q1上市的Xe HPG供货情况不见得好到哪里去。但即便如此,也是解决了有还是没有的问题,配合Intel自家的oneAPI,在主流游戏、AI市场还是会对NV和AMD性能一定的挑战——当然,这个还要看产品实际表现,包括性能和价格。
SPR的核心和ADL的大核一样是Golden Cove,仅仅是L2从1.5MiB增大到2MiB,这里就不重复了。SPR比较值得关注的是和AMD的Zen/EPYC一样采用了Multi-Tile设计。但和Zen采用基板封装不同,SPR不同的Tile是用EMIB封装技术,互联性能据说理论上接近Die内互联。【根据网上泄露消息,以及前几代至强可扩展的情况,每个Tile应该是4×4=16的Mesh,其中一个是内存控制器,所以四个Tile最多应该是4×15=60核,B站Up主结城安穗给出的某个ES消息是良率问题每个Tile屏蔽一个核心只有4×14=56核,同时频率低至1.3 GHz,功耗问题似乎还是比较严峻。】
除了核心之外,SPR单个Tile还会集成多种服务器专用的加速引擎,包括:
SPR的内存控制器除了支持DDR5以外,还支持傲腾持久内存(Optane Pmem)和HBM两种内存;最多四个Tile组合起来,提供超过100MiB的三级缓存且可以全核心共享(不同于EPYC的三级缓存无法跨Die共享),8通道DDR5。
HBM和DDR5有两种协同工作模式:
话说我很好奇SPR是否可以组成HBM-DDR5-傲腾PMem这样的三级内存模式……
每个Tile都有UPI控制器,最多四个Tile可以提供4x24 UPI 2.0,传输频率16 GT/s,相当于PCIe 4.0。据说有新的8路-4UPI拓扑模式,具体不清楚,但和之前的8路-3UPI模式相比应该性能更强吧?
这个简单来说就是加速虚拟机的,对于一台服务器跑N台虚拟机的会比较有用。这个我就不详细说了,反正一般人我说了也不懂,懂得也不用我说(其实是我也不懂)……
这个和Xe HPG基本上差不多,不过是面向数据中心的高性能计算用。
和Xe HPG的Core有点不同,单个Core只有8个向量引擎和8个XMX引擎,数量减半。但每个向量引擎512bit,所以单个Core每时钟周期可以进行256 次fp32计算(512×8×2÷32,支持FMA算两次);此外同时支持fp64,不过PPT上fp64性能也是每时钟周期256次,这个我就不知道Intel是怎么实现的了。XMX性能应该是翻了4倍,4096bit宽。
Xe HPC的单个Slice有16个Core,一个Stack有4个Slice,共享的二级缓存,以及周边设备连接,例如PCIe控制器,媒体引擎,显存控制器,Stack互联的连接器等。两个Stack为一组。
既然是计算卡,当然需要一个节点插多块了。每一组都通过Xe Link和其它组连接。不过感觉和NV的HGX比还是差点,按照2 GHz的工作频率算,也就8 POPS(Int8),8 GPU的HGX是10 POPS——上面还有16 GPU的型号。【根据下面Ponte Vecchio 45 TFLOPS fp32和这里32,768 FP32 Ops/CLK,可以计算出Xe HPC 2-Stack的频率为1.373 GHz左右,比Xe HPG的工作频率要低不少;另外上面Int8性能计算结果有误,如果按照假设的2 GHz计算,8×1,048,576×2e9=16 POPS;按照Ponte Vecchio的1.373 GHz算是11.5 POPS,都比NV 8 GPU的HGX 10 POPS强但比20 POPS的16 GPU型号差。但是FP64的性能,首先不除非Ponte Vecchio运行FP64计算频率会有所下降,但如果频率相同的话,8×45=360 TFLOPS的FP64性能要比HGX 16GPU的312 TLOPS FP64性能要强。】
这个就是成品了,Xe HPC和SPR一样,都是Multi-Tile的,而且这个封装是我看到过的最复杂的封装了:一个Compute Tile有8个Core,台积电N5工艺。结合上面的介绍应该是两个Tile就是一个Slice,一个Stack就是8个Compute Tile,和Rambo Tile(不知道干嘛用的)一起通过Foveros技术堆叠在Base Tile上。
Base Tile用Intel自家的10nm(Intel 7)工艺生产,包括各种接口以及144 MiB二级缓存。
然后用EMIB技术,把Base Tile和HBM显存、Xe-Link封装在一起。
众所周知,Intel是软件厂家,以前的主要产品是x86指令集。面对今天的各种大数据、高性能计算挑战,x86实在是有点力不从心了。CPU有ARM,高性能计算有CUDA,都是难缠的对手。
而oneAPI就是Intel最新的产品,基于oneAPI开发你的软件,无需考虑是CPU还是GPU还是**PU的问题,oneAPI会自动让你的代码在最适合的设备上运行……
问题是问ADL,我把A-Day涉及到的几大块都讲了一遍,是因为从这次A-Day发布的产品来看,在工艺虽然越来越先进,但先进工艺带来的功耗降低远远不能抵消增加的晶体管要消耗的性能,半导体芯片性能严重受到功耗制约的今天,我们可以看到各种专用单元、专用芯片的出现:
这是因为同等功耗下,专用硬件单元/芯片的性能是远高于通用处理器的。代价则是晶体管利用率下降,整机价格的提高,以及应用生态的逐步割裂。
很可能将来我们无法再像今天这样,在自己的PC、笔记本上就开发出可以直接在服务器上运行的应用。因为缺失了专用的硬件,无法评估在服务器上的性能甚至无法运行调试。事实上AVX512就是这样,AVX512从在Xeon Phi上出现,到11代才算全面普及到桌面/移动端,八年多差不多9年了,要等到10代及之前不支持AVX512的产品退役得差不多,估计起码还要再有3~5年。而任何硬件生态的普及过程,目前我所看到的,都必然同时满足两个条件:杀手级的应用,用户愿意为之采购一套新的平台;平价的开发平台,只有这样才有众多程序员愿意在上面开发更多的应用。
那么x86,或者说PC,将何去何从?
大概扫了一眼PPT,信息太多,随便讲几点,等其他大佬的长文吧。
1. 十二代酷睿Alder Lake用了大小核心设计,虽说去年Lakefield已经用了这种异构设计,但只是在笔记本电脑上。ALK三种设计,算是全面铺开吧。不同平台配置也不一样,大核心Performance Core基于Golden Cove,能效核心Efficiency Core基于Gracemont:
低功耗2C8c/12T说是最低9W,6C8c/20T到35W,桌面端最高是125W,具体大小核心配置看不同产品了。
而且看图上画的,4个Gracemont的面积等于1个Golden Cove,粗略认为4个小核心等效1个大核心。这个多核刷分应该还可以,扭转之前被AMD碾压的局面。
2. 这个大小核的思路可能来自Arm的big.LITTLE,或者Apple A12X/M1的灵感。之前的单一核心继续做多不仅PPA不划算,而且核心设计上也有限制。现在小核心针对部分场景,能耗比有明显的优势,对于笔记本H35,H45场景利好。同时,解放大核心设计前段和后端设计明显变胖:
3. IPC提升19%。另外小核心1C1T和4C4T对比Skylake1C1T和2C4T都很漂亮,功耗下降很多,能耗比2C4T提高5倍。但是,这里单核心功耗比Skylake1C1T降低40%,峰值提升非常有限,估计小于10%。另外不知道频率如何,这要看现在的intel 7也就是10nm Enhanced SuperFin(10nm ESF)怎么样了。
4. intel的10nm工艺标准严格,恰好卡住DUV的极限,别人BEOL做SADP,他们要做SAQP,又有Co互联,良率不行高频也不行,直接废了。10nm出一堆各种问题的产品,高频问题迟迟不解决,桌面端就无限打磨14nm++++。
直到10nm SF的H45才算是有点样子。后来学聪明了,直接10nm ESF改intel 7,7改4。现在ALK大规模用10nm ESF年底上,就能看出来10nm问题应该不大了。当然具体表现还要看产品。
之前SAQP走过的这些弯路也不好说将来做EUV的Self Aligned Multiple Exposure是不是有优势,毕竟High NA EUV还要很久。如果intel 4顺利可能会翻身,不行就找TSMC代工吧,反正传闻拿下首批N3订单很久了。
,这个小核据说IPC都超过Skylake了?新一代Atom可以搞成EPYC那样的了么。。。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有