百科问答小站 logo
百科问答小站 font logo



如何看待第 12 代英特尔酷睿处理器的产品革新?会给行业带来什么影响? 第1页

  

user avatar   evenstar 网友的相关建议: 
      

i5更比i9强 英特尔12代处理器暨ROG Z690 HERO评测报告

注意,这是你能在知乎看到的最权威的第十二代酷睿处理器技术分析及详细评测,也可能是你在中文网络上阅读到的唯一一篇发布十二代酷睿Spec2017测试结果的深度文章。本文接近两万字。

本文主笔为Cloud和陈寅初,同时,从现在开始,我们会定期发布权威评测,关于CPU和GPU的g测,看我们的就足够了。(注:陈寅初为Gzeasy创办人,PCPOP创业期评测室主笔,超过20年的评测CPU与显卡经验)

众望所归的ADL和大家的疑惑

什么i5干i9 你不要骗我啊!这是以下犯上。

骗你做什么,现在intel是疯起来连自己都打,怕了没?

在12代Adler Lake-S可以说是最近10年变革最大的intel处理器,我在这里罗列最为核心的几点变化:

  • Golden Cove是多年来核心架构IPC效能最大的一次提升;
  • 第一次在桌面使用性能核心/效率核心的混合架构;
  • 第一个10nm (intel 7 Superfin增强)工艺的处理器;
  • 第一个支持DDR5的桌面处理器;
  • 第一个支持PCI-E 5.0的桌面处理器。

可以说intel对其抱有有极高的期待,可以说是intel最重要的一次产品发布。于此同时玩家和消费者也对其也有很大的兴趣,但也存在一些疑问:

  • 12代处理器的IPC效能如何,比Zen 3快多少?
  • 12代实际的生产力性能如何?
  • 12代实际游戏性能如何?
  • i5真的可以干i9么?
  • 大小核心是坑不?调度有没问题,会不会游戏跑到小核性能不升反降?
  • 12代超频性能怎么样?
  • intel 7工艺功耗和温度如何?积热不?
  • DDR5和DDR4有什么区别,延迟大不,怎么选择?
  • 12代处理器值得购买不?
  • 12代平台主板如何选择?

我们将在本文详细的分析并解答大家的这些问题,本文长度较长,完整阅读可能需要20分钟以上,数据量较大,建议使用电脑或者平板阅读。

现状

在12代Adler Lake-S处理器评测之前,我们先梳理一下目前桌面处理器产品竞争力情况和市场格局。

AMD的Zen 3是2020年11月发布,至今差不多已有一年,其完整的对抗了Comet Lake 10代和Rocket Lake 11代处理器,特别是对CML,基本是代差级别的降维打击,现在看来还要打Adler Lake 12代,其主要优势在于:

  • 相对Comet Lake和Rocket Lake更好的IPC;
  • 更大的L3 Cache可以带来更好的游戏性能;
  • Chiplet的多die方式,使得核心扩展很方便和相对低成本,这样就有更好的多核心性能;
  • 台积电7nm工艺带来更低的功耗,对于主板的要求也更低。

但Chiplet方式对于Zen 3来说是成也萧何,败也萧何,虽然这样可以已更为简单和低成本的方式扩大核心数量规模,但这种chiplet方式也有明显的缺点:

• 对于Ryzen 9这样2个Die的型号,跨die核心通讯延迟高;
• 外部独立的CIOD芯片,导致内存延迟偏高,同时FCLK上不去;
• 再就是单个Die 8个核心,最低屏蔽到6个,而没更低型号,这样型号覆盖不能下潜到主流及入门市场;
• 首发Zen 3并无集显,后续的APU 5600G/5700G无论是核心数量还是GPU规模也都过高,对于亮机办公而言过于奢侈,无法覆盖真正需要集显的目标用户。

这样使得比5600X/5600G更低规格还是依靠Zen 2苦苦支撑。AMD就是这样在市场占大头的中低端市场是吃闷亏的,但玩家群体只看见Zen3的光鲜,却很少注意得到中低端的尴尬,他们只知道喊AMD YES。

而对于Rocket Lake,虽然同频IPC要略差于Zen 3,但得益于14nm+++工艺更好的性能,可以实现更高的频率,在核心数量相同的情况,还是有稍好的性能。

当然这个仅仅是在相同核心的情况下,Rocket Lake在面对更多核心的5900X/5950X时候,相比多线程性能还是可怜无助的。

14nm+++工艺虽然频率上的去,但面对RKL的芯片规模还是太过于勉强,实现高频的代价则是高功耗,这样给主板供电和散热带来更高的要求,这样使得平台需要额外的投入。这样的高功耗在一定程度都有妖魔化的趋势,让普通玩家都不太乐见。

AMD优势在高端Zen 3,而Intel的优势在于更为下沿的产品线覆盖更低:在千元出头价位,在i5不带K实际性价比极高,实际是无竞争对手的,Zen 3在5600X以下就是空白。虽然i3 Pentium还是Skylake,但也还还是吊打Zen 2无悬念。

看Steam硬件调查数据,AMD在玩家群体里的占有率已经超过了30%,玩家群体很大程度认可了AMD。

但看整个桌面处理器的市场占有率,AMD反而从去年Q2的19.2%下降到今年Q2的17.1%。 下降的原因一方面是收到上游供应链供货不足的影响,另一方面重要原因就是AMD的市场布局是头重脚轻,虽然Zen 3无限风光,但中低端没有Zen 3这样有竞争力的新品,还是依靠Zen 2的遗产苦苦支撑。

在10月22日刚刚发布的intel财报,虽然CCG(客户计算部门)整体营收下降了2%,但主要还是被笔记本拖累,台式机增长了20%,并且平均售价上升了4%。很明显intel桌面市场基本盘还是稳定的,但相对于Zen 3发布到现在这段时间依然是intel最为痛苦的时期。

自打 AMD Zen 3 发布后,Intel 感受到的压力是与日俱增,桌面、服务器以及笔记本市场都受到来自 AMD 产品矩阵的冲击。不仅于此,相对于上市的产品而言,Intel 面临的另一个困境是制造工艺上已经不再占优,性能耗电比竞争力不再,这使得 Intel 或者说 x86 阵营得以在主流 PC 不败的地位遭受前所未有的冲击。例如 Apple 正逐渐切换到采用台积电生产的 Apple Silicon 处理器,这对 Intel 来说是一个非常危险的警号。

我们都知道,Intel 本质上是一家工厂,同时也是美国目前为数不多的垂直大型芯片制造业龙头,是高端制造业中的重中之重,当自己生产的产品也被本国长期合作的企业放弃时,那就是到了非改不行的地步了。

Intel 当前最大的问题是制程,由于制造工艺方面出现了落后于竞争对手代工厂的情况,因此摆在 Intel 面前的最大挑战首先是如何尽快采用更先进的制程,以及如何从架构着手让性能/耗电比指标实现逆转胜。

相比三年前的了无生趣,PC 正迎来一场史诗级的重新提速,这是一场旷世的防守与反击博弈,如今,这场史诗级的博弈正徐徐展开其第二篇揭幕战的序章。

Intel 历史上也出现过产品部分竞争力不敌对手,那是在 AMD K7/K8 vs Intel Pentium 4 的时代,距今差不多 20 年,幸运的是,Intel 赶上了笔记本崛起的浪潮,凭借 WiFi 和 Core 架构成功卡位并在随后的桌面大战中凭借 Conroe 收复失地。这说起来好像化解得挺轻松的,但是当年的动静可是非常大,以至于出现了 Intel CEO 当众下跪的局面。

来自 Intel 以色列海法团队的 Yonah 和 Conroe 是扮演救主的重要角色,前者让 Intel 把笔记本市场牢牢掌握在直接手里,后者则是一洗 Netburst 架构在桌面市场的性能/耗电颓势。

如今,这支 1974 年就成立的团队再次出击,它们这次祭出的是代号为 Alder Lake 的第十二代酷睿处理器。

Alder Lake 架构概况

对于研发阶段的产品或者技术冠以各种架构代号是司空见惯的,曾经在 Intel 任职 20 年的 Francois Piednoel 将将取架构代号的原因归结为两个:保密以及让媒体大惊小怪,当年 Intel 曾经于 IDF 密室内在媒体不知情的情况下演示过 Conroe,由于屏蔽了其中的运算单元,以至于媒体以为跑的是更好的 Yonah,后来 Intel 还把这个“更好的 Yonah”发给 OEM 和 ODM,大家浑然不知手头测试的是 Intel 全新的下一代处理器。

相对于多年前名称差别较大的代号名称,Intel 现在的架构代号大都以 Lake 或者 Cove 结尾,要区分这么多 cove 和 lake 对读者来说是相当困惑和考验记忆力的事情。

名字取自美国西部华盛顿州一处湖泊的 Alder Lake 满血版具备 8 + 8 = 16 个内核,其中 8 个高性能内核(P-core,内核编号 0-7)的代号是 Golden Cove,另外 8 个高效内核(E-core,内核编号 8-15)的代号是 Gracemont。

Intel 将这种大小核混编的技术命名为 Intel Hybrid(英特尔混合)或者 Hybrid Computing Architectures(HCA),以便和 ARM 的 big.LITTLE 区分。

在 Intel 提交的 perf(linux 下的性能特征分析工具)补丁里,P-Core 属于 Core 类型,E-Core 属于 Atom 类型,很多性能计数器事件是分立的。例如,想要采集 IPC 数据的话,采集的指令性能事件需要单独列明,例如 cpu_core/instructions 和 cpu_atom/instructions,当然如果是 LLC(第三级缓存)、能源这类事件则是统一的。

从处理器的整体架构来看,Alder Lake 相当于传统 Core 系列处理器加挂了两个四核 Atom 内核簇,每个 Atom 内核簇共享一块 L2 Cache,然后分别挂在 Ring bus 上,与 P-Core 一起共享 L3 Cache。

在内核拓扑关系工具 lstopo 中 Core i9 12900K 呈现的层次关系如下:

和扮演救火队员角色的 Rocket Lake 相比,除了 GPU 基本保持不变(都是 Xe-LP 架构,型号名称从 UHD750 变为 UHD 770,GPU 频率有大约 400MHz 提升)外,Alder Lake 在 CPU 内核微架构(P-core、E-core)、PCIE 总线、DMI 总线、内存子系统上都有很大的变化。

Golden Cove 和 Gracemont 虽然都是 x86 指令集处理器,但是在微架构层面上存在巨大差别,前者具有更深、更宽的流水线,频率设定较高,强调高性能;后者的角色按照设计理念是做一些轻体力活为主,强调低能耗,Intel 为此还专门加入了一个名为 Thread Director(线程导向器)的硬件线程导向器,这个导向器的目的就是把各种线程按照其负荷递交给不同类型的内核,具体的线程导向器策略我会在后面具体说到。

Golden Cove 虽然属于十一代笔记本酷睿(Tiger Lake)里 Willow Cove 的升级,但是它在某些方面都有巨大的变化,例如乱序指令窗口方面,ROB(重排序缓存)的大小可能是 x86 史上最大的增幅,充分利用了新制程晶体管密度提升带来的好处。按照 Intel 的说法,Golden Cove 的 IPC(每周期指令)性能相较上一代(Willow Cove)提升了 19%。

Gracemont 主打低能耗,但是本身的性能还是可以的,它属于 Atom 阵营里的第四代乱序执行架构,性能并不亚于三年前的主流桌面处理器。

更多的内核以及更宽的指令执行能力带来的问题是内存带宽需求增加,Intel 为 Alder Lake 配备了同时支持 DDR4 和 DDR5 的内存控制器,前者的价格相对较低,而后者具备更高的内存带宽。

由于集成了多达 16 个内核以及大量高带宽部件,Intel 为 Alder Lake 的内部互联提供了 Tiger Lake 同款的 1000GB/s 的双环路互连总线,理论上满载的时候每个内核可分配到的带宽是 62.5GB/s,当然这只是理论值,因为全核跑向量计算的时候内存带宽更容易成为瓶颈。

整体架构:大小核心是坑么?

11代的i7和i9都是8C16T,主要是体质和频率的差别,而十二代i9和i7都是8个P Core,但e Core分别为4个和8个,再加上频率和缓存容量的差距,这样的区隔空间刚刚好。

这是ADL的dieshot,中间8个蓝色的是Golden Cove核心,每个GDC核心对应1.5MB L2缓存和3MB L3缓存。右边青色的8个是4个一组的GMT核心,每组有2MB L2缓存和3MB L3缓存。这些核心由环形总线连接。最右是UHD核心显卡和解码引擎部分,依然是32个EU。左边是SA、内存控制器和接口(左下紫红),PCIE/DMI控制器(最左绿色)和显示输出部分,需要特别注意的是PCIE 5.0控制器部分占用了很大的核心面积。

Intel在ADL开始在桌面引入了P-Core性能核心和E-Core效率核心的概念,其实简单点说就是Big.Little大小核,这也不是什么新东西,在ARM平台12年的A15+A7就是这样的架构。但Android的核心调度算法做的并不算太好,经常会出现重载任务,小核累死,大核围观的情况。这样痛苦的经历让不少人有了大小核PTSD,并对ADL的混合架构充满怀疑。

Alder Lake 架构是 Intel 历史上第一个实际上市的混合核心架构,在这之前该公司曾经有一个代号 Lakefield 的 x86 混合内核项目。Lakefield 是一个移动 CPU,大小核分别是一个 Sunny Cove(在 Tiger Lake 或者说十一代移动酷睿处理器中采用)和四个 Tremont,包括微软的 Surface Go 和三星的 Galaxy Book S 都曾经被表示会采用该处理器。

Lakefield 采用堆叠芯片封装,其中的 Compute Die 或者说计算芯片采用 Intel P1274(10 纳米)制程,里面的大核 Sunny Cove 内核面积大约是 4.5 平方毫米,而小核 Tremont 只有 0.88 平方毫米,两者面积存在巨大差异,按照 Intel 的说法,每枚小核的性能相当于Sunny Cove 的七成。由于面向的是 Intel 一向竞争力最弱的移动设备,因此 Lakefield 在 Intel 的产品线中并不起眼,乃至它被取消了也没有引起什么波澜,存在感很低。

另外,现在Apple的当红榨汁机M1系列也是混合架构,但从Apple M1 Pro和MAX的8个P-core+2个E-core核心配置方式看,其设计的主要目的也应该是降低待机和轻载时候的功耗。

但ADL-S是作为桌面处理器,对于功耗其实并没那么敏感,其主要目的是两个:

  • 用E-core处理后台进程,解放P-core前端任务性能;
  • 用较低成本提升多线程性能。

在ARM平台,Big.Little已经差不多10年,但任务调度一直都是老大难问题,,至今依然没有太大改善。甚至不少人对Android的Big.Little产生了PTSD.而intel为了解决这个问题,在ADL上设计了intel线程调度器(intel Thead Director)的专用微处理器。这个部分是intel和微软共同研发,其主要有三大任务:

• 以纳秒级别的精度监控每个核心实时指令状态; • 并将工作负载实时反馈到操作系统,让系统可以优化安排任务决定; • 可以无需用户干预的情况,基于功耗温度和操作条件进行自适应调节。

一般任务分配原则是这样的: 优先任务会被安排在P-core,后台任务在E-core,如果高优先任务占满所有P-core,就会再分配到E-core,如果所有E-core也都被占满,就再会分配到P-Core的超线程上。

Android最主要问题问题是经常大核发呆,而用小核心跑前台重载任务。而ADL-S这样的桌面平台不太用像移动端考虑功耗,也就基本不存在这样的问题,直接简单暴力能大就大,不够再小。

在下面运行典型媒体/内容创建软件的演示中,深绿色框代表主要执行标量指令的线程,而深蓝色代表主要执行向量指令的线程。这两个线程都被优先考虑到P-core。浅蓝色框代表后台任务则是优先安排在E-core。

而全核心多线程任务,也和预期一样,先塞满P-core,其次E-core,再P-core超线程。并且在这样的情况整数比较倾向分配给E-core,而复杂度更高的浮点运算则交给P-core。当然,这个仅仅是策略,实际表现如何,我们稍后还是依靠具体测试来说明。

由于集成了多达 16 个内核以及大量高带宽部件,Intel 为 Alder Lake 的内部互联提供了 Tiger Lake 同款的 1000GB/s 的双环路互连总线,理论上满载的时候每个内核可分配到的带宽是 62.5GB/s,当然这只是理论值,因为全核跑向量计算的时候内存带宽更容易成为瓶颈。


我用 MicrobenchX 的 C2C 测试了内核时延:

从 C2C 时延测试来看,Alder Lake 的核心间时延要比 Zen3 高不少,其中 e-core 的 4 核簇内部之间似乎存在较高的时延,这有点出乎意料,要知道它们是有一个 L2 cache 共享数据。

接下来让我们看看 Alder Lake 混合架构里两种内核的细节。

微架构——Gracemont

如果不考虑 Larrabee 这个物种的话,Intel 的 x86 产品线可以分为两大品牌系列,也就是 Core 和 Atom,分别对应高性能和低耗电。第一个 Atom 诞生于 2008 年,比 Core 晚了两年。当时正值移动设备迅速崛起,Intel 全副身家都押宝 x86,Atom 则是其中被寄予厚望的品牌之一。

由于缺乏良好的生态以及配套服务,Atom 最终在手机市场败下阵来,不过这个品牌并未消亡,由于 x86 在工业领域具备非常好生态,因此 Atom 都被做成工控机、路由器、NAS 等不需要高性能内核的应用场合。

最初的 Atom 微架构代号是 Bonnell,之后有名为 Saltwell 的衍生微架构,这两代都是属于顺序执行流水线,虽然省电,当时性能真的一般。

第三代 Atom 微架构名为 Silvermont,引入了乱序执行,衍生微架构有为 Airmont。

自此开始,所有的新 Atom 微架构代号都带有 "-mont" 的后缀。

我们把 Sivermont 视作第一代乱序执行 Atom 微架构,之后分别有 Goldenmont(衍生微架构为 Goldenmont Plus)、Tremont 以及现在 Alder Lake 里的 Gracemont,因此 Gracemont 已经是第四代乱序执行 Atom 微架构。

Alder Lake 是第一个采用 Gracemont 内核的芯片架构,满血的 Core i9 12900K 包含有 8 个 Gracemont 内核,每 4 个 Gracemont 构成一个内核模块共享 2MB L2 Cache。

在 Alder Lake 中,每四个 Gracemont 组成一个 Atom 簇,共享一块 2048 KiB 大小的 L2 Cache,每个 Gracemont 拥有 64 KiB L1 指令高速缓存(两倍于 Tremont)和 32 KiB L1 数据高速缓存。

比较特别的是,Gracemont 引入了名为 OD-ILD 的按需“指令长度”预解码器设计。众所周知,x86 属于 CISC 或者说复杂指令集计算机,其指令长度可以是 1 个字节到 15 个字节,进入解码器之前需要确定指令的边界或者说长度。Gracemont 在L1 指令缓存里存放了指令长度数据,可以在指令第二次拾取时绕过预解码阶段,直达指令解码器前的指令队列上,这样的设计可以节省部分周期和耗电。

Gracemont 采用了双解码器簇的设计,每个解码器簇各有三个简单 x86 指令解码器。虽然看起来一共有六路解码,但是两个解码器簇合计只能向下游输出 5 个 RISC 风格的微操作。与之相比,Gracemont 的直系上代微架构 Tremont 也具备一样的双 3 路解码器,但是只能做到输出 4 个 RISC 风格微操作。

按照之前 Tremont 微架构发布时候的说法,这种双解码器簇对于 Atom 来说效果比 Core 里使用位操作高速缓存(micro-ops cache)的做法更好,既能做到 6 路指令解码又能降低芯片面积。

从较大的 L1 指令 Cache 到双解码器簇设计来看,Intel 是下了大功夫来改善 Gracemont 的前端瓶颈,原因是它的后端微架构实在有点炸裂。

在后端方面,Gracemont 的重排序缓存可以容纳 256 条目,可以向执行单元同时派发 5 个微操作,相比之下上一代的 Tremont 指令窗口是 208 条目,可以向执行单元同时派发 4 个微操作。在执行单元端口数方面,Gracemont 和 Tremont 分别是 17 个(12 个整数 + 5 个浮点)和 10 个(7 个整数 + 3 个浮点),指令并行能力有所提升,事实上如此众多的执行端口也是 Gracemont 微架构中最让人惊讶的地方。

e-core 和 p-core 同时开启的时候,指令集支持能力是完全一样的,可以支持 AVX2 或者说相当于 Haswell 的级别。

但是 p-core 或者说 Golden Cove 其实是内建了 AVX-512 指令支持,当我们把 E-core 关闭后,现在的 BIOS 能够让 P-core 那边的 AVX-512 开启。

关闭 E-core 后,uncore 时钟频率(原为 3.6GHz)也会得到提升,例如在 Windows 下会 uncore 提升到 4.7GHz,而在 Linux 下 uncore 提升幅度会低许多,只有 3.8GHz。

既然谈到了 P-core,那么我们直接转到 P-core 的架构讨论吧。

微架构——Golden Cove

正如我们前面所说的那样,Golden Cove 物理上具备 AVX-512 指令集的硬件支持,但是其启用条件是要在 BIOS(新版)里关闭所有 e-core,这意味着目前的 P-core + E-core 组合对于希望能实现 AVX512 的用户来说未必是最佳选择,英特尔倒是提供了 6P + 0E 的物理纯 P-core 版本,例如 Core i5 12400。

让我们从流水线的前端(取指和解码)说起。

Golder Cove 的 L1 指令高速缓存和上一代的 Willow Cove 相比未有变化,都是 32 KiB,但是与之关联的指令页表缓存(I-TLB)是做了升级的,其中 4K 页表的条目数从 128 增加到 256,2M/4M 页表的条目数从 16 提升到 32。

在分支预测器方面,Golden Cove 的目标分支缓存(BTB)条目数增加了一倍多,从 5K 增加至 12K,相比较之下,AMD 的 Zen 3 不过是 6.5K、Willow Cove 是 5K。

更大的 BTB 原因很简单,Golden Cove 的 x86 指令解码器达到了 x86 史上之最——多达 6 + 1 个,而它的主要对手 Zen 3 只有 4 个,更是两倍于 Willow Cove 的两倍。

为了降低更多指令解码器带来的耗电和时延问题,Intel 将微操作缓存(micro-ops cache)的大小从 Willow Cove 的 2.25K 条增加到 4K。按照 Intel 的说法,由于具备微操作缓存设计, Golden Cove 的解码器有 80% 的时间都是处于时钟门控(clock-gating,单元时钟被关闭,相当于熄火)状态,有效降低了这部分电路的动态功率。

为了喂饱 6 个解码器,Intel 把指令拾取带宽从每周期 16 字节提升了一倍达到 32 字节,与 Zen 3 持平。

在微操作高速缓存方面,现在可以每周期发送 8 个微操作,同样达到了对手 Zen 3 的水准,相比之下 Willow Cove 只做到了 6 个微操作。

位于解码器和微操作高速缓存下游的微操作队列(uop-DQ,或者说分配队列——Allocation Queue)如今也被加大了:

对于单线程应用,微操作队列可以存放 144 个(Willow Cove 是 70 个); 对于支持 SMT 的应用微操作队列则只是增加了多了两个(70->72)。

Golden Cove 的调度器具备 6 个分配端口以及 12 个执行端口,相比之下上一代的 Willow Cove 是 5 个分配端口和 10 个执行端口。AMD 的 Zen 的调度器采用了类似 Apple M1 那样的整数、浮点分离式设计,可同时调度 8 条整数指令和 6 条浮点指令。某种程度上,Zen 系列和 Apple M1 这方面长得有点很像,都采用了分离式调度器的设计。

在 ROB 重排序缓存方面,Golden Cove 达到了 512 条目,AMD Zen 3 是 256,Willow Cove(Tiger Lake,10nm)和 Cypress Cove(Rocket Lake,14nm+++)都是 352。

Apple M1 的 ROB 有媒体说高达 600 个,但是也有人(Dougall Johnson)认为其 ROB 采用的是一种合并式的新设计——大约有 330 条目,但是每个条目里可能有多达 7 个回退的微操作,这使得 Apple M1 在使用不同的测试条件下能达到的大小可以是 623、853 甚至 2295 个。

在后端执行单元方面 Golden Cove 的变化相对较少,主要是浮点单元方面,首次在 x86 处理器上实现了两个快速浮点加法单元,相比之下 AMD 的 Zen 3 和 Intel 的 Willow Cove 都缺少快速加法器。

此外,我们前面提到过 Alder Lake 是支持 AV512 指令集的,但是需要关闭了 e-core 后才能开启 AVX-512,我们有理由相信 Intel 是经过深思熟虑后才决定把这个耗费了大量晶体管的单元给屏蔽掉的。

在整数流水线方面,Golden Cove 引入了新的端口(Port 10),使得 Golden Cove 一共有 5 个算法逻辑单元(ALU),这五个 ALU 都可以实现单周期执行 LEA(返回有效地址)指令,这样的设计让 Golden Cove 和 Zen 3 在整数后端方面达到接近的水平。

在内存子系统方面,Golden Cove 增加了一个 Load(加载)端口,合计可以每个周期跑 3 个 256 位 Load 操作(或者两个 512-bit Load 操作),以及可以跑两个 Store 操作。和 AMD Zen 3 是每个周期三个 Load 操作或者两个 Store 操作相比,Golden Cove 要强上一些。

在 Load/Store 的乱序执行潜力方面,Golden Cove 的 Load/Store 队列分别是 128 和 72(AMD Zen 3 从测试结果来看是 112 和 64,但是 AMD 方面表示实际的大小是 44 和 64,也许和内部的一些优化有关)。

上面就是 Intel 方面提供的 Gracemont 和 Golden Cove 微架构的资料,接下来,我们会进行一些底层测试,更进一步了解微架构的一些细节。

底层测试——指令吞吐测试

我们在这里使用的都是网上现成的底层测试软件,它们都有源代码提供,如果没特别提及的,大家也都可以循名称在网上搜索到。

为了便于对比和观察,如果不加说明,底层测试的频率都是锁定在 4GHz,关闭超线程,彻底禁止 Windows Defender,Windows 电源管理设置为性能模式,Linux 电源管理设置为 performance 模式。

MicrobenchX.IPC

这是 MicrobenchX.IPC 1.03 版的测试结果,这里的 P-core 测试结果我加入了 AVX-512 的数据供大家参考。

测试结果扼要:

1、Golden Cove 的第五个加法器提供了 23% 的提升;

2、和 Zen3 相比,Golden Cove 的 128-bit 向量整数加法、64-bit 整数除法、256-bit 向量整数乘法、128-bit 向量整数乘法存在一定的差距;

3、虽然 Gracemont 具备超多的执行单元端口,但是和 p-core Golden Cove 实际的底层 IPC 差距还是相当明显的。

4、从微架构角度来看,Golden Cove 属于 Tiger Lake 中 Willow Cove 的升级,但是它在桌面领域对应的前代产品则是采用 Cyperss Cove 微架构的 Rocket Lake。和 Cypess Cove 相比,Golden Cove 的 AVX512 浮点加法和减法性能快了一倍,整数+浮点混合指令快了 32%,不少指令都有相对显著的提升。

底层测试——流水线深度探测

流水线深度和处理器频率延伸能力、分支预测失败惩罚有密切关系,不过目前的处理器厂商一般都不公布相关的信息,这是有原因的。

现在的内核流水线设计异常复杂,不同指令流向经过的流水线工位数可能是不一样的。

为了探测 Golden Cove 的流水线深度,我使用了多种代码来测试。

下表中的左侧是以伪代码方式提供分支程序测试片段,以第 7 个测试(Test 6)为例:

Test 6, N= 1, 8 br, MOVZX XOR ; if (c & mask) { REP-N(c^=v[c-256]) } REP-2(c^=v[c-260])

这段伪代码包含了一个 MOVZX 内存载入操作指令,根据处理器的不同,它可能需要额外的 5 到 6 个周期(可能更少)来执行,在支持乱序执行、乱序 L/S 的处理器中,这个动作占用的流水线工位通常会被掩盖掉。

关于一些表格中的指令时延,例如 MOVZX,我们做了另行的测试。

在 Golden Cove 上录得的数据为 0.8 个周期,Zen3/Zen2/Zen+ 都是 1 个周期,Cypess Cove 是 0.9 个周期。XOR r64, r64 指令方面,Zen 3 是 0.2 周期,Zen2/Zen+/Zen1 是 0.3 周期。Test 指令方面,除了当年 Pentium 4 时代涉及访存的时候会有两周期时延外,这里测试的处理器都是 1 个周期时延。

从测试结果来看,在分支预测失败的情况下,Golden Cove 的惩罚周期大约是 13 到 26 个周期,其中最普遍的是在 18 周期左右,Gracemont 惩罚周期大约是 15 到 23 个周期,其中最普遍的是在 16 周期左右。据此我们估计 Golden Cove 的等效流水线深度大约是 18 级工位,而 Gracemont 是 16 级工位,由于 Golden Cove 具备可节省取值、解码阶段的微操作缓存,实际的流水线深度可能要接近 22 级甚至更深,Gracemont 由于采用了可以绕过预解码阶段的按需指令长度解码器设计,因此其实际流水线可能是 17 级。

底层测试——取值、解码能力测试

取指、解码能力测试 处理器的流水线可以分为取指、解码、执行、写回四个工位,其中前端(front-end)是指取指和解码,执行和写回被称为后端(back-end)。

对于现在的超标量流水线处理器说,每个周期可以执行多条指令,前端需要为后端提供匹配的取指、解码能力,同时为了保证流水线闲置执行单元不浪费,人们还引入了分支预测单元,根据预测结果决定是否将下一条指令先派发给后端闲置的单元执行,待分支确定是否选中后再决定是否保留计算结果或者重置流水线。

op cache 也被称作 micro-op cache 或者 L0 I-Cache,它里面存放的是若干段处理器认为会被近期重复使用的微操作(micro-ops),所谓的微操作是 x86 处理器为了简化后端设计引入的处理器本机指令,是已经经过解码器解码的长度固定的本机指令。

在循环语句里的指令在很多情况下都是不断重复的,这些指令以微操作的方式放在 uop cache 后,后面重复执行这些操作的话,就无须经过解码器这个工位,直接发往后端的队列里等待发射执行。

uop cache 在 x86 上的原型是当年 Pentium 4 引入的 Trace Cache,Trache Cache 需要消耗大量的芯片面积,但是这是提高超长流水线架构处理器性能重要的一环。在 Pentium 4 终止后,Trace Cache 的瘦身版就以 uop cache 的形式引入。

要想了解处理器的能力,取指、解码是我们首先想要了解的,在这里我们使用 nop、sub、prefix cmp 8 等三种指令来做测试,其中 nop 指令是看空操作指令,x86 的 nop 长度是 1 个 字节,sub 是减法指令,和加法指令 add 一样在 x86 中指令长度都是两个字节,prefix cmp 是 8 字节或者说 64 位长的指令。

我们图表中给出的 prefix cmp 测试结果基于这样的指令:

[rep][addrovr]cmp eax, 0x7fffffff)

图表横坐标标注使用的是十进制数据格式,66KB 对应的是 64KiB,34 MB 对应的是 32 MiB,如此类推。大家要是有办法在 Excel 里实现二进制数据格式的话不妨告知一下。

Golden Cove 的测试结果实在有点让人感到惊艳。

首先,单字节的 NOP 指令看来是已经在很大程度上被 Intel “优化”了,解码带宽数据显示此时达到了每个周期 7 字节或者说 7 IPC,并且能一直维持到 L3 Cache 边界,我相信 Intel 对 NOP 这种什么都不干的指令做了一些特别的处理。

Gracemonmt 的 NOP 表现也是不错,其 6.x IPC 性能可以维持到 8KiB 的水平,并且在 128KiB 边界处也能维持到接近 6 IPC 的水平。

相较之下,去年曾经闪耀夺目的 Zen3 一下变得有点跟不上形势了。

我们使用的测试工具并非什么流行测试软件,Intel 应该不会投入资源特别优化,这个测试结果纯属因为微架构内部的一些新设计带来的。

Golden Cove 的 sub 或者说减法指令解码带宽能在 4KB 边界处维持每周期 15 字节,sub 指令是双字节的,这意味着此时的解码性能至少有 7.5 IPC,这应该归功于 4K 条目大小的微操作缓存。

在接下来的更大区块里,Golden Cove 依然能维持 6IPC 的解码性能,其范围达到了 16 MiB,从程序员的角度,对于双字节指令 Golden Cove 在取指工位上具备比较真实的每周期 16 字节能力,这个能力可以维持到从 L3 Cache 取指。

Gracemont 在这里垫底了,在 8KiB 范围内只有 3 IPC 的水平,相当于 Golden Cove 的 1/5。

从测试结果来看,Golden Cove 对于更复杂指令(prefixed CMP-8)的解码能力是有显著提升的,可以在 32KiB 的范围内维持每周期 50 字节的解码带宽结果,相当于每个周期 6.25 IPC。

Gracemont 在这个测试中表现不逊色于 Zen3,能在 12KiB 范围内维持 4 IPC 的水平。

底层测试——分支预测器

分支预测维持流水线充盈的重要性能手段,但是对于现在的长流水线处理器来说,分支预测失败的话对性能惩罚会非常高,因为这意味着运算结果要被抛弃并且流水线要被洗刷,即使是 1% 的命中缺失对性能来说也是非常致命的,当然这也意味着多增加 1% 的命中率收益会非常大。

现在的处理器在内部提供了性能计数器,可以让我们了解处理器运行某个程序消耗的周期数、指令数、分支指令数、分支命中失败指令数等数据,我这里在 Linux 下对 CPU2017 的 intrate 测试包进行了分支预测数据采集,结果如下。

需要注意的是,上表中的数据除了 Zen3 和 AlderLake 外,都是基于 GNU 10.2 测试的,GNU 11.2 和 GNU 10.2 的最大区别是 exchange2 在 GNU 11.2 上有较大的提升(Zen3 是 12.0 提升到 15.2)。

此外,我们对 Alder Lake 的 Golden Cove 和 Gracemont 编译时使用的架构代号都是 alderlake,目前没有专门的 Golden Cove 和 Gracemont 架构开关。

从整数测试来看,Golden Cove 的分支预测在大多数子项目中比 Cypress Cove 有提升,但是在数独游戏测试 exchange2 中有点偏高的的分支预测失误率(1.66%,Zen3 是 0.94%,Cypress Cove 是 0.91%)。

底层测试——乱序执行窗口特性探测

很多乱序执行处理器都采用了名为 Re-Order Buffer(重排序缓存)的技术,使指令在乱序执行后能够按照原来的顺序提交结果。指令在以乱序方式执行后,其结果会被存放在 ROB 中,然后会被写回到寄存器或者内存中,如果有其它指令马上需要该结果,ROB 可以直接向所需的数据。简而言之,ROB 的大小对于确保有足够的乱序驻留指令以及动态分支预测的恢复,对提升指令集并行度有不可忽视的作用,例如 Apple 的 M1 处理器在某些情况下可以做到等效 600 多个条目。

我这里使用 Travis Downs 的 rob size 工具来测试,测试的指令时单字节 NOP,单字节 NOP 的指令密度较高,可以减少微操作 cache 的影响。

测试结果如下:

正如大家所看到的,我们的测试结果和 Intel 官方提供的信息一致,Golden Cove 和 Gracemont 的 ROB 大小分别是 512 和 256,Gracemont 不仅数量相差一倍,而且它表现出来的 NOP 指令测试耗时也要高出大约 29%。Zen3 的 ROB 是 256,但是它执行 NOP 指令的耗时要比 Golden Cove 更低,甚至在 ROB 溢出后依然比 Golden Cove 低,这可能和 Zen3 的微操作缓存有特别的压固优化有关。

接下来,让我们再看看指令窗口的物理寄存器堆(register file)大小。

从 Cyrix 在 95 年发布的 Cyrix M1 处理器是史上第一款具备寄存器重命名和乱序执行能力的 x86 处理器算起,x86 处理器的乱序执行至今已经有 25 年了。

在绝大部分情况下,寄存器重命名不一定和乱序执行是挂钩,例如 Intel IA64 就有多达 128 个通用整数寄存器,虽然也涉及寄存器重命名的概念,但这是编译时的事情,在编译时做寄存器重命名也不见得都是好事(容易导致代码膨胀,降低指令高速缓存命中率)。

对于 x86-64 这种只有 16 个指令集架构寄存器的指令集架构而言,寄存器重命名是保障乱序执行必不可少的技术,要重命名,自然得需要有足够的物理寄存器才行,物理寄存器越多,可供重命名的资源也就越多,维持乱序执行的能力就越强。

我们使用 robsize 同样的测试程序进行了物理寄存器堆(PRF)大小的探测。这里说明一下,我们前面的 rob 大小探测使用的是 nop (空操作)指令,不占用任何寄存器,而接下来做的 PRF 大小推测测试,使用的是一连串的寄存器 add(加法)指令。

需要注意的是,物理寄存器堆里同时含有乱序执行中可用于推测执行的推测寄存器数量和已提交寄存器数量,因此这种测试方式不能把直观地把整个物理寄存器堆的大小给出来,它只能测量出可用于推测执行的寄存器数量。

从测试结果来看,Golden Cove 可用于推测执行的寄存器堆大小和 Rocket Lake/Cypress Cove 没有什么大的区别,都是 240 个。Gracemont 要小一些,也有 192 个,但是已经大于 Comlet Lake(第十代酷睿或者说 Skylake)的 144 个,Zen3 采用分离式整数/浮点调度器设计,它的推测可用寄存器堆大小大约是 128 个。

接下来我们看看 SIMD 向量物理寄存器堆的大小,这里使用的是 AVX 中的 XOR 指令,在 x86 指令集中 AVX 的寄存器名称一般都是使用 ymm 表示。

Gracemont 的 AVX ymm 寄存器队堆大小只有 96 个,Golden Cove 和 Zen3 都是 144 个,当寄存器堆大小溢出的时候,Golden Cove 的性能衰减程度较低,而 Gracemont 出现了非常显著的指令吞吐衰减,以 Gracemont 数量众多的执行端口,寄存器堆不够用时的压力相对明显些。

Load / Store Buffer 大小测试

现在的处理器不仅可以乱序执行指令,还能乱序加载(Load)、存储(Store)数据,这就涉及到 Load/Store Buffer。

x86 属于 CISC 指令集,它的指令里可以同时有访存、寄存器、立即数等操作,在 SPEC CPU 2017 中,SPEC CINT2017 和 SPEC CFP2017 的 LD/ST 指令占比就分别高达34% 和 39%,Load/Store Buffer 对 x86 的性能影响也是不容小觑的。

从测试结果来看,Gracemont 的 Load 缓存大小是 80 到 82 个条目,这点是非常清晰的。

Golden Cove 的大小应该是 192 条目左右,作为对比,Golden Cove 的台式酷睿上一代 Cypress Cove 是 128,Golden Cove 增加了 50%。

AMD 官方的说法里 Zen3 的 Load buffer 只有 44(外加 28 个地址生成器缓存,合计 72)个,但是根据软件的测试结果,我觉得从软件角度或者程序员角度,其大小更像是 114-118 条目之间(之前我说过是 116)。


从测试结果来看,Golen Cove 的 Store Buffer 大小大约是 112 个条目,Gracemont 是 48 个,Zen 3 是 64 个。

翻查之前的测试数据,Golden Cove 的上一代(Cypress Cove)是 72 个条目,这意味着 Golden Cove 在这方面的大小增加了 56%,实现乱序 Store 的概率会有一定的增强。

需说明的是,乱序 L/S 的效果与其他乱序执行指令一样取决于多方面的因素,缓存或者说队列大小只是其中一个较为重要的影响因素。

工艺:终于和祖传的14nm说掰掰

当然,变化如此之大的架构也需要工艺来支撑,要知道ice lake其实已经设计出来多年,只不过一直没有工艺开实现落地而已,后来的10nm也只能勉强上到笔记本,而桌面版就直接流产。从skylake 6700K一直到Rocket Lake 11900K,14nm已经6个年头。而现在Alder Lake 12代处理器终于可以跟祖传的14nm说拜拜了,全新的intel 7节点工艺来了。

ADL工艺为intel 7,这个7并不是值的是物理上的7nm,本质只是10nm superFin的增强版本,intel 7更多只是营销上的话术。intel 7相比之前的10nm SuperFin,主要是优化了FinFET晶体管,单瓦性能有10-15%的提高。Intel 7 性能是通过更高应变的晶体管、更好的能量控制以及改进的功率传输和金属堆栈来实现的。

台积电和三星的号称nm数实际上早和栅格宽度脱节,完全是不讲武德,因此intel再老老实实的依据Gate宽度标注就是老实人吃闷亏。实际上intel 10nm的晶体管密度是每mm2 106万,比台积电7nm的97万还要高,再加上15%的性能提升幅度,因此现在把10nm superFin增强叫intel 7也并不为过。

Intel的14nm从2015年5代一直用到2021年的11代,可以说是祖传手艺也不为过。我在之前就说过,虽然现在intel 10nm工艺产能已经过半,但intel迟迟不愿升级桌面处理器的工艺主要有两方面的原因。

第一个原因就是成本,处理器切换新工艺,虽然新工艺有更高的晶体管密度,单个晶圆可以切割出来更多的芯片,这样可以降低成本,但新工艺需要数以十亿甚至百亿美元级别的投资,所以在工艺升级的节点,处理器的成本是大幅上升的,远远大于架构变化而工艺不变的情况成本。所以intel在竞争压力不大的情况下,将14nm+skylake从6代一直用到10代,这样延长工艺的生产周期的后期,设备投入摊薄基本就可以忽略不计。但在真正威胁Zen 3出现的时候,RKL硬上14nm就有些过于勉强了。 第二个原因就是晶体管性能,工艺升级,一般都可以大幅提升晶体管密度,再就是降低功耗,但晶体管性能却不一定是提升的,特别是在工艺线宽的初期更是经常如此。以台积电的7nm工艺为例,首批主要是针对功耗优化的LP工艺,LP用在手机SoC上问题不大,但用在Zen 2和RX5000系列显卡上频率就上不去,台积电的7nm要等到老黄为做A100带着台积电重新走了一次HP才基本堪用,后来的Zen 3和RX 6000的频率就高很多,特别是显卡,甚至可以跑到2.7GHz以上。

Intel 10nm也是类似情况,第一代ice Lake虽然密度功耗不错,但频率上不去,第二代的Tiger Lake 10nm superFin虽然有所提升,但性能还是赶不上14++,直到ADL的10nm SuperFin增强,就是现在的intel 7,绝对晶体管性能才彻底抛离14++。桌面处理器需要高频来达成更高的性能,只有在intel 7之后才能达成高频,这就是为什么直到ADL才上新工艺的第二个原因。

youtube大佬DERBAUER对12900K开盖,核心面积仅为208mm2,十分接近10900K 206mm2的水平。

之前RKL的核心规模过大,使用14nm面积高达281mm2,其实这样的规模对于普通桌面处理器都过于勉强,而现在ADL的208mm2又再次回到正轨。之前经典的tick-tock策略是架构工艺交替更新,但之前的14nm修修补补挨过了6年7代,而这次ADL不仅是工艺大升级到intel 7,架构方面也发生了天翻地覆的变化,可以说是tick+tock同时兑现,这样大的变革是前所未有的。

平台:5+5的次世代

全新的Z690相比Z590扩展性也大幅提升,主要变化再以下方面:

显卡从PCIe 4.0升级到5.0,带宽再次翻翻到128GB/s,不过在消费级短期内很难见到5.0的设备,对于现在的旗舰级别GPU而言,现在4.0都绰绰有余,即使性能再翻翻4.0也应该是可以满足需求的,现在这个规格有点超前了:

  • CPU直连的M.2依然还是4X 4.0;
  • CPU到PCH的DMI从8X 3.0升级到了8x 4.0,这样就比X570的4.0 4x和Z590的3.0 8x带宽翻翻,PCH下面的PCIE也是4.0了;
  • 当然还有原生的雷电4,和20G的USB 3.2 Gen2 2×2,当然这也要上面的8X 4.0 DMI才有这个冗余。

测试平台

本次AMD测试平台使用的是ROG STRIX X570-E GAMING主板。 DDR4平台内存使用的是芝奇幻光戟16GB 3600X4。 Z590平台使用的是STRIX Z590-A GAMING,默认TVB设置,没有开启ABT,但功耗无限制。

Z690 DDR4平台使用的是华硕TUF Z690-PLUS WIFI D4,0703 BIOS。

虽然我手头还有全新的龙神II 360水冷,但我不舍得拆了用,本次测试使用的散热器是Thermaltake 钢影 TOUGHLIQUID Ultra 360,高性能水泵+高密度水路冷排,再配合使用为风压优化的ToughFAN 12,相对一般水冷有更佳的散热效能。

冷头搭载的智能屏幕可以显示处理器温度等自定义信息或者动画,兼顾美观和实用性。

测试使用的SSD是浦科特M10P Plus 2TB,其采用IG5236主控+铠侠BICS4颗粒,后续我们将对比不同平台的磁盘性能。

测试显卡使用的是华硕TUF RTX 3090 GAMMING O24G,使用的是472.12驱动,开启Resize BAR。

本次ADL我们采用最新的Windows 11测试系统,因为P-core和E-core的调度需要使用Win 11的调度器优化。而AMD平台依然使用Win 10 21H1,因为目前版本Win 11在L3性能和CPPC2首选内核上存在问题。RKL平台也依然使用Win 10,我测试发现还是Win 10性能稍好。

12代处理器和ROG Z690 HERO主板解析

再来看看实物:ADL接口更换为LGA1700,相比之前1200引脚更多,面积更大。封装尺寸从之前的37.5×37.5拉长到37.5x45mm,防呆缺口的位置也有变化。

LGA1700背后有更多更密的针脚。

ADL的PCB厚度和RKL基本一样,但顶盖稍高。

这次ADL相比ADL降低了钎焊部分的厚度,加厚了顶部顶盖的厚度,这样就能够提高导热效能。

散热器的孔距也从75×75变成了78x78mm,这就是说原有LGA1200不再兼容,用户想要继续使用原有散热器,原则上就需要向原供应商索取或者购买LGA 1700的扣具。

本次测试的主板主要有两块,分别是华硕 TUF Z690 PLUS WIFI和ROG MAXIMUS Z690 HERO。

ROG提供的媒体评测套装,包括ROG MAXIMUS Z690 HERO主板和龙神360 II水冷散热器。

ROG MAXIMUS Z690 HERO给人感觉最大的改变是什么? 当然是名字,之前HERO系列的名称都是 Maximus XIII HERO这样,Maximus的拼写很难记得,中间的代数还是罗马数字,即使直接说M12H、M13H,我这样的老DIYer也不能在第一时间确定那个是Z490还是Z590,可以说,对于用户而言记忆和传播比较麻烦。而现在的Z690 HERO无疑就直白的多。

背面本来以为没什么好说的,但我发现了一个巨大变化,Z690 HERO的内存和PCI-E 5.0插槽背后没有以往的穿板插针(最下的PCI-E 4.0 8X还是传统工艺),而是采用的SMT表面贴装技术工艺,这样才能更好的满足DDR5和PCI-E 5.0的巨大数据流传输的需求。

看上面这张对比图就更为明显,不过SMT原件的结合强度会下降,虽然华硕RD在两端做了额外的穿板加固铆接结构,但大家在插拔内存和显卡的时候,还是需要更为温柔一点。

手头另外一张的华硕TUF Z690 PLUS-WIFI D4的DDR4内存插槽还是采用传统工艺,但PCI-E 5.0也是SMT。

LGA1700上盖打开方向和之前1200是相反的,比较类似2066,这样结构强度更好。前面提及LGA1700的扣具螺丝孔距有了变化,和之前LGA1200不再兼容,不过华硕在其Z690上做了1700和1200的两种散热器孔距,这2个孔距离仅为1.5mm,就串到一起成为一个葫芦形状,用户就可以直接继续使用之前的1200扣具,目前我手头的其他品牌的Z690并没有采用类似设计。

虽然12代处理器更厚,但LGA1700的处理器+插槽要比LGA1200要低0.7mm,尽管但散热器螺丝固定都是有一定余量的压力设计,但最好还是更换LGA 1700原配扣具,特别是底部螺柱要短点,这样处理器和散热器底面接触还是会更为贴合。

LGA 1700接口和旁边厚实的供电散热。IOCOVER也重新设计,这部分晚些再说。

面板Type-C接口旁边有个额外的6pin供电,插上就可以支持高通的Quick Charge 4+快充,支持最高60W的输出功耗。至于Type-C接口旁边的怪东西,我就埋个关子,稍后装机环节再说。

内存旁边有Q-Code侦错灯和开机/重启和快速重试按钮,这是HERO系列和STRIX系列功能上的重要区隔,此外还有一组AURA 5V接口。上面4个风扇口,让不接HUB或者分接也绰绰有余。

DDR5的卡口位置相比DDR4有一点变化,但很难识别。DDR5的内存供电部分应该大幅简化,但华硕做了特别的设计,这也后面说。

LGA插槽下方是CPU直连的PCIE 4.0的M.2,上面的散热片比M13H小,其实之前M13H的散热片太大,让按下第一个槽PCIE卡口都必须借助工具,之前我就吐槽过。另外Z690 HERO提供了3个全长的PCIE,第一个是16X 5.0,第二个是从第一个分拆出来的8X,也是5.0,第三个是PCH下的4.0,居然也是8X,这样的规格在以前基本要X299这样HEDT才能享用。

现在高端显卡越来越大,背板也成标配,特别是使用双塔风冷散热器的用户更是如此,PCIE卡扣用手都比较难得操作,之前评测M13H的时候我就吐槽过,而Z690 HERO就增加了一个解除锁定的按钮,轻轻按下,就可以顺势拔出显卡。

当然,这样类似思路的设计并不是华硕首创,之前Apple Mac Pro上就有PCIE解锁按钮,两者虽然实现方式不同,但可以说是异曲同工。另外这个功能诞生可能也跟我有点关系,在19年疫情前华硕PM拜访我司,我就给他们提出了这样的问题和需求。

线缆较大的SATA和USB 3.0接口都是横置,这样走线更为美观。在PCH散热片上有巨大的点阵组成了败家之眼LOGO,这次这个位置就没了RGB,其实在安装上现在普遍2.5槽甚至三槽的显卡情况下,LOGO就会被挡住一大半,加RGB并没多大意义。

这次的 RGB焦点就被移动到IO Cover上,一块巨大的屏幕可以显示动画,功能名为Polymo lighting display,预设的动画是是点阵风格,但这个屏幕分辨率应该不低,并且是多层层叠结构,有一定的纵深感,其显示的具体内容可以在Armoury Crate里下载数百种预设或者自定义,不过截至解禁时间,公开版本的Armoury Crate并不支持HERO,因此也没办法体验。我希望这个屏幕不仅可以显示动画,也可以像之前LiveDash那样显示频率,电压和自检步骤这样的实用信息。

底部有水流和水温传感器,还有2组5V和一组12V的AURA接口,2组USB 2.0接口针,风扇接口更是有一排,加上上部的4个风扇水泵接口,我感觉不用风扇集线器都够用了。

后部接口有6个红色Type-A 10Gbps,一个Type-C 10Gbps USB,还有2个雷电4接口。不过这次只有单网卡2.5G接口。视频输出方面仅有一组HDMI用于亮机。最左是无U刷BIOS和BIOS复位按钮,这对我这样经常玩熄火的“高端”玩家还是很有用的。

WiFi天线部分也重新设计,终于不是之前别扭的三角组合支架,而且稳定性好了很多。

Z690 HERO CPU供电接口为8+8Pin,外侧有额外的Procool金属片提升散热能力,这样可以进一步提升供电的稳定性,降低线材端子发热。

拆下散热片,我们可以看见夸张的供电部分,是20+1的供电设置。

核心供电部分采用的是Intersil ISL99390,单个能够支持最大90A的连续电流,这个原件在阿里巴巴上单个要8美元,虽然批量采购价格更低,但这20多个下来也应该不便宜。要知道当年X299超频旗舰R6A CPU供电也就8相60A的IR3555,现在的供电真的很夸张。

Z690的PCH芯片,DMI升级为8X 4.0,现在PCH下的PCIE通道也是4.0了,并且比X570通道数更多。

你可能会奇怪为什么HERO级别才3个M.2,因为Z690 HERO采用了和之前STRIX B550XE类似的设计,使用额外的ROG HYPER M.2扩展卡来扩展2个M.2。

这样一共就可以扩展5个M.2,M.2卡和第一个PCIE 5.0有足够的间距,也不用担心和显卡干涉。

如果插第二个PCIE,那就是从第一个拆分8+8而来,但不支持8+4+4拆分,就只有1个PCIe 5.0 M.2,并且显卡会从16X降速到8X,不过4.0的8X也相当于3.0的16X,即使对于RTX 3090而言性能几乎也是没有什么影响的。如果插在最下面的PCIe 4.0 8X就可以从PCH下拆分出2个4.0的4X。另外这次扩展卡没风扇,但散热片足够厚实,相比一般M.2上的小马甲要扎实的多。

频率/超频和BIOS

这次12900K P-Core单核心最高5.2GHz,两核心5.1GHz,全核心4.9GHz。而E-Core 1-4核心负载在3.9GHz,5-8核心则是3.7GHz。 12700K比12900K大概要低1-2个倍频,12600K则更低。12代和11代相比,全核心稳定频率更高。

再来说说超频,先说AIOC识别的。

识别的我的12900K SP是92,其中P-core是103,E-core比较差,只有72。系统给的建议设置P-core是1.375V 5.2GHz,轻载5.5GHz,E-core轻载重载是4.1/3.9GHz,uncore轻载重载是4.7/4.3GHz。 我自己实际经过比较长时间测试出来的稳定超频设置大概是这样的情况:12900K 在1.37V P-core全核心可以5.1GHz,而E-core可以4-4.1GHz,甚至跑AVX也可以稳定这个频率。

当然在这样的设定下,功耗也是很恐怖的,全核心运行X265编码功耗可以摸到400W,我也真的很佩服Thermaltake 钢影 TOUGHLIQUID Ultra 360可以将400W的12900K压住到90度出头,如果是其他360水冷早就触发降频保护了。(环境温度25度)

在400W的情况下,使用热成像看处理器插槽旁最高70度,供电散热片大概55度,有些溢出的供电和散热还是起了很大的作用。

当然,这个400W是超频跑AVX满负载,我不希望有人断章取义看了我这说12900K 400W,后面我会有对应的功耗和温度测试部分。

其实我们还是可以设置1-2的AVX Offset,在运行AVX应用的时候降低倍频,这样应该还可以适当降低核心电压。(里面似乎有点奇怪的东西)

之前RKL的uncore频率很低,11900K默认4GHz,超频大概也只有4.4GHz的水平,在很大程度影响了性能,特别是游戏性能。而这次ADL uncore默认在3.6-4.7GHz范围,实际负载基本都在3.6GHz,相比RKL的uncore更低。在全核心的情况下12900K uncore可以超频到4.4GHz,i5和i7 K更低。但其实uncore的频率是被E-core拖累的,完全屏蔽E-core的话,uncore默认是稳定最高4.7GHz,超频可以轻松上到5GHz以上,甚至可以稳定到5.2GHz。

具体操作我们可以在CPU设置里面选择开启P-core和E-core核心数,E-core是可以完全屏蔽的,P-core至少要留一个,另外悄悄的告诉你,完全屏蔽E-core,就可以用AVX-512了。但即使是跑支持AVX-512的程序,8个P-core跑AVX-512性能还是比不过8+8跑AVX,这样做意义并不大。

之前RKL 11700K和11900K规格都是8C16T,这两者完全依靠频率进行区隔,或者用更直白的话说,就是靠体质进行区分,11700K就是11900K中的大雷,虽然11700K支持超频,但实际并没有太多可玩性。而在ADL 12700K和12900K主要区隔在E-core的4个对8个。而12700K和12900K在超频的差距也进一步缩小,12700K一般可以稳定在5GHz频率,12600K情况下也差不多。

当然上面说的是全核心的情况,实际可以按照核心不同使用数量,设定不同的频率,在低线程任务有更好的性能。我12900K设置的6-8核心51,5核心52,4核心53,3核心54,1-2核心55,这样日常就是5.5GHz的无敌响应速度,芜湖起飞。

5.5GHz的单线程CPU-Z甚至可以到873分,如果关闭E-core,提升uncore,再关闭SMT还可以更高。

除了设置频率和电压,还需要修改数字供电管理方面的设置,一般超频防掉压设置4级就差不多可以。此外还可以对电流保护上限,供电策略进行调整,甚至还可以单独设置启动电压。

CPU内部供电管理,华硕我看过的几片Z690都没有PL限制,因此也没什么好说的。

电压偏移曲线调整,我觉得这要等人研究再抄作业,我自己是没这个耐心和水平去折腾的。

当然,如果你觉得麻烦懒得研究,也可以用AI自动超频功能,BIOS会依据你的CPU体质和散热器评分自动进行超频,就有可能比较保守,特别是E-core。

目前ROG Z690 HERO没有ABT,但还是可以设置TVB,BIOS可以依据温度适当提高处理器频率,当然,这需要你有足够好的散热。

另外提及一下,目前公开版本的XTU对于12代支持十分的好,可以十分方便的调整P-core E-core Uncore的频率,电压,内存参数等,而且无需重启,实时生效,在尝试阶段十分好用。当然在摸索到合适的参数后,在BIOS固定还是更为省心,并且功能上还是没有华硕的BIOS那样全面强大。

XTU下载地址:

从DDR4到DDR5

DDR4最早是X99平台引入,但进入主流平台则是 Skylake+Z170平台,至今已经超过6个年头。之前每次内存换代,都伴随着性能的巨大飞跃,那这次DDR5是否也会带来久违的变革呢?

从DDR2到DDR3,再到DDR4,每次内存换代的频率基本都是翻翻。

• DDR2时代400、533起步,主流是667,80,高端可以到1066到1200; • DDR3时代800、1066起步,主流是1333,1600,高端可以到2133到2400; • DDR4时代2133起步,主流是2666.3200,高端可以4266到4800,甚至5000以上 • 而DDR5现在则是4800起步,6400主流,后期高频预计可以到8000甚至10000以上。

DDR5的效能提升并不是当初依靠暴力来提升频率和带宽,反而是采用了诸多灵活而巧妙的设计。

DDR4每个颗粒可以有4个Bank组,每个Bank组有4个Bank,而DDR5虽然每个Bank组还是4个Bank,但Bank组的数量翻翻,这样Bank的数量也从16个增加到了32个。

并且DDR4在刷新的时候Bank组所以的Bank都是锁定的,而DDR5在刷新的时候,Bank组的其他3个还是可以进行访问。

在DDR4时代,单通道64bit,单个通道爆发字长是8字节,每个通道每次操作可以传输64/8*8=64字节。 而在DDR5,则是单根被分成2个32bit(如果算ECC的则是40bit)的通道,并且每个通道的爆发字长8字节提升到了16,32Bit/8*16,就说每个通道每次操作可以传输64字节的数据, DDR5单个32bit通道和DDR4 单个64bit通道一样,但DDR5两个通道就是128字节,就翻翻了。 并且DDR5单条2个32位通道比单条64通道更为灵活,日常更多是64字节的数据,这个时候单根双通道就可以同时处理两个不同的数据,如果是单条64位128字节处理,就会有一半的浪费。这个就好比一辆6吨的卡车和两辆3吨的卡车,后者做起日常更多的零活更为方便高效。

被误解的DDR5延迟

当然,高频也是需要付出代价的,更高的频率也往往伴随着更高的延迟,在DDR4时代,极限玩家往往追求CL14带来的更低内存延迟,而在DDR5时代就不复存在。

在DDR3时代CL就10左右,DDR4就基本到了16-20,而DDR5基本是36起步,高频甚至会到46-60。DDR3到DDR4 CL就翻倍了,DDR5再翻翻其实也很正常的。 但很多人也存在一个巨大误解,认为DDR5 CL翻翻,等于DDR5的内存延迟翻翻,甚至以此认为DDR5是垃圾,还不如DDR4。这其实是个巨大的误解,将CL同内存延迟划等号,其实这样理解是错误的。CL的全称是CAS Latency,指读取内存数据前需要等待的周期。和内存延迟并不是一个等同的概念。


内存延迟有一个计算公式,就是单个时钟周期耗时乘以CL时钟周期数。这部分大概需要用到小学高年级的数学知识。除开CL,单个时钟周期耗时也有很大影响。

公式来源:

我稍微做了点拆解和验证,结果和英睿达官方数据一致。

单个时钟周期耗时是怎么来的呢? 1秒是有10的9次方ns,用这个数字除以内存频率的赫兹数,就可以计算出单个周期的耗时。需要注意的是DDR内存实际运行频率是标称频率的一半,公式简化后,单个时钟周期耗时就等于2000除以内存频率。就是说内存频率越高,单个时钟周期耗时就越低。

再将单个周期耗时带入公式得到简化公式 延迟=2000/内存频率*CL,以3600C18为例,单个周期耗时是2000除以3600=0.5555,再乘以18个CL周期,内存延迟为10纳秒。

我们再用这方法计算主要内存规格延时,我们会发现,虽然DDR5频率的提升并不能完全弥补CL的扩大,但实际内存延迟也仅仅是稍高,甚至高频低CL的 DDR5 6400C36延迟也都十分接近DDR4的水平。而并不像大多数人理解的CL翻翻延迟也就翻翻。这样延迟的少许增加相对带宽的提升,双32bit通道灵活性的提升,高CL影响是基本可以被覆盖的。

DDR5的电压和超频

我们本次测试内存是英睿达DDR5 4800 16GBx2,和前面说的一样,DDR 5 4800就相当于DDR4 2133或者2400,就是一个入门规格而已。

外观上DDR5长度和DDR4一样,同为288Pin,但缺口的位置更靠近中间,在插的时候更难快速的判断正反方向,有马甲的内存更是如此。

由于工艺的改进,DDR5的电压继续下降,JEDEC起步的4800 从DDR4的1.25V下降到1.1V。 因为DDR5对于电压的稳定性要求更高,需要电压波动在3%之类,传统的主板内存供电已经不能满足需求,因此DDR5在内存颗粒中间增加了个额外的PMIC电源管理芯片,这样就可以提供更为稳定的内存电压,除此之外,PMIC也可以跟主板回报温度电压等数据。

这等于将主板的内存VRM部分搬到了内存上,主板的设计可以得到简化,但内存需要增加额外的PMIC和VR,因此DDR5在这方面的成本会更高。

并且PMIC也被分成2个类别,一个是普通JEDEC不支持超频的,被锁死1.1V。

而超频内存则搭载支持超频的PMIC,可以修改电压,同时也有了XMP 3.0的新规范,内存起步1.25V,当然超高频也会有1.3V甚至更高,基本还是比DDR4低了0.1V,因此DDR5的功耗要比DDR4更低。

XMP 3.0扩展到6个区域,每个区域有64个CRC校验的区域,第一个区域用于储存默认的EDEC设置,而设置2和3可以用于厂商针对玩家/发烧友等不同群体设定2个Profile,此外的4和5可以保存用户的自定义设置,这样的设计使得DDR5针对一般用户更为友好方便受用,对于玩家/发烧友来说也更有可玩性。

不过这样的特性还没被充分应用,我手上的美商海盗船统治者仅有一组XMP Profile,JEDEC 1.1V 4800 38-38-38-84,XMP 1.25V 5200。

我们本次主要测试的英睿达DDR5 4800 16GB仅仅是不支持XMP的普条,电压固定1.1V,参数为42-39-39-77。

那乞丐版的DDR5就没救了么?不,还是可以折腾一下。

华硕开发了一套名为ASUS Enhanced Memory Profile(华硕增强型内存配置)的功能,主板可以提供JEDEC SPD和 XMP之外的内存设置(包括频率、小参、各种电压设置),并且可以提高锁定1.1V的电压。

海力士和三星的可以通过AEMP上到6400,而美光颗粒的只能上到5200,就如我这对,只能DDR5 5200 38-40-40-77,电压也通过AEMP解锁上到了1.25V。因此DDR5虽然理论可以简化主板内存供电设计,但实际做起来却一点也不简单。

我们运行memtest 10分钟时候使用热成像看英睿达DDR5 4800 16GB OC 5200MHz 1.25V的温度,颗粒最高大概75度,PMIC要稍微再低一点,DDR5加散热片看来还是很必要的,裸条虽然不至于有问题,但也不怎么舒服。

另外12代系统是可以依据负载进行动态频率调整,但华硕考虑超频和稳定性,这个特性都是默认关闭的。

内存频率和内存控制器效能

ADL和RKL/Zen 3类似,也存在内存控制器异步的设定,在默认设置下,DDR4 3600和以下为GEAR1,内存控制器频率和内存Double翻倍之前的原始频率同步,默认在超过3600以后,就变成GEAR2模式,内存控制器频率是内存的一半。比如内存运行在4266,那内存控制器速度就是1033MHz,性能是不升反降的。

不过可以在BIOS强制设置同步,我手头的12900K DDR4内存控制器可以同步到2000MHz.就说内存可以到4000MHz。就说DDR4内存对于ADL来说4000就毕业了。和Zen 3的水平差不多,比RKL稍微高一点,RKL一般是3733水平。

  • DDR4小参为19-19-19-38
  • DDR5 4800/5200小参为38-38-38-84
  • DDR5 6400小参为44-44-44-82

内存带宽测试在相同的内存频率,ADL相比RKL和Zen 3都稍高,同步和异步模式相差也不大。

我们比较晚拿到可以上到6400 44-44-44-82的海力士颗粒内存,其读带宽接近10万,这基本是之前X299 4通道4000的水平。不过由于我们拿到比较晚,其他测试没时间全部复测了,D5仅测试的5200MHz频率。

在ADL同步时候DDR4内存延迟基本是比Zen 3或者 RKL异步稍高水平,如果异步的话延迟比Zen 3异步还略高。

DDR5 4800/5200内存延迟70+水平明显比DDR4 3600/4000同步50+高,有20ns的差距,但这个高的原因并不是因为高CL,而是IMC内存控制器频率。DDR5 4800起步,就肯定是GEAR2异步,IMC是1200,本次测试的5200频率,IMC是1300,即使是6400,IMC也才1600。

我们将IMC都为1600的3200和6400比较,63.2 VS 67.8,其实大概也就4ns的差距。而且这个还是DDR4 4800/5200跑的38-38-38-84,为了上6400,降低小参到44-44-44-82的对比 结果。因此DDR5内存延迟产生的原因是由于分频导致的过低内存控制器频率,而不是高CL,解决这个问题的办法就是继续提升频率,这样就可以提升内存控制器频率。

目前通过intel XMP认证的最高也就6600,现在跑8000出来的都是液氮。其实现在DDR5的情况比较像2014-2015年的DDR5,技术还不成熟,6400对应D4 3200就是发烧,而且还有诸如5200 5600(对应2600,2800)这样的中间过渡频率,现在上DDR5 8000就还需要液氮,就和当年6700K上4266一样。DDR5现在还没三星Bdie这样的极品颗粒,更不用说后期DJR这种可以上4000的平民神器了。

BIOS的其他变化

再说说BIOS除了超频以外需要注意的变化。

intel从Tiger Lake开始就引入了VMD,Volume Management Device,卷管理设备功能,主要是通过VMD对处理器直连和PCH下磁盘进行管理,主要收益是NVME设备热插拔。

但这样的功能对于消费级并没什么用(我相信谁也不会热插拔M.2硬盘),并且和之前的AHCI系统不兼容,Microsoft和intel “建议”下游厂商开启。而华硕也“听话”的开启了这个功能,然后把下面的PCIE和SATA设备映射给关了,简直是太机智了……

PCI-E速度选择,我差点忘记Z690是支持Gen 5的。

性能测试

需要注意的是,本次测试对于的AMD处理器都是开启PBO,并且是调整电压,全核心频率比默认大概要高0.3-0.4GHz,直接和intel默认比较并不太公平,但这样更为接近大多用户的实际使用情况。12代处理器我提供了默认和超频的测试数据,11代处于数据可读性方面的考虑,仅列出默认数据。

R20渲染性能测试

R20是一个基于真实渲染软件的测试程序,主要是测试SSE性能,并有极少量AVX运算。Cinebench虽然有更新的R23版本,但R23测试时间过长,还是 R20认知程度更高。

12900K R20多线程性能默认10500,5.1GHz大概11000,相比11900K提升了77%,超过了5900X,也十分接近16个大核心的5950X,其实用i9比i9有点欺负人。12600K 差不多6400分都可以干掉11900K,i5干i9这样越级以下克上之前是前所未闻的。 12900K屏蔽E-core就依靠8个P-core超线程大概是8000分差点,剩下的2500分是8个E-core贡献。当然这样算也是不准确的,线程数增加实际多核效率会有所下降。 再来看看单线程,12900K单线程得分为773,相比11900K和Zen 3提升了20%。如果单核心超频到5.5GHz,那单线程得分高达826。

Keyshot渲染性能测试

Keyshot我们选择一个比较简单的室内装潢渲染图,KEYSHOT 10和CINEBENCH类似是重SSE测试,但整个完成时间需要20-30分钟,除了验证性能,我们也用这个项目测试频率稳定性、功耗和温度。

在Keyshot中12900K默认基本和5900X持平,相比5950X还是有差距。12700K/12600K相比Zen 3竞品也优势明显。

而12700K相比11700K性能也提升了40%,12600K更是在Keyshot中的实际性能也超过了11900K,看来i5强i9,不仅仅是在测试软件中,而在真实的生产力环境也是如此,前面说的i5灭i9是一点也不虚。

再来看看功耗,12900K 4.8GHz比11900K 4.7GHz功耗和温度都稍高,但你需要记住,这是在性能提升2/3的情况下实现的。温度方面也仅74度,还是很轻松惬意的。当然超频到5.1GHz,就需要1.37v电压,功耗就上升到230W水平,温度也到了82度,但也还压得住。很大程度要得益于我们使用的Thermaltake 钢影 TOUGHLIQUID Ultra 360,刚开始测试的时候,我使用个酷冷的便宜的 B360,默认还好,超频后就分分钟99,就开始降频了。这说明都是360的,但一般的360和高规格的360还是有很大的差别。

12700K默认仅为160W,温度仅为64度,12600K则更低,才107W 61度,可以说十分舒服,这种功耗,好点的单塔风冷就可以搞定了,intel 7工艺看来的确强大。

X265视频编码性能测试

X265编码是重AVX的测试项目,这个测试基本是CPU最高负载的测试,同时我们使用X265考核处理器的极端条件的功耗和温度。 编码使用的视频源文件是ducks_take_off_2160p50.y4m,(下载地址 media.xiph.org/video/de) 使用 slow 预设,以 28 恒定速率因子来压缩,码块树 CTU 数量为 64 个。对于RKL我们分别使用了AVX2和AVX512两种指令集进行测试。使用的命令行如下:

x265.exe ducks_take_off_2160p50.y4m –preset slow –crf 28 -o duck.mp4 –ctu 64 –profile main10 x265.exe ducks_take_off_2160p50.y4m –preset slow –crf 28 -o duck.mp4 –ctu 64 –asm avx512 –profile main10

虽然12900K还是没能够超过5950X,但ADL在X265的测试性能比keyshot稍好,领先优势继续扩大。

同时X265主要是跑的AVX,处理器的功耗和温度也更高,也明显高于AIDA64的FPU,相比前面的keyshot基本要高20W,温度也要高5度,超频的话对于处理器的稳定性要求也更高,12700K/12600K稳定频率基本要比R20和keyshot低一个倍频。

12900K超频 5.1GHz,电压设置1.38V会掉压到1.3V,功耗基本在390W以上,瞬时会达到400W,93度,但12900K依然可以稳定的跑完测试。这个测试可以通过,基本就可以说超频很稳定了。

在屏蔽E-core之后,我们还对比了8核心P-core AVX2和AVX512的性能,2.6比2.4提升了8.3%,这个8.3%提升其实还有uncore频率从3.6到4.7的功劳,对于内容创作者而言,屏蔽E-core开启AVX-512是得不偿失的。

游戏性能测试

游戏FPS是由GPU FPS和CPU FPS的下限决定: 游戏画面越好,或者游戏画质设置和分辨率越高,那性能瓶颈就越倾向GPU,特别是玩家显卡不是太好的情况下; CPU瓶颈主要出现在电竞游戏,比如CSGO、英雄联盟、PUBG之类,并且画质设定比较低,而且显卡也足够好的情况,而且基本FPS有个144以上才比较明显。 我们测试的游戏既包含CSGO、PUBG这样低GPU要求的电竞游戏,同样也包含古墓丽影暗影、赛博朋克2077这样的3A,还有全面战争特洛伊这样的全屏数千人大战的策略游戏。

CSGO游戏性能测试

CSGO是采用的十几年前的Source引擎,还是采用的DX9 API,其对于显卡要求不高,但对于处理器性能极其敏感。有可能有人认为200FPS和300FPS并没什么差别,反正都比显示器的刷新率高,但CSER却对FPS有种几乎偏执的追求,依然认为越高越好。我们使用控制台的timedemo命令行进行测试,测试场景为Dust 2。由于CSGO的GPU需求和负载很低,完全不构成瓶颈,1080P到4K的性能差别几乎可以忽略,我们仅仅列出4K MAX 4X MSAA的性能。

CSGO和英雄联盟是同Zen 3差距最大的测试项目,而ADL基本赶了回来,除了频率过低 L3相对较小的12600K,默认的12700K和12900K都领先于开启PBO同级别的Zen 3,12600K在超频后相比5600X PBO也相差无几。

英雄联盟性能测试

英雄联盟我们使用召唤师峡谷地图无限火力的8-10分钟回放进行Benchmark。由于英雄联盟的瓶颈完全在CPU,我们仅使用4K MAX的设置进行测试。

之前RKL相比PBO的Zen 3基本有100FPS的差距,ADL虽然没能够完全赶上Zen 3,但将差距缩小到20以内。再仔细分析,英雄联盟的性能顺序完全和L3容量一致,甚至性能几乎和L3容量是线性的,只是和频率弱关联,和核心数量关系不大。32MB的5600X都可以压到30MB的12900K。L3敏感性的游戏本质是延迟敏感性,常用的数据都丢L3,随用随取自然就快了。

两芯片 64MB L3的5900X和5950X由于L3需要一致性,实际性能并没完全线性增加/但如果AMD后续推出3D V-CACHE的warhol这个优势可能继续扩大。虽然3D V-Cache的初衷是提升Epyc的单个核心平均L3容量,而游戏性能提升基本就是意外之喜。

不过AMD自家5900X和3D V-CACHE定频4GHz游戏性能对比,英雄联盟反而提升幅度最小,看来32MB就基本够用了。并且仅仅定频4GHz测试,定频4GHz不同立场的人有不同理解,AFAN认为游戏性能提升15%,而ifan认为V-CACHE会对频率有负面影响,呵呵。

从泄露的资料看,intel 下一代Raptor Lake的一个重要改进就是“改进CPU缓存提升游戏性能”,就说intel 12代也很可能加大L3容量来提升游戏性能。

对于CSGO这样的FPS,如果你有ROG 360Hz的电竞显示器,那RKL到ADL的性能提升还有意义,但作为一个MOBA,玩家眼里的270FPS和380FPS真的有差别么?这样的FPS基本就是溢出的。

绝地求生游戏性能测试

绝地求生最近更新提供了对DX12的支持,但实际DX12的性能和稳定性都不如DX11,我们依然使用DX11路径,画面我们设置成4K分辨率,纹理、视野距离和抗锯齿最高,其他最低,这样的设置能够在画质和性能之间能够较好的平衡,同时画面也较为干净方便索敌。测试我们使用沙漠图游戏回放,使用CapFrameX记录游戏中段城区战斗的120秒的平均FPS。由于在这样设置下,瓶颈完全在CPU,GPU使用率仅在50%,我们仅进行4K分辨率进行测试。

PUBG ADL相比Zen 3 PBO有10FPS的性能优势,相比RKL有30FPS以上的性能优势,12700K/12900K超频有十分少许提升,12600K由于基频比较低,提升较为明显。

其实不少玩家担心ADL的大小核心调度问题,我们使用CapFrameX查看CPU的具体占用率,在一般游戏的情况下,游戏负载完全集中在P-core,而E-core基本没有占用,这就证明游戏使用的完全在P-Core。我们使用OBS CPU X264编码进行视频捕捉,这个编码进程就在E-core核心。

我们使用OBS Studio进行推流,设置的20Mbps码流,High Profile,分别对比无直播、X264 CPU编码和RTX 3090 GPU NVENC编码的游戏性能。12900K使用CPU X264编码的性能损失比例最小,绝对性能也更高,领先5950X差不多25FPS。虽然在绝地求生中GPUNVENC编码的性能更好,但这只是在绝地求生这样低GPU占用的游戏会这样,如果是直播高GPU需求的3A游戏,就没多的空余资源给OBS GPU编码,那X264 CPU编码性能会更好,而且画质更好。

上面性能测试还是在后台完全干净的情况下进行,但真正的玩家,比如我后台要看Rivatunner监控状态,还有QQ、几十个标签的Chrome,NVIDIA GFE等一堆后台程序,也许还有玩家会开音乐播放器或者Discord这样的语音通讯软件,这些进程都会占用CPU影响性能。现在P-core和E-core的设计不仅没有让核心调度出现混乱,降低游戏性能,反而可以让E-core处理这些后台任务,P-core能够专注处理高优先级的游戏任务。在这样的情况下ADL的游戏性能优势会更为明显。

古墓丽影暗影游戏性能测试

古墓丽影暗影(449版本)我们使用的游戏预设的最高画质(不是MAX),开启光线追踪阴影到最高,1080P 时间抗锯齿和2160P DLSS的设置进行测试,古墓丽影暗影测试除了有FPS以外还有具体的CPU性能分析。

古墓丽影暗影的Benchmark有三个场景,绝大部分时间都是CPU FPS>GPU FPS,是典型的GPU瓶颈,但在第三个场景的前段,在1080P分辨率下,GPU负载比较轻,GPU frametime<CPU frametime,就说CPU部分存在瓶颈。

我们对比11900K和12900K古墓丽影暗影的1080p性能,主要看下面的GPU和CPU的帧生成时间曲线(帧生成时间=1000/FPS,这个数值越低越好),在第三个测试场景前半段GPU负载较轻,GPU FPS高,帧生成时间低。这个时候11900K CPU帧生成时间明显高于GPU帧生成时间,就拖累了游戏FPS,而12900K仅有极少一段CPU帧生成时间高于GPU帧生成时间,CPU作为瓶颈的时间更短。整体FPS也是137 VS 147,高了10FPS。

在1080P分辨率ADL的CPU FPS相比Zen 3和RKL有明显优势,甚至12900K在超频和使用DDR5后,CPU FPS依然有明显的提升。但这样的CPU性能优势却没能很好的传递到游戏实际性能上来,ADL默认还是要略慢于Zen 3,超频以后才勉强赶平。而到了4K分辨率,虽然CPU FPS还是有明显差距,但瓶颈就完全在GPU了,即使是开启DLSS,FPS基本都是82一般齐。

虽然ADL的CPU FPS优势明显,但古墓的实际FPS ADL依然慢于Zen 3,这也是intel官方宣传ADL唯一落败的游戏。

赛博朋克2077游戏性能测试

赛博朋克2077游戏本身并没有自带benchmark,我们就选择最开始营救任务之后,和杰克一起开车回家一段,经过安检到家100秒时间进行测试,这段场景完全可控,可以做到精确重复,同时经过场景较大,雨夜负载比较高,也够赛博朋克。我们选择超高光线追踪画质,性能模式DLSS,分别测试1080P和1440P分辨率下的性能。(2160P RTX 3090跑不动没有测试意义)

上次RKL测试时候,Zen 3的性能表现有明显问题,再经过更新修复后,Zen 3在2077的性能大幅提升。ADL在2077测试中E-Core也会被充分利用,看来2077对于多核心支持十分的好。ADL在1080p分辨率大概有10FPS的优势,到2K分辨率这个优势就缩小到2-3FPS,2077这样的3A 即使CPU需求再高,在高分辨率高画质的情况下主要瓶颈还是在GPU,并且这还是在使用RTX 3090的情况下。

全面战争特洛伊性能测试

CA推出的全战三国由于中国题材在国内大获成功,而其续作全战特洛伊又将战场带回到古欧洲的经典时代,讲述特洛伊木马屠城的故事。游戏需要表现千人同屏甚至万人同屏的巨大战争场面,对于CPU性能有极高的负载。我们使用超高设置,使用游戏自带Benchmark测试1080P,2K和4K分辨率下游戏的性能。

虽然特洛伊对多核心支持很好了,可以充分利用16个核心,但其实性能主要还是取决于单线程性能。ADL在1080p分辨率还是有一定优势,但随着分辨率的提高,瓶颈还是转向GPU,2K差距就很小,4K就众生平等了。5900X和5950X由于是全核心占用,PBO的频率低于其他低占用率的游戏,因此性能收到了影响。

核心显卡性能测试

桌面版或者说 Alder Lake-S 搭配的 GPU 依然是 Rocket Lake 里的 Xe-LP,拥有 32 个 EU。每个 EU 是一个 FP/INT SIMD8(相当于 NVIDIA 的 CUDA sub-core)的运算单元,每个周期可以执行 8 个 FP32 FMA 指令或者说 16 个浮点操作,合计就是每个周期可以跑 512 个 FP32 浮点操作。

ADL在核心显卡规模上的设置和RKL/TGL一样,移动平台有96EU,而桌面仅有32EU,架构上依然是Xe。intel对于核心显卡的定位很清楚,移动平台较多情况没有独立显卡,因此更需要性能,而桌面的核显仅仅是亮机,一般用户就需要上网办公视频而已,需要性能的自然是独显,核心显卡规模再大也不够用,因此仅提供了32 EU的规格。

不过ADL平台支持DDR5,一般就意味着显示带宽更大,我们使用3Dmark Firestrike和Night Raid简单测试了UHD770的DX11和DX12性能。

但实际结果让人大跌眼镜,Firestrike提升幅度很小,Night Raid甚至开启了倒车,这是为什么呢?

我们运行GPU-Z看UHD 770的规格,发现DDR4 3600的显存频率为4800,而DDR5 5200仅为3487。DDR4内存控制器是同步模式,显存频率是内存频率的4/3倍,而DDR5是GEAR2的异步模式,内存控制器频率只有内存频率的一半(GPU-Z显示的显存频率也砍半),这样就影响了DDR5实际带宽效能。

视频方面我使用DXVA Checker检查了UHD 770的解码支持特性,基本和750一样,支持HEVC 422 4K和8K解码。

在最新版的Adobe Premiere Pro 2022里也也能硬解佳能R5拍摄的4K HEVC 422视频。(11代的UHD750也可以),目前手头没有8K HEVC 422,暂时没有测试。

这个支持是用 OpenCL 接口调用 Intel 的视频解码器实现的,只要你使用上包含 Xe GPU 的 Intel CPU(台式酷睿十一代以上、笔记本酷睿十代以上)来跑,都能获得丝滑般的时间线流畅拖动效果,对于 PC 视频编辑用户来说,这意味着不用再羡慕苹果 M1 电脑了。

不过比较遗憾的是,这个特性目前尚未有 DXVA 接口解码器软件提供,这类视频目前在播放器里依然无法实现硬件解码回放。当然,也许某天例如明天,LAV filter 就把 Intel 的 HEVC 4:2:2 10-bit 调出来了。

磁盘性能测试

12代对于对于磁盘性能也有明显提升,这样的提升是两方面的,首先是处理器更加的性能可以提高小文件的访问性能,其次是ADL+Z690平台来带连接性能的提升。我们使用PCMark 10的完整磁盘测试浦科特M10P Plus 2TB的磁盘性能。PCMark10 采集了多个应用的真实存储轨迹,包括 Windows 10 启动引导、Adobe 创作应用、微软Office、游戏、光盘镜像 ISO 文件复制、图片文件复制等,可以更为正式的反应系统在真实应用环境的磁盘性能。

之前RKL Z590平台磁盘性能相比Zen 3+X570就有明显优势,ADL+Z690的性能相比RKL继续提升了4%,相比Zen 3领先了差不多15%。ADL+Z690平台带宽更大,延迟更低,如果超频,运行时候CPU大概都在5.3-5.5GHz,性能还可以继续提高。

测试结语

结论部分我以回答开头提出的问题方式来做总结:

问:12代处理器的IPC效能如何,比Zen 3快多少?

答:intel给的官方数据是:ADL在3.3GHz同频相比RKL快了19%,这是测试SPEC CPU 2007/SYSMARK/PCMARK 10等项目得出的测试结果,我们测试的SPEC CPU 2017结果性能优势还更大。

12代P-Core在同核心数同频的情况下,GDC浮点相比11代RKL性能提升了21%,相比Zen 3和Skylake更是快了28%。而P-Core的整数性能相比RKL提升了14.5%,但相比Zen 3领先幅度仅为5%。

再来说说E-Core,虽然E-Core GMT的同频浮点效能还不如Zen 2和Skylake,但整数性能还是很不错,基本领先Zen 3和Skylake 5%。需要注意的是4个E-Core的Die Size才比一个P-Core大一点,因此可以说E-Core是小投入大产出。

DDR5由于提供了更大的带宽,在浮点性能上有9%的性能提升收益。

我再来说说怎么理解浮点性能和整数性能的意义:我们使用intel Vtune对真实应用的浮点应用比例进行分析,日常大部分应用都是以整数为主,只有科学计算才是重浮点,3D渲染浮点占比大概也就25%,一般Office日常办公浮点应用基本趋近于0,而游戏和高清回放一般也在10%以下的水平。

我们使用intel Vtune Profiler测试Cinebench R20,浮点占比大概为26%,并且这已经算高的,赛博朋克2077这样CPU利用很充分的游戏,浮点占比也仅为2%,而且还是单进度浮点。因此对于一般用户,整数性能还是更为重要。这就是说在同频效能,ADL P-Core相比Zen 3也领先不了太多,而E-core实际效能表现要比Zen 2和Skylake更好。

再回头看在发布前,泄露的12900K CPU-Z单线程得分为825,很多人就凭这个认为12900K相比5950X快20%,单纯这样比较科学么?

CPU-Z的说明是使用SSE/SSE2进行二维噪音函数计算,也是重浮点运算,因此CPU-Z得分同真实应用也是严重脱节的。

当然上面只是说同频的情况,实际ADL在频率上还是有一定优势,全核心高负载Zen 3一般在4.5GHz左右,而12900K则有4.9GHz,在轻负载时候Zen 3大概为4.7-4.9GHz,而ADL则在5GHz以上,在相同大核心数量的情况下,ADL还是有更好的性能。

更强的单核心核心性能可以带来更好的日常体验,但这部分好出来的体验虽然不能说是溢出,但也是比较难得感知出来的。

问:12代实际的生产力性能如何?

答:继续引用上一个问题的结论,ADL相比Zen 3有更高的IPC,更高的频率,在核心数相同的情况下,也有更好的生产力性能。

  • 12700K/12600K P-core性能就可以领先5800X/5600X,再加上4个E-core让ADL优势明显;
  • 而12900K 8P-core+8 E-core虽然可以轻松搞定12核心的5900X,但相比16个大核的5950X还是存在差距。
  • 不过对于从事生产力工作的人,对AMD存在一些不信任的偏见,比如相同的问题,使用intel平台用户会首先考虑是软件或者系统问题,而AMD用户则会更多去怀疑是平台兼容性问题,这样的偏见甚至有点根深蒂固,一些负责企业采购的CIO为了不背锅,都选择intel也是很自然的。
  • 从我个人观点看,即使是目前12代首发的状态,依然比已经发售一年的Zen 3成熟度要高,使用起来还是更为省心。

问:12代游戏性能如何?

答:游戏方面:我再重复一次前面说的的要点:游戏性能是由GPU FPS和CPU FPS的下限决定,大多数3A游戏瓶颈基本都在GPU,而画质较差的电竞游戏瓶颈才在于CPU。

判断自己平台瓶颈是不是在CPU有个十分简单的办法,这个方法并不是看你CPU用满没,而是反过来,用Rivatunner或者游戏加加这种OSD工具看游戏的GPU占用率,如果GPU占用率比较低,长期不到80%,甚至更低,那就是你CPU性能上存在瓶颈。

ADL CPU FPS相比Zen 3有一定优势,但这个优势基本144以上才体现的出来。如果你和我一样喜欢全特效玩3A,那瓶颈肯定还是在GPU,即使你使用的是RTX 3090。但如果你是使用的165Hz电竞显示器,主要玩CSGO、LOL或者PUBG这种低GPU需求的电竞游戏,那样更换ADL才会有明显收益。

问:i5干i9了么?

在Cinebench R20/KEYSHOT/X265这些多线程生产力测试,在英雄联盟/CSGO/绝地求生/古墓阴影/特洛伊这些游戏测试中,12600K都以明确的优势干掉了11900K,仅仅是在赛博朋克2077中基本打平。毫无疑问的,i5 12600K很干脆彻底的干趴了i9 11900K。

问:大小核心是坑不?调度有没问题,会不会游戏跑到小核性能不升反降?

答:ADL的核心调度策略十分粗暴简单,简单到很难出错,对于绝地求生,英雄联盟这样核心使用小于8个的游戏,游戏仅会使用8个P-core,并且不会使用超线程。而E-core则被用于后台任务,比如聊天工具或者是直播软件,可以让P-core专注于处理游戏任务,进一步提升游戏性能。

问:12代超频性能怎么样?

答:不说赛扬300A或者E6300这样的上古神器,单纯说绝对频率,ADL是很好的超频CPU,虽然这个相对幅度并不太大,但5.5GHz的单核和5.1GHz的全核还是很诱人的,uncore频率也很有玩头,无论是你是个超频以后长期稳定使用者,还是追求高分的玩家,ADL的超频都还是可以让人满意。

问:12代温度和功耗怎么样?

答:虽然我前面放出了全核心5.1GHz跑AVX 400W的截图,但你不要被吓住,默认情况下12900K功耗比11900K仅仅是稍高,i7和i5 K实际功耗和温度都还更低。而且你需要记住,这是在GDC核心规模大幅度扩大,增加额外的GMT小核心,性能实现60%以上提升的情况下实现的。并且ADL并没有Zen 3那样的积热问题,只要你散热够强,够强热量还是散的出来。12600K用120水冷和好点的单塔,12700K用240水冷和双塔就可以很好的压制,12900K 360水冷就可以,当然,如果要超频满载还是需要比较高性能的360,就如我们本次评测使用的Thermaltake 钢影 TOUGHLIQUID Ultra 360。

intel 7这个10nm工艺相比Zen 3使用的台积电7nm,可以实现同级别的晶体管密度,更好的晶体管性能可以达到更高的频率,但在高频的功耗还是略差于Zen 3,但这个不是工艺水平问题,而是策略问题,高频需要更高的电压电流,并且提升一点需要付出不成比的代价,intel 7在和Zen 3相近的频率(比如4.5GHz左右)也有十分好的功耗和温度表现。

现在ADL的intel 7在工艺上勉强赶上了Zen 3的TSMC 7nm,但明年的Raptor Lake也继续沿用现在的工艺,不过届时的Zen 4则会升级到5nm,AMD将会在工艺上再次领先intel。

问:12代处理器值得买不?

答:这个问题主要取决于你现在用的什么,有什么需求。生产力或者游戏方面的性能可以看看上面的部分。

一般而言,对于还在使用Skylake或者Zen 1/2的用户,我们还是很推荐升级ADL的,这样升级提升幅度会让人感觉感动,我自己其实也是这种情况。

如果你是RKL用户,这样的提升幅度也是值得的,就如我标题说的,i5干i9,无论是渲染、视频编码还是实际游戏,12600K都可以干掉11900K,这对买了半年的11900K用户实在是有点难以接受,但这就是事实。

如果你现在已经使用的是Zen 3,那你其实可以继续用下去,ADL相比Zen 3虽然有提升,但并不是可以明确感知的质变提升。

当然不说价格就说买什么就是耍流氓。我这里列出的是11月1日线上渠道可以买到的盒装价格,不包括很难抢的耍猴价和特殊优惠券,这个价格比MSRP和京东自营低,对于一般消费者更有意义。intel处理器带核显的K比不带核显KF要稍贵,我这里只列出KF的价格,反正买这种U的基本没人用核显,Zen 3也没有。

12600K相比11600K贵了300,但你要知道12600K这个i5小弟是可以干掉上代大哥11900K的,无论是单线程性能,还是多线程性能,还有游戏性能,所以贵这一点就没什么好埋怨的。

12700K相比5800X虽然更贵,考虑理论性能提升幅度,价格也还可以接受。

12900K目前4500的价格在5900X和5950X之间,即使单纯考虑多线程性能这个价格也还算合理,虽然这个价格并不如2个小弟那样能打。但常理,一分货一分钱,两分货一毛钱,高端产品有更高的溢价也是正常的,追求最强的人往往3并不会太在意性价比。

需要注意的是,我们是在拿12代的首发价格在同11代和Zen 3生命周期中后段的双11促销价进行对比,相比intel ARK上的MSRP,首发还是有一定溢价,相信后续价格还会继续下调,那相比RKL和Zen 3的性价比就会突显出来。

我们上面列出的是盒装价格比较,如果是散片12代还是可以再便宜200-300,当然Zen 3的散片价格优势更大,同时总代还提供三年质保,

虽然目前intel只是推出高定位的K系列处理器,但从明年开始从从Pentium到i5 i7 i9 non-K也都会过渡到Golden Cove架构,如果不是十分迫切的刚需,我们都建议明年再更新平台。ADL的IP是十分灵活的,可以将不同模块组合成不同规模的处理器,这就是Zen 3所不具备的。

Gracemont的更新意义也十分重大,除开没什么存在感的Lakefield中的Tremont,其实intel最近更新的小核心基本还是2016年的Apollo Lake,这个意性能其实不能满足基本的日常应用需要,比如多开比较复杂的网页,或者4K视频回放都搞不定。而现在Gracemont可以用十分低的成本实现堪用的性能,仅需要比一个大核心稍大的面积,就可以提供4核心Skylake级别的性能,千元出头的整机可以满足SOHO需求,甚至瘦客户端和上网本的概念产品再来一次复辟也不是不可能的事情。

问:DDR5和DDR4有什么区别,延迟大不,怎么选择?

答:目前我就测试了DDR5 4800 OC5200,相比DDR4 3600在大多测试差别不大。 DDR5内存延迟高不高?目前是高的,但这个高并不是由于DDR5 CL高导致,而是由于内存控制器分频导致。DDR5 5200的内存控制器频率仅为1300,延迟自然比MC 1800的DDR4 3600高。其实DDR5和DDR4在同MC频率的情况下,内存延迟相差并不大。

ADL的MC可以到2000,就说DDR4同步4000毕业,DDR5异步1:2 8000毕业,DDR5到6400或者7200这样的高频,相比现在高频DDR4的延迟就会相差无几。

目前DDR5 16GBx2 4800/5200套条基本要2200-3000。并且目前花钱买的到的都是美光颗粒,基本就5200的频率水平,要上6400需要海力士或者三星颗粒。

而现在同容量DDR4毕业规格的皇家戟4000C18也就DDR5价格一半出头,目前两者性能相差并没太多。

所以现在是个纠结的事情,现在买即将淘汰的DDR4自然心有不甘,而买DDR5现在也不成熟,并且溢价高:而现在DDR5 4800/5200就相当于之前的 DDR4 2400/2600,并且我从多家内存厂商了解现在D5颗粒供应有很大问题,既然供应不足,那就是供不应求,溢价高也很正常。

我整理了intel内部2020年对于DRAM市场种类占比的预估,在今年DDR5在桌面平台的占有率就将接近10%,仅仅是在Q4发售的高端超频Z690平台的出货整体占比都不可能到10%,就更不用说DDR5占比了,明显是高估了。但这个预估整体迭代的大趋势我还是认同的,在2023年DDR5的出货量就会超过DDR4,到2024年就会占到绝大部分。你可能认为这个速度过于乐观,但回想之前2015年左右DDR3到DDR4的过渡也差不多是这个节奏,2017年7700K那代 DDR4就有很高比重,2018年时候就差不多是统治地位了。

DDR5的发展也会很迅猛,无论是规格提升还是价格下降都会快于你的想象,这个是以往的历史经验多次证明的。我自己会稍微忍耐一下,等到DDR5 6400上市,供应稳定,D5比D4溢价不太高的时候再购入。至于需要等多久,我觉得并不会遥远,从内存模组厂消息,三星和海力士颗粒也开始批量进场,在春节前6400也许就可以卖到合理价位。

问:12代平台主板如何选择?

我们考虑购买价值,不能仅仅在CPU,还需要看主板/内存这样的整体平台持有成本。

之前2000元以下的Z590供电电流被限制在255A,其实跑11900K超频或者跑ABT就不太够。除了12900K全核心超频功耗可以达到400W级别,12600K/12700K功耗都是明显下降的,这就意味着对于主板供电的需求就可以有所降低。

但另外一方面由于Z690芯片组的规格大幅提升,更多DMI带宽就可以提供更好的扩展性,使得Z690主板规格和档次相比同系列的Z590或者X570高了至少一个级别,以M.2为例,ATX大板基本都是3个起步,4个主流,5个才算是高阶。本次Z690的虽然官方报价比较高,但实际渠道特别是购买板U套餐价格还是不错,相比Z590首发基本持平,甚至还稍低,可以说是加价不加量。

但在主板产品线布局上,AMD B550虽然在扩展性上比较差,但如超频、PCIe 4.0这样该有的功能也基本都有,再加上Zen 3较低的功耗并不需要太堆供电,几百块钱的TUF B550M PLUS就可以搞定5900X PBO,这样的规格就刚好能够满足大部分人的需求,B550整体的平台成本相比Z690还是有一定优势。当然,你本来就准备追求扩展性和颜值,准备花1500左右甚至更多,那AMD平台价格优势就不那么明显,ADL+Z690可以在同档次可以提供高的规格和更好的性能。

我在这里罗列的华硕Z690型号的核心规格和价格,并进行简要分析并进行推荐。这个价格是京东自营价格,如果买板U套装或者其他渠道购买,价格应该会更低。D4/D5和版型从型号上就可以区分,型号带D4的就是D4,不带的就是D5,AURA这种功能现在就是标配,我就不单独列出。

  • 12600K/12700K默认用户买个Z690-P就够用,小超也够;
  • TUF和STRIX Z690-A其实在供电和扩展性规格相差不太大,搞定12900K小超也没什么问题。STRIX Z690-A GAMING WIFI D4是唯一一个D4的ROG型号,如果你想要个便宜点的ROG,就吹雪姬了;
  • STRIX Z690-F和-E这次差价很小,但Z690-E供电要高一个规格,多Q-code Debug灯,并且多个HYPER M.2扩展卡,因此我们更为推荐买E;
  • 如果想和我一样,12900K长时间稳定用5.1GHz,单核心5.5GHz,并且上一堆M.2和U.2,还有雷电设备,以后还要上更高频率的DDR5,那还是推荐选择本次测试平台的HERO;
  • FORMULA这次HERO方案有了差别,供电单相规格更高,网卡也是10G,这次FORMULA在规格上和HERO有了明显区隔。再加白色装甲+EKWB供电水冷,主要目标用户依然是分体式水冷用户;
  • APEX是完全为超频而生的主板,甚至在扩展性上做了一点妥协,如果你准备好了压缩机和LN2大炮,并且对上3Dmark名人堂或者hwbot有兴趣,那APEX就是你的归宿;
  • 至于STRIX Z690M-G和Z690-I GAMING就是MATX和ITX小机箱用户的选择;
  • EXTREME和更贵的水冷版就不是我这种穷人可以理解的范围,土豪的世界我是不明白的,但我还是大受震撼。

在明白自己的需求和产品的区隔特性后,你就应该知道怎么选择Z690了。

我的选择

我个人对于产品有多个评价级别,比较高的是“我有钱一定买”,比如iPhone 13,佳能R3,索尼PS5之类。当然我这个话说过很多年,也没见我买什么,就经常被人吐槽说我根本不可能有钱。我对产品的最高评价,就是用自己的钱包投票,我应该会在双11期间用各种优惠券和红包把12900K+Z690 HERO请回家。

等我装好的时候,差不多就可以开始玩地平线5和战地2042了。升级不是目的,更好的游戏才是升级实现的价值。



user avatar   wang-xiang-yu-59-47 网友的相关建议: 
      

本回答将从处理器介绍、性能提升和产品革新三方面给大家总结一下第 12 代英特尔酷睿桌面级处理器,感兴趣可以看一下。

第12代英特尔酷睿桌面级处理器的规格

i9-12900K具有16核和24线程,16个核心由8个性能核(P核)和8个能效核(E核)组成,性能核和能效核的混合架构,是12代酷睿处理器最大的革新;

拥有30MB的L3缓存和14MB的L2缓存进一步提高;

其单核频率最高可达5.2GHz,性能核最高可达5.1GHz,能效核最高可达3.9GHz;

并支持4800MT/s的DDR5;

基础功率为125W,最大功率为241W。



第12代英特尔酷睿桌面级处理器的性能提升

英特尔官方宣布,第12代英特尔酷睿处理器将具有很好的超频体验,并大幅提升了生产力性能。



在性能方面的提升,同频率下,12代酷睿处理器的单核性能相比于11代提升高达19%。



单核性能方面,第12代的性能核(P核)相比于第10代可提升28%,相比于第11代提升14%,能效核(E核)比10代的还要强1%。



峰值功率下,241W的i9-12900K比i9-11900K提升了50%的性能,而在125W的时候,性能提升了30%,在65W的时候,能够跟i9-11900K持平。

这波提升,够不够大?



在游戏性能方面,12代英特尔酷睿处理器相比于11代的提升如下所示。

同比提升幅度最大的游戏是《英雄联盟》,性能提升了50%左右,跟CPU最高功率下的性能提升相近。提升较高的游戏,比如《看门狗》、《全面战争》等,提升均在20%以上,部分游戏,如《刺客信条》、《孤岛危机》等提升较小。




在内容创作方面,相比于11代处理器,Pr性能提升了32%,Lightroom Classic提升了36%,AE方面的提升达到了100%



最好的超频体验主要体现在以下方面:

一个是性能核也能超频,二是DDR5的内存超频配置平台,第三个是动态内存加速技术,四是提供的一键超频功能,让小白也能够一键起飞。



第12代英特尔酷睿处理器带来的产品革新


第12代英特尔酷睿桌面处理器主要给大家带来了11项产品革新和2项功能增强,如下图所示。


1)采用了全新的Intel 7 制程技术

相比于上一代,每瓦性能提升约10~15%。


通过封装优化增强了散热。12代酷睿处理器具有更薄的CPU核心(Die),并通过更薄的焊锡降低了芯片核心和集成散热器(Integrated Heat Spreader,IHS)之间的厚度,从而起到降低热阻、增强散热的效果。

采用更厚的集成散热器,也有助于提升散热效果。



2)采用了全新的混合架构

这是12代英特尔酷睿处理器最大的升级和创新了。

12代酷睿处理器通过将核心分为性能核(Performance Core, P核)和能效核(Efficiency Core, E核),性能核主要在玩游戏和充当生产力工具时起作用,能效核更多地承载程序应用和管理工作。

再配合上优秀的核心调度和优化,让二者能够协同工作,实现同时提升酷睿处理器的性能和能效的效果。



3)全新的Intel线程管理器

线程管理器的作用,主要是起到让游戏等高负载活动跑到性能核上,让后台的低负载活动跑到能效核上的作用。

这个目前在Windows 11上有更好的优化,Intel跟微软展开了深度合作,从而使得Windows11能够更好地发挥出12代酷睿处理器的混合架构能力。


4)新的架构带来的性能提升,前文已经提到了,就不再赘述了

5)全新的16核心(8性能核+8能效核)和24线程

6)增加的L2缓存(14MB)和L3缓存(30MB),可起到降低游戏载入延时并带来更强的帧率表现。


7)支持DDR5,最高速率由3200MT/s提升到了4800MT/s

8)全新的PCIe 5.0,具有16条通道,可提高独显性能和游戏数据吞吐能力

9)芯片支持PCIe 4.0,具有16条通道;

10)支持全新的集成化的WiFi 6E

11)DMI升级到了4.0,增强了芯片和处理器之间的数据传输带宽。



两项增强:

一是CPU核心和内存的超频,利好高端玩家;

二是锐炬Xe集显的图形性能增强,这部分在桌面级应该不是重点,可以期待一波移动端的锐炬Xe集显的性能提升。

英特尔的12代酷睿处理器会给行业带来什么影响?

1)性能的全方位增强,给消费者带来了更好的游戏体验和生产力提升的同时,也将加剧了行业的竞争;

2)混合架构的创新,让新游戏和程序的开发者能够更方便地进行性能核和能效核的调度;

3)有助于Windows 11推广,凡是升级了12代酷睿处理器的,都会升级Windows 11吧;

4)有助于推送DDR5内存的推广和普及,计划首发冲12代酷睿处理器的,预算充足可以屯几根DDR5内存

以上,就是我为大家整理的第12代英特尔酷睿处理器的内容,希望能对大家了解新一代的Intel处理器有帮助。


user avatar   ai-fan-er-85 网友的相关建议: 
      

今天不是愚人节,但胜似愚人节。

因为就在刚刚——戴森,发布了一款耳机

这款耳机,是「头戴式耳机 + 空气净化器」的结合。

不仅支持主动降噪,解决噪音污染;还支持空气净化,解决空气污染。

一箭双雕。


你没看错,戴森首款「空气净化耳机」真来了——

戴在头上的空气净化器

这款耳机名为「Dyson Zone」。

初看上去,它的造型充满金属感,就像耳机和口罩的结合体。

主角刚从 2032 年的空气污染重灾区穿越回来,告诉我们音乐和新鲜空气可以一起进入大脑。



戴在头上的空气净化器——第一次觉得戴森能有一个产品和它的名字如此契合。

净化空气

戴森在这款耳机上提出了「移动净化」的概念。

也就是说,让你不仅在家,走进各个城市的雾霾里也能呼吸到新鲜空气。



Dyson Zone 这里用到了两种净化系统。

首先是移动净化技术。

两侧的耳机腔体内,塞入了「双重净化系统」,内含马达,可以主动吸入外界空气,接着过滤污染和有害气体。



戴森研发出了一种「静电式过滤媒介」。

它能够主动吸引空气中的灰尘和颗粒物。



这样就能把摩托车头套一样的大滤网,变成小尺寸、纤细的滤网,放进耳罩里。



经由过滤之后,外界空气就会传递到前面的面罩里。

然后,就是创新呼吸气流技术。



戴森新创了一种无接触式的面罩。

空气将从耳机两侧进入口鼻中间,然后再从中间呼出,持续输送洁净的气流,整个过程都是无接触的。



等于直接在你的嘴部打造一个洁净空气的呼吸区。



净化噪音

耳机造型都来了,不能放歌说不过去了。

戴森把移动净化的概念,和声学系统结合,然后 Dyson Zone 就变成了一个能空气净化的耳机了。



这个耳机的耳罩能够完全包裹耳朵,还搭载了主动降噪技术,外部能捕捉外界噪音。



同时,内部配备了一种算法,在噪音接近耳机时进行降噪。



为了保持好的音频质量,戴森还设计了很大的音腔,扬声器驱动器,以及配合宽音域的频率响应。

但具体听感如何,等爱范儿后续来评测吧。

重新定义「耳机」

戴森没做过耳机,但空气净化戴森可是老行家了。

一直以来,戴森每一件产品都在持续创新和颠覆,产品也非常多元,比如无叶无噪音的吹风机、不伤发的卷发棒、能用一辈子的自然光照明灯……



但戴森的核心技术,依然是空气净化。

从一开始的无线无尘袋吸尘器,到能加湿空气、净化空气、取暖和凉风的各类无叶电风扇。

这款空气净化耳机,戴森也表示是经过了 30 年的过滤技术积累,研发了 6 年,进行了 500 多个模型的迭代。



2016 年,戴森内部提出了「移动净化」的概念,接着就开始了全球城市的空气调研。

两年后,他们开始测试产品,发现将过滤网放在耳机内,能达到最好的空间净化效果。

这大概也是为什么,耳机要和口罩连在一起。



2019 年开始,产品开始根据不同人脸设计不同模型,继续打造产品内部零件的适用性,还有净化技术和降噪技术的融合。

毕竟将一大堆复杂的净化系统,放进两个小小的耳机腔体里,的确不是什么简单事。



最后,才有了这款未来感满满的移动净化设备。

在全球空气污染一直都是一个严重的问题。

这款空气净化耳机实现了便捷的户外空气净化,倒也是一个很符合当下的应景产品。



而且戴森首席执行官 Jim Rowan 之前就在采访中提过,(中国消费者) 喜欢拥抱新技术,对于颠覆性产品持相当开放的态度。

疫情当下,我们比任何时候都更重视呼吸这件事。



不过,它是个空气净化耳机,没有防护等级,不能当防疫口罩用。

无论如何,我们很高兴看到,可穿戴设备的未来,至此出现一个新的可能。


user avatar   chen-xian-sheng-78-81 网友的相关建议: 
      

搞笑了,我说两个指标:

1. 50%升学率

2. 公务员考试最低门槛是大专

人都是趋利避害的,你们说上面这个局怎么破?

别跟我谈什么【减负】,谈的人麻烦先把自家孩子送去中专读两年体验一下。

慷他人之慨……真大方。


user avatar   xing-fou-81 网友的相关建议: 
      

我在沈阳中医药那住的寝室就是死过人的寝室。

当初那里是女寝,一个女生因为和另一个女生抢男人失败,一时气血上头就跳楼了。女生住407,跳下去时不知怎么地下巴就撞到307的阳台了。据说整个下巴都撞掉了,人也因为这一撞寰枢椎错位(大概)直接就死了,连抢救的必要都没有。

结果后来就开始闹东西了。407那屋有时在晚上十二点能看到有影子走来走去。307那屋阳台上时不时能看到没有下巴沾满了血的人头。不过校方一点都没惯毛病,继续住。害怕?忍着。想换寝室?自己找同学换去。后来因为医学院女生多男生少,于是男寝和女寝调换了一下。

这一下乐子就来了。

医学院女生也就罢了。男生可大部分都是五大三粗的汉子,加上学中医或多或少还信那么点。这一下我住的407寝室可就成了抢手货了,一个寝室六个人时常轮换,你住几天我住几天,大部分都想看看这鬼长什么吊样。结果谁都没见着那鬼。唯一一次一个室友被鬼压床,可把同寝室的给高兴坏了,可就算是围观围了一大圈那哥们还是被压着。一个脾气爆的直接就说:cnmd,给你脸了是吧,滚! 一句话出来,立刻就不压了。从此之后男寝从没有过灵异事件。(但仅限于我们那一届,据称我们那一届之后那玩意又开始闹上了。)



附加:学校具体位置在沈阳边上的新民,但名字比较唬人。

附加:我在那学校还算有名。有闲心的可以去问问解剖科的老师,问他记不记得那个把解剖课要用的兔子偷走一只吃掉的康复科饿死鬼。

闲的没事,再更一个吧。

不是宿舍死人的,就是我现在在的地方闹鬼的事。

就是前些天的事。我现在在的地方是一家按摩店。

店分两边,一边是正常营业的,另一边是用来培训学员的。

前些天学员放假结束回来,结果有一个学员就说自己好像惹到什么了,总是感觉有人在后面跟着他。

我们也没当回事,有人跟着就是闹鬼了?

结果没两天,开始闹了。

就是在早上,这学员开始发疯了,叫谁骂谁,而且骂地特别难听。于是我们就把他摁倒,那是拼命挣扎啊。而且他看我们的眼神就是那种特别陌生的眼神,就好像不认识我们一样。

我提着针正琢磨给那家伙醒脑开窍时候想起来他说的话了。

我们几个一琢磨,再加上他前几天说的。一合计,这货怕不是被鬼上身了吧。

我让另外几个家伙摁住他,我掏电话给前面营业的店面的老牛打电话。老牛是负责算命的。

我告诉老牛,别问我在哪。我这有三个五毛钱钢镚,我扔三次,帮我算算我这边怎么了。

结果在我扔了三次之后,老牛告诉我,我这边有东西。

结果我撂了电话回头发现,负责摁那家伙的几个人和那家伙骂起来了。要不是我拦着,估计他们能把那个学员物理超度了。

最后是学员家属请人了。是跳大神的。一进屋就三个字。“有五个。”

卧槽,五个吶。怪不得这几天和我们骂的花样那么多。

最后东西被请走了,学员生了场病也就没事了。




  

相关话题

  为什么三星、台积电都要量产 7nm 了,而英特尔 10nm 量产持续跳票? 
  联想天逸510S Mini怎么样? 
  强大的究竟是苹果的M1还是台积电的5nm? 
  AMD R7 5800X3D 首个游戏测试出炉,对此都有哪些值得关注的性能亮点? 
  一台台式机中有哪些硬件是可以永远不过时的? 
  为何光电鼠标很晚才出现?技术难点在哪里? 
  为什么手机核心数目提升的比计算机快? 
  「垃圾佬」的电脑是什么样子? 
  想问大家,台式电脑可不可以用无线键盘? 
  10代和11代酷睿明明都干不过锐龙5000系为什么你们还是愿意买英特尔? 

前一个讨论
如何看待 realme 官宣提前完成 2021 年中国市场 1000 万手机销量目标?背后原因是什么?
下一个讨论
苹果 M1 的造价成本为什么低?还是 Intel 要价高?





© 2024-12-25 - tinynew.org. All Rights Reserved.
© 2024-12-25 - tinynew.org. 保留所有权利