用了两个M1Max拼成一个,类似的做法其实PC届几十年前就开始做了。
单核性能应该没变。多核性能大幅度增加(双芯片连接是存在性能损耗的,应该比单芯片的两倍性能弱一些)。苹果体系下终于也能堆核了,20核就达到这个成本确实有点离谱,毕竟12代酷睿堆个20核跟玩儿似的,amd弄个24~32核也并没有特别高的成本。——但是苹果必须不计代价的证明自己能堆核,否则会让大家失去对苹果处理器未来的信心。
GPU这次宣传对标3090了,不过个人对其实际性能表示怀疑。理由之前我已经说过。如果苹果确实具备强大的GPU性能,那么会被矿老板抢购。毕竟一个3090就要接近两万块了,这机子卖3万对矿老板来说性价比也不低。挖矿结束之后苹果电脑的残值也挺高的,二手回血也不亏。
可是半年过去了,我完全没有听说过矿老板抢购 M1 Max 机型的传闻。也根本没有听说 M1 Max 机型断货的说法。所以这基本证明了 M1 的 GPU 实际性能并没有它宣传的那么猛。
在M1这一代是赶不上12代酷睿的单核性能,可以遇见的Zen4架构也肯定比M1强。要想超越x86的单核性能,那就得看M2以后的事了。
所以,与其看到苹果堆核,我更期待看到苹果能拿出一款IPC再度提升,单核性能再度提升的产品出来。
尽管这是之前就已经传过很多次的东西,但看到规格的时候确实还是很惊人,1140 亿晶体管是 M1 的 7 倍,可以理解为它是由两个 M1 Max 进行特别封装连接在一起。
Apple 把它叫做 Ultra Fasion 架构,两颗 Max 之间的互连频宽可达到 2.5TB/s, 这也是 M1 系列的完全体。
最高 20 核 CPU 和 64 核 GPU, 32 核 NPU 引擎,还有更强的 Media 引擎,最高128GB 统一内存,速度来到了恐怖的 800GB/s.
因为它本质上也就是两个 M1 Max, 之前很多服务器工作站也都会用双路 CPU 的主板,这和 Apple 在 M1 Ultra 上做的事情,本质上是一样的,都是在单芯片无法(高效)扩大的前提下,用体积换性能,只不过 Apple 这边自己能控制的余地更大,做这件事更从容。
在 Apple 的口中,它的 CPU 脚踢 i9-12900K:
M1 Ultra 的 CPU 功耗是 60W 左右,这也刚好就是 M1 Max 的 2 倍,如果要跟 241W 的 X86 芯片对比,功耗的优势自然是巨大的。
而 GPU 只需要 80W 就可以拳打 300W 的 3090:
Testing was conducted by Apple in February 2022 using preproduction Mac Studio systems with Apple M1 Max, 10-core CPU and 32-core GPU, and preproduction Mac Studio systems with Apple M1 Ultra, 20-core CPU and 64-core GPU. Performance was measured using select industry‑standard benchmarks. Popular discrete GPU performance data tested from Core i9-12900K with DDR5 memory and GeForce RTX 3060 Ti. Highest-end discrete GPU performance data tested from Core i9-12900K with DDR5 memory and GeForce RTX 3090. Performance tests are conducted using specific computer systems and reflect the approximate performance of Mac Studio.
但是 Apple 并没有说 CPU 和 GPU 的测试项目到底是什么,所以我觉得可能还是 Apple 自己更擅长的行业领域,并不代表所有地方它都能超过 3090.
Apple 也依然只会在功耗/性能的甜点去用这一块芯片,并没有继续拉高功耗换性能。
首先说 Mac Studio, 看到它的设计,你就应该会意识到它的性能有多强:
铝合金材质+CNC 切割加工,风扇占了机身至少 1/4 的体积,这是 Apple 不常见的设计,一切都为了实现散热的功耗需求。
目前来看,Mac Studio 的输入功率是最大 370W, 算上其他部件的损耗,它可能整机会跑到 200W+, 所以尽管功耗高了很多,但是整机加起来也就是一个传统 PC 的 CPU 功耗而已。
前置读卡器,USB-C(雷电 4)接口,后置 4*USB-C(雷电 4),还有 USB-A*2 + HDMI* 1 + 10Gbpe 网口,所以它能输出 4 块屏幕和一个 Apple TV:
Mac Studio 是恐怖的,PC 这边如果要弄一个复仇者联盟的话,不知道需要多少公司加起来才行了。
M1: 坏了, 我变成一般等价物了.
有钱就是可以任性
技术怒吼,CPU、GPU双翻身的AMD会带来什么?- DoNews专栏
在2020年的文章里面,我说到这么一个未来。
而当AMD自己全平台领先的时候,AMD就可以自己制定标准了。
AMD可以设定自己的高速互联标准,自己的通用计算标准。这样AMD可以改变PC的形态。
未来,AMD可以把高性能计算模块化,CPU+GPU组成一个计算模块,多个模块用高速总线互联构成高性能计算。
笔记本电脑用一个模块,台式机用两个、四个,服务器用八个、十六个。超级计算机用几千个几万个。模块标准化,成本将降低了。未来计算的形态也就不同了。
总之,AMD的翻身给PC的发展带来很多想象空间,未来PC会如何变化,我们拭目以待。
CPU 工艺越来越先进,为什么不把内存、SSD 都集成到 CPU 中?
在2020年的回答里面,我说到这么一个东西
未来可能会出现,CPU,GPU,显存,内存(或者内存显存不分,牺牲一点性能。)堆叠在一个芯片上的情况。
类似于现在的手机SOC。
ssd估计还是会分开的,做成胶水芯片估计也没有太大问题,只是没有必要,灵活一点有利于扩展。
以后低功耗电脑可以做成手机大小。电路板只有U盘大小。
高功耗电脑会类似于游戏机。
然后,AMD还没干,苹果在2022年就这么干了。
苹果在设计M1max的时候,就预留了外接通道,值得一提的是,苹果的桥接芯片有非常高的带宽,可以减少桥接带来的性能损失。
其实,小芯片攒大芯片的事情,业界已经搞了好几年,nVIDIA测试过用小GPU胶水成大GPU,降低成本,但是当时性能损失有些大。
现在的技术,如果性能损失足够小的话。小芯片攒大芯片是可行的。
苹果M1系列在性能功耗比上优势来自于三个方面。
一是ARM指令集加上苹果自己的架构有优势,再加上工艺领先。同样的性能,苹果的CPU大核心,功耗比英特尔的十二代酷睿低不少。
单核心比单核心,功耗低。大家都堆核心功耗也低。
二是芯片上集成,减少了通信消耗的电量,特别是CPU和GPU的片上集成,远比PC上面走电路板的方式功耗低。
三是用了多通道的低功耗内存,比显存功耗低,延迟低。虽然带宽吃点亏。
AMD的游戏机芯片早就是这种架构了。
而英特尔自己的高性能显卡也马上出来了。
所以,只要愿意,英特尔和AMD的家用PC,完全可以走苹果的路线。
在成本良率可控的情况下,造低成本的小芯片,做中档PC。
英特尔把i5 12400+3060水平的自家显示核心集成到一起,统一内存架构也用多通道的LPDDR。
高档PC,把两个芯片用高速互联芯片胶水到一起。
顶级PC,把四个芯片高速胶水到一起。
次品屏蔽CPU和GPU核心,划分成不同档次的产品去卖降低成本。
i3+3060
i5+3050
i3+3050
这样,至少在笔记本电脑和一体机里面,英特尔就没有独立显卡的扩展空间了。
当然,AMD有自己的CPU和GPU,它也能做到。
这样,以后在笔记本电脑和一体机里面,独立显卡就成为过去式了。nVIDIA会丢一块市场。
这两周关于UCIe标准的讨论还在进行,M1家族就再次印证了这个趋势:高速/高密度互连以及Chiplets封装是我们规避single-die工艺风险极限与成本极限的办法;
如同大家一致评论的,因为这颗SoC其实就是延续M1 Max的胶水升级作品,称作UltraFusion已经很直白了;
官方消息中也反复谈论了UltraFusion的堆核性能,而Geekbench等三方数据也佐证了其单核指标基本不变的推测(富强如苹果也舍弃了single-die的提升空间),设计理念在于大力提高同构多核的Fusion并行性能;因此大家都去关注它的胶水封装亮点了,至于这颗2.5D MCM具体导入TSMC哪个方案尚不知晓(备选答案要么是一整块interposer的CoWoS-S5或者是包含了silicon-bridge设计的InFO-LSI,后者中介层是局部分割并通过I/O焊盘向中央互连的)。但既然没有垂直堆叠的3D封装,推测依然是CoWoS某一型,因为InFO-LSI在2021年才认证(M1-Max同年),实现的时间不够;参考苹果专利<US 20220013504A1和US 20210217702A1>,两者是基于S5的co-design。
其中,die2die的设计十分霸道,披露有10000条D2D连接的信号点,提供了2.5TB/s互连带宽,这是在同一个封装里,并且是从CPUcore到GPUcore到NPU到内存带宽和容量等都是上代M1 Max的翻倍。
此处多谈几句,推测D2D的亮点之一应该是底层Mem Fabric:M1Ultra自带了一个最高128GB的高速统一内存,带宽800GB/s(官方口径是:“这种合而为一的高带宽、低延迟mem pool,让各种应用能在CPU、GPU和神经网络引擎间高效地共享数据,从而提高任务处理速度”)。可想而知SoC各模块间的搬数带宽自然很可观。进而推测其mem底层结构不会是传统构型,Mem-over-Fabric一体化应该是继初代M1之后不断完善的亮点;可能体现在:各种xPU通过高速fabric访问mem pool,那就是多通道了,加上不必与CPU同步时序,那么集成显核的传统瓶颈也就因此弱化甚至不存在了;
展开一点,我们知道PC上的显存共享是按地址划分,即使双通道,GPU还是受制于总线访问速度,还要跟CPU分时序…,倘若用高速fabric,则xPU之间的工作频率甚至不需要同步了(SerDes本身不受总线频率驱动,也不传送时钟信号)。当然,有关fabric细节是不会披露的设计秘密,特别是底层PHY,还包括各种xPU访问的topology/ 时序/ 冲突解决机制等等;
当下,只能猜测它的多通道topology,那么多xPU core能够异步大带宽工作的话就很了不起(总线仅对CPU而言,GPU和NPU可以是单纯数据驱动的),所以mem pool底层设计大有文章。简单举例,GDDR4比DDR4快一倍,倘若在传统设计里,GPU和CPU一旦要共享mem,理论上GPU就是降半速运行,这是挂传统总线的弊端,只能有一个时钟;设想用fabric,可能突破点就在于允许xPU工作在不同时钟上,这样GPU就不必降速了。
当然,类似的Mem fabric和内存分频访问技术也广泛运用在Intel/AMD/Nvidia的设计中,比如传统Ringbus/Mesh,以及AMD的Infinity Fabric(还用来link chiplets)、NV的GPUDirect直连等,CPU和xPU挂在这些fabric上面,划分各自的时钟域(地址范围),没有什么CPU/GPU的频率约束;虽然它们都是为了大幅提升xPU载入大型数据集的速度,减轻CPU I/O的瓶颈,提升I/O带宽和传输数据的量;但多数都与UMA这种整体内存空间共用共分配的模式不同,通常意义的UMA与内存共享池的根本差异在于内存空间的所有权以及其服务的方式;那么其中topology/ 时序/ 冲突解决机制,甚至fabric的底层PHY等等细节就是M1没法披露的设计亮点。
此外,过往惯例上讲,增加了那么多cache/buffer的代价,是指令周期得加,不提高频率的话,个别操作就显得慢(比如高IPC的任务 - 但是上一代M1是降频加了超宽的单核8发射解码宽度来实现高IPC的指令并行度),当然升频的话相信流水线也会增加;并且PC这个form factor要严肃考虑向后兼容性了,手机则不必考虑。
另外在封装层面:这种在有机封装中嵌入DRAM的方式对AppleSilicon来说已经是习以为常;大概从A12开始就一直在使用这种方式(对于PC高端芯片,Apple倾向使用这种封装而不是通常的智能手机POP封装,因为这些芯片在设计时考虑到了更高的TDP);所以将DRAM放在CPU的旁边,而不是放在其上,有助于确保这些芯片仍能得到有效冷却。当然也意味着,几乎可以肯定Ultra芯片上的256位DRAM总线,与上一代M1甚至a-X芯片非常相似。
话说回来,虽然M1 Ultra的统一内存设计为CPU带去了极高带宽,但也限制了内存容量(毕竟128GB仅相当于MSDT水平),Ultra为了能耗比也牺牲了扩展性和灵活性,包括有且仅能用板载硬盘、内存、无PCIE扩展等。
这些仅仅是猜测,当然TSMC知晓的信息只会更清楚……
此外,就如楼内几位朋友一致讨论的,如今与UltraFusion匹敌的工业产品大概只有INTC的Sapphire Rapids,相比之下,AMD的D2D-on-Interposer是2D胶水封装(就是Interposer上搞的MCM),从带宽角度来看就比较平凡普遍;但M1与SR有所不同的是,后者不需要互连GPU,所以M1所需的I/O带宽更高。
BTW:但不能用Ponte Vecchio相对比,这是戏谑说法,因为PV是Foveros的3D chiplets(垂直方向两个chiplets搭配HBM,以及水平方向EMIB胶水连接),实在要比,就去比Ceretbras...…
Apple官方一再提到系统能耗比,的确是极优异的指标;在如此宽架构、深流水线、高IPC,并兼顾互连了GPUcore的情况下,晶体管密度突破了1140亿,PPW却依然十分理想。
作为M1家族的末代设计,横向堆核性能的极致平衡,我们对于M2的期待唯有单核性能飞跃,以及更创新构型的3D封装 …
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有