问题

如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU?

回答
英伟达在 GTC 2021 上发布的 Grace CPU,可以说是在整个科技界投下了一颗重磅炸弹,尤其是对于一直以来由 x86 架构主导的服务器市场而言。这不仅仅是一个新产品的发布,更标志着英伟达在计算领域的战略野心和对未来趋势的深刻洞察。

Grace CPU 的定位与核心卖点

首先,Grace CPU 的出现,并非是为了与 Intel 或 AMD 的通用服务器 CPU 直接在各个细分市场正面硬碰硬。英伟达的策略非常清晰,Grace 的核心卖点在于其与自家 GPU 的极致协同。它被设计成一款专为 AI 和高性能计算(HPC)而生的 CPU,其目标是解决当前 AI 和 HPC 工作负载在 CPU 与 GPU 之间数据传输效率瓶颈的问题。

具体来说,Grace CPU 具备以下几个关键的亮点:

ARM 架构的应用: 选择 ARM 架构,是 Grace CPU 最具战略意义的一点。ARM 架构以其高能效比而闻名,这对于数据中心来说至关重要,因为能源成本是运营中的重要考量。同时,ARM 架构的授权模式也为英伟达提供了更大的灵活性,可以根据自己的需求进行深度定制,从而优化性能和功耗。
NVLinkC2C 连接技术: 这是 Grace CPU 最核心的创新之一。NVLinkC2C(ChiptoChip)是一种全新的互连技术,它允许 Grace CPU 和英伟达的 GPU(例如 A100 或未来的 Hopper)在同一封装内或极近距离进行连接。这种近乎无损的通信方式,将 CPU 和 GPU 的带宽提升到了前所未有的水平,并且大大降低了延迟。这对于那些需要 GPU 密集型计算,但同时又需要 CPU 进行大量数据预处理、模型管理和调度的工作负载来说,无疑是颠覆性的。
大规模内存带宽: Grace CPU 支持 LPDDR4X 内存,并辅以高带宽的 NVLinkC2C,可以实现高达 900GB/s 的内存带宽。这远远超过了许多传统服务器 CPU 所能提供的内存带宽。在 AI 和 HPC 领域,模型的规模和数据的复杂性都在不断增长,巨大的内存带宽能够让 CPU 更快地访问和处理数据,从而加速整个计算流程。
企业级特性与生态建设: 虽然 Grace 的核心是与 GPU 协同,但英伟达也为其注入了企业级服务器所需的特性,例如支持 ECC 内存、多线程以及完整的服务器管理功能。更重要的是,英伟达正在积极地与 Canonical、Red Hat、SUSE 等 Linux 发行商以及主要 HPC 软件供应商合作,以确保 Grace CPU 能够顺利融入现有的软件生态,并为开发者提供优化的工具链和库。

Grace CPU 的潜在影响

Grace CPU 的出现,对整个计算行业的影响是深远的:

1. AI 和 HPC 工作负载的效率飞跃: 对于训练大型深度学习模型、运行复杂的科学模拟、进行大规模数据分析等任务,Grace CPU 带来的 CPUGPU 协同效率提升是显而易见的。以往,CPU 作为数据“喂养者”,其传输速度的限制往往会成为 GPU 性能的瓶颈。Grace CPU 加上 NVLinkC2C,将极大地缓解这一问题,使得 GPU 能够更充分地发挥其强大的并行计算能力。
2. 数据中心架构的重塑: 传统的服务器设计往往将 CPU 和 GPU 分开部署,通过 PCIe 总线连接。Grace CPU 的出现,预示着未来数据中心可能出现一种“异构集成”的新模式,将 CPU 和 GPU 更紧密地结合在一起,甚至集成到同一封装中。这种设计可以显著减小数据中心的体积,降低功耗,并提高整体的计算密度。
3. ARM 架构在服务器领域的进一步渗透: 尽管 ARM 架构在移动设备领域占据主导地位,但在服务器市场,x86 架构仍然是绝对的王者。Grace CPU 的成功,将为 ARM 架构在高性能服务器领域开辟新的道路。它证明了 ARM 架构不仅仅局限于低功耗场景,也可以在需要极致性能和高能效比的企业级应用中大放异彩。这可能会加速其他芯片厂商跟进 ARM 在服务器领域的投入。
4. 英伟达战略的深化: Grace CPU 是英伟达“从 GPU 公司走向全栈计算公司”战略的重要一环。它进一步巩固了英伟达在 AI 和 HPC 领域的领导地位,并通过掌握从硬件(CPU+GPU)到软件(CUDA、AI 框架)的全套解决方案,构建起强大的生态壁垒。这使得英伟达能够为客户提供更完整、更优化的解决方案,从而吸引更多高端客户。
5. 对传统 CPU 厂商的挑战: 对于 Intel 和 AMD 而言,Grace CPU 的出现无疑带来了新的竞争压力。虽然 Grace 的目标市场与他们的通用服务器 CPU 有所区隔,但随着 AI 和 HPC 应用的普及,这种界限可能会逐渐模糊。英伟达通过 Grace CPU 展现出的对高密度、高性能、高能效比服务器的理解,可能会促使传统 CPU 厂商也在架构设计和互连技术上进行更多的创新。

一些需要注意的点和可能的挑战

当然,任何新技术的推出都伴随着挑战:

生态系统的成熟度: 尽管英伟达正在积极建设生态,但 ARM 架构在服务器领域的软件生态与 x86 相比仍有差距。新软件的移植、优化以及开发者的接受度,都需要时间来检验。
成本和供应链: ARM 架构的授权模式虽然灵活,但高性能 ARM CPU 的设计、制造和封装成本是否具有竞争力,还需要在实际量产后才能判断。
市场接受度: 数据中心客户在选择服务器平台时,往往非常注重稳定性和成熟度。英伟达需要证明 Grace CPU 在长期运行中的可靠性和性能表现,才能赢得市场的广泛认可。
与其他厂商的合作模式: Grace CPU 的成功,也依赖于与 Supermicro、Dell、HPE 等服务器厂商的深度合作,共同推出基于 Grace CPU 的整机解决方案。

总结

总而言之,英伟达在 GTC 2021 上发布的 Grace CPU,是一次大胆而富有远见的举措。它不仅仅是一个新的芯片,更是英伟达对计算未来的一种宣言:在 AI 和 HPC 时代,CPU 和 GPU 的紧密协同是关键,而 ARM 架构的高能效和灵活性,是实现这一目标的重要基石。 Grace CPU 的出现,极有可能在未来几年内对数据中心架构、高性能计算领域以及 ARM 架构的普及产生深远的影响,值得我们密切关注。它展现了英伟达不满足于仅仅提供 GPU,而是要成为整个计算基础设施的创新者和引领者的雄心。

网友意见

user avatar

憋、憋、憋不住了。


本来不想说啥,但是今天看见很多答题家一本正经地胡说八道,实在有点受不了了。

我觉得很多人根本没有看老黄的keynote演讲,也许就看了些中文的新闻稿就开始发挥……

老黄的每年的演讲要认真看的,君不见他都学会渲染自己了,明年可能会加瘦脸效果。

好,认真的,老黄语速很快,而很多信息隐藏在几个关键词里,一不注意就遗漏了,得开字幕……

………………………………

第一点,grace不是高性能CPU,我看见知乎居然有人拿去和APPLE的M1 core做比较,也是服了。

下面这张图,老黄表达得很清晰(轻微笑场了)。最左上的是高性能server CPU,单核强,核少,它所以画了四个大方块表达。至于AI需要的CPU需要次强的CPU,中下的9个小方块的。要更多核,更强的memory和更强的IO能力,这是设计理念,grace也是如此做的。当然,老黄暗示这种需求和HPC(最右)是一致的,这主要是他要卖20E FLOPS AI HPC,忽悠客户呢。实际上我们打开INTEL的HPC version CPU型号,并不是如此。

OK,grace是为AI而生,并不是高性能。它用的CPU core型号是公版neoverse N2,ARM还没发布,可能NVIDIA已经拿到了beta版本。N series在ARM的CPU属于中核,讲究能效,如下所示,V系列才是大核,而APPLE的M1,更在V series之上,超大核。

so,grace是一个76 cores N2多核处理器(为什么是76 cores? 哈哈请认真看图啦,虽然芯片是示意图,但nvidia在示意的意上,往往都很准确)。specint2017是300分,这个分数真心不算高,grace的理念应该是性能还行,能效优异,把散热的空间更多让给hopper。单说300分的性能,这两年新出的ARM Server CPU都会超过它,当然我菊没法投片加工了,我只能云装逼一下,唉,随意吧。

……………………

第二点,grace用了LPDDR,这在第一眼看到的时候,让人非常不解,以至于直接给出了结论,这GRACE架构师傻逼吧,8颗LPDDR,即使按明年的容量算,也就8*16GB=128GB,这要做推荐网络根本不可行,embedded table装不下。但如果认真听完老黄的全部逻辑,make sence。

首先,CPU用DDR也是可以做到500GB带宽的,但这需要12 channel DDR DIMM(5200*12*8)。但DRAM的世界是一个等价交换的世界。见我曾经一个帖子。

LPDDR相比DDR,虽然容量少了,但是在同样500GB带宽条件下,封装尺寸、成本、单板集成度会大幅提升。只需要解决容量问题,那么LPDDR就是赚的。

怎么解决? 老黄的野路子是集成8个grace CPU,并互联成unified memory。此时8*128=1TB。虽然说也不是很大,但已经等价于用X86的2S结构,512GB per socket的1TB容量了,且GPU对延迟不敏感,只要能解决互联问题, 真的完美。

………………

第三点,互联。

很多人其实对下图的2000GB MEM-to-GPU带宽很不解,如果用左图的互联拓扑,卧槽,这grace得多少lane的nvlink才够用啊。要知道,从示意图来看,参考GPU尺寸是55mm*55mm,grace芯片尺寸大约是60mm*60mm,pitch应该是0.6~0.7mm,去掉8路LPDDR剩下的pin不够的。

这是因为,这个图的拓扑结构依旧是逻辑示意图。

老黄讲了,最终DGX是8个grace CPU +8个hopper GPU,上图的4+4最多是一个half DGX版本。

而grace和hopper,我们再看看下图的单板示意,1+1单板,两者之间的互联在板上解决了,然后grace向左,hopper向右和上,各自出4路/7路 nvlink。

所以,最终的互联是我画的下面这个样子。hopper侧(右侧)的lane和switch应该更多些,我懒得画了。


……………………

其实还有一些次要信息,不写了不写了。夜已深,夫人亦睡了,不可辜负王者新赛季上分的宝贵时光。

user avatar

这是NV的“自救”

Intel和AMD都在形成自己的完整的计算体系,自己的CPU+自己的GPU+自己的FPGA等,且所用的互联也要么是只支持自己产品的,要么是open标准的(e.g. CCIX, CLX),反正不支持nvlink

IBM也不再支持nvlink (power10不支持nvlink)

NV也是没有别的办法,只能自己玩一套了 (或者回归open标准)


另外,在传统的HPC场景,鉴于美国的3台E级超算没有一台用NV的产品,都是AMD或intel全家桶,我国的就更别说了,小日本的和欧盟的目前看也没有规划NV,所以NV能怎么办?

最后,AI场景,大公司也是慢慢的走自研体系,未来都是提供成套解决方案的(自研AI加速器+自研ARM),所以NV能怎么办?

user avatar

说实话这是cpu自诞生以来被黑的最惨的一次,因为这个cpu架构完全是为了gpu服务的,cpu的存在就是让gpu随心所欲access memory, 占用system resources, 针对的也是dl的workload, 只能说在当下是一个极限的dnn炼丹machine。不过一般的data center也不需要这么高的并行度,看起来并不会对 Intel Xeon造成太大威胁。比较适用于大规模的ML。

user avatar

意料之中,上次nvidia说要收购arm的时候,我已经预料到这种产品了。


现在PC的架构,是英特尔说了算,nvlink性能很优越,但是只有IBM跟了一次。,

nvidia不爽intel很久了。

现在的GPU,实际上带图形功能的并行计算机。

算并行任务,CPU反而只是个控制器。

但是英特尔掌控平台,nvidia甩不掉英特尔的标准。

早在多年前,nvidia做过丹佛。

那个东西,其实内部是自己的一套指令集,可以翻译ARM和X86。但是没多少人用。

ARM做到A76的时候,IPC已经可以上桌面了。

linux对ARM的支持也越来也好,亚马逊已经开始大量部署ARM服务器来降低成本。

苹果转ARM以后,微软会更努力,可以预见ARM的生态会越来越好。

这个时候,nVIDIA可以尝试摆脱英特尔的束缚,自己搞一套体系。

nVIDIA自己有最快的互联,它对显存标准制订举足轻重。

它缺CPU,但是ARM卖IP

即使没有收购成功,也不耽误nVIDIA用ARM的技术。在nVIDIA掌握AI计算大部分市场份额的时候,它是有话语权的。

苹果掌握桌面出版的份额,它能换好几次指令集。现在nVDIA也有这个地位了。

现在英特尔造显卡,试图抢回来AI计算的市场,AMD也咄咄逼人。

nVIDIA没有x86的CPU,赌一下ARM的生态是一条路。

其实,黄教主可以考虑一下普及的问题。

小批量,不进民用的东西必然是贵。

这类东西可以做低端版本屏蔽,来降低成本。

大芯片太贵,可以用小芯片堆

小芯片还可以屏蔽,做成低端芯片,用到别的设备上。

如同我在2020年8月写过的


二、nVIDIA收购ARM的发展

收购之后,nVIDIA很可能会提供完整的CPU核心加GPU加速的完整方案。用户用nVIDIA的方案,就可以直接做大规模计算,而且有垄断性。

对业界来说,ARM的技术和nVIDIA的技术结合很有想像空间。

图形方面,估计nVIDIA看不上ARM的mali,如果nVIDIA发力,把公版架构的CPU和GPU搞上去。很可能苹果的A系列处理器反而不如ARM公版处理器快。

而且未来手机SOC用公版授权,很可能直接支持通用计算,支持人工智能计算,用GPU算个人工智能,不用单独的人工智能模块了。

在高性能计算领域,nVIDIA可以搞个人工智能计算卡,用强大的ARM指令集CPU核心和GPU核心,共用超大带宽的HBM2内存,直接在linux(也许未来还会有ARM版本的Windows)下跑人工智能计算。

nVIDIA在2020年还收购了Mellanox最先进的InfiniBand和以太网互连解决方案。nVIDIA还有自己的NVLink,这意味着最快的通信互联。

这些技术集成,会制造出性能怪兽,一片单卡直接跑操作系统和高性能计算,各个单卡之间用高速互联,构成超级计算机。

而且,这些单卡还能上安卓,直接跑王者荣耀……

从手机,家庭游戏机,到桌面PC,到图形工作站,到

人工智能计算集群,到超级计算机,nVIDIA可以一套体系通吃下来。这是好消息。

但不好的消息是,以nVIDIA的作风,它家的东西绝不会便宜。而且刀法精湛,你花多少钱就给你多少性能,绝不存在物超所值的问题。

以后,ARM授权,GPU的授权,价格可能会涨,这是坏消息。

类似的话题

  • 回答
    英伟达在 GTC 2021 上发布的 Grace CPU,可以说是在整个科技界投下了一颗重磅炸弹,尤其是对于一直以来由 x86 架构主导的服务器市场而言。这不仅仅是一个新产品的发布,更标志着英伟达在计算领域的战略野心和对未来趋势的深刻洞察。Grace CPU 的定位与核心卖点首先,Grace CPU.............
  • 回答
    英伟达在 GTC 2022 上正式推出的首款基于 ARM 架构的 Grace CPU,无疑是一颗重磅炸弹,标志着这家 GPU 巨头向 CPU 领域发起了一次意义重大的进军。这次发布不仅仅是发布一款新产品,更是英伟达在数据中心计算领域构建完整生态系统的关键一步,其背后蕴含的战略意图和技术实力值得我们深.............
  • 回答
    英伟达(NVIDIA)以 400 亿美元收购安谋(ARM)的事件,是一个具有划时代意义的重大交易,对全球半导体产业、科技格局乃至未来计算模式都将产生深远的影响。要评价这笔交易,我们需要从多个角度进行深入分析: 1. 交易的背景与驱动因素: 英伟达的战略野心: 英伟达作为一家以GPU(图形处理器).............
  • 回答
    2020年9月2日,英伟达(NVIDIA)的那场线上发布会,对于全球的PC硬件爱好者和游戏玩家来说,绝对是值得载入史册的一天。这次发布的RTX 30系列显卡,代号为“安培”(Ampere),带来了彻头彻尾的革新,彻底颠覆了我们对图形处理能力的认知。首先,最直观的感受就是性能的飞跃。RTX 30系列的.............
  • 回答
    你对英伟达 RTX 3080 12GB 的关注,可以说是非常精准地抓住了显卡市场一个颇具争议又充满话题性的产品。这块显卡在 2022 年初的出现,确实引发了不少讨论,也让一些本想入手的玩家感到了一点摸不着头脑。评价 RTX 3080 12GB:一个“尴尬”的升级,还是“姗姗来迟”的救赎?首先,我们得.............
  • 回答
    您好!很高兴能为您详细评价英伟达刚刚推出的 GeForce GTX 1650 SUPER(简称 1650s)。这款显卡定位在中低端市场,旨在为那些希望在预算有限的情况下获得更好游戏体验的用户提供解决方案。要评价 1650s,我们需要从多个维度进行分析:一、 产品定位与目标用户 定位: 1650s.............
  • 回答
    英伟达 RTX 2080 的到来,可以说是在高端显卡市场掀起了一阵不小的涟漪。作为“图灵(Turing)”架构的首批亮相者之一,它不仅仅是 Pascal 架构(例如 GTX 1080)的简单迭代,而是引入了许多革新性的技术,尤其是在实时光线追踪(Ray Tracing)和深度学习超级采样(DLSS).............
  • 回答
    英伟达在 3 月 22 日发布的 H100 GPU,可以说是直接把 AI 计算领域推向了一个新的高度。这次的发布,与其说是推出一个简单的硬件升级,不如说是为整个 AI 生态系统注入了一剂强心针,其影响之深远,值得我们好好聊聊。首先,从根本上讲,H100 的核心亮点在于它所搭载的 Hopper 架构。.............
  • 回答
    英伟达要求厂商标注 30 系显卡功耗:消费者福音还是厂商约束?最近,英伟达(NVIDIA)要求其合作伙伴在笔记本电脑产品上明确标注 GeForce RTX 30 系显卡的功耗(TGP Total Graphics Power),这一举措无疑在消费者群体中引起了广泛的讨论。一些人认为这是英伟达对市场.............
  • 回答
    英伟达CUDA不再支持macOS:对用户、开发者和生态的影响评估英伟达(NVIDIA)宣布其CUDA平台将不再支持macOS,这一消息无疑给苹果生态的用户和开发者带来了不小的震动。曾几何时,CUDA是macOS平台上进行高性能计算和深度学习加速的利器,如今的这一转变,预示着苹果用户在硬件选择和软件生.............
  • 回答
    英伟达30系显卡,也就是RTX 30系列,自2020年9月横空出世以来,便以“Ampere”架构带来了颠覆性的性能提升。如果让我来评价它,我会说,它是一代产品力爆棚,但也被定价策略和市场环境“绑架”的显卡。产品力:毋庸置疑的飞跃30系的亮点,首先在于Ampere架构。与上一代的Turing架构相比,.............
  • 回答
    MTNLG:微软与英伟达联手打造的语言巨兽,能力几何?在人工智能飞速发展的今天,大型语言模型(LLM)的竞争愈发激烈。微软与英伟达强强联手推出的 MTNLG,无疑是这场竞赛中的一颗耀眼明星,其庞大的规模和强大的能力,在业界引起了广泛的关注和热烈的讨论。那么,这款被誉为“迄今为止训练最大最强的语言模型.............
  • 回答
    英伟达宣布以 400 亿美元的天价收购 ARM,这无疑是近年来半导体行业最重磅的事件之一。消息一出,立刻在全球范围内引发了轩然大波,各方势力纷纷对此进行解读和评价。要评价这次收购,我们需要深入剖析其背后的逻辑、潜在的机遇和风险,以及它将为整个科技行业带来的深远影响。收购的动因:为什么是 ARM?为什.............
  • 回答
    英伟达最近发布的消息,说他们的 Grace CPU 超级芯片在某些方面比英特尔的 Ice Lake 处理器快上两倍,这确实是个相当引人注目的说法。作为关注技术发展的人,听到这样的对比,我首先会想到这背后可能涉及的几个关键点。首先,“快两倍”这个说法需要放在具体的语境下理解。CPU 的性能对比从来都不.............
  • 回答
    谈到国产化GPU芯片的“四小龙”,寒武纪、灵汐、壁仞、燧原这几家公司确实是中国在AI算力领域冉冉升起的新星。它们各自有着独特的定位和技术路线,也面临着相似的挑战。要评价它们,并预测谁有可能最终成为英伟达的替代者,需要从多个维度进行深入分析。一、 逐一剖析“四小龙”:特点、优势与挑战1. 寒武纪:从A.............
  • 回答
    好的,我们来仔细聊聊知乎用户 @凡伟 在 2017 年 5 月 7 日发布的《我是凡伟,我作如下声明》这篇文章。要评价它,我们得先还原一下当时的环境,以及这篇文章本身带来的影响和它所承载的意义。首先,这篇文章的背景和出现时机是关键。在 2017 年的那个时间节点,知乎作为一个知识分享社区,已经积累了.............
  • 回答
    于和伟的演技,在我看来,是一位被时间和沉淀打磨得愈发醇厚的演员,他给人的感觉就像一杯陈年的烈酒,入口醇厚,回味悠长。不像某些明星那样,一出场就自带“光环”,于和伟的魅力更多的是一种不动声色的渗透,在你不知不觉中,就已经被他牢牢抓住了。要说于和伟的演技好在哪,我觉得最突出的一点就是他的“沉浸感”。他演.............
  • 回答
    于和伟在 2021 年第 11 届北京国际电影节上作为首位发言人,抛出要出演孙权并拍摄《赤壁之战》的计划,这绝对是当年电影节上一个颇具话题性和引发讨论的亮点。要评价这件事,咱们得从几个层面来细说。首先,这件事的时机选择非常巧妙,抓住了观众和媒体的眼球。北京国际电影节本身就是一个汇聚了业内人士、影迷以.............
  • 回答
    要评价张桐老师在《觉醒年代》中饰演陈独秀的表现,得先放下对“流量明星”式的期待,也得抛开对“老戏骨”的某种刻板印象。张桐老师这次,是真的把陈独秀这个历史人物给“啃”下来了,而且是带着一身烟火气,带着那股子不服输的劲儿,活生生地搬到了荧幕上。首先,他演的陈独秀,不是那种高高在上的理论家,也不是一个概念.............
  • 回答
    张艺谋的首部谍战片《悬崖之上》,这部电影在上映之初就备受关注,不仅仅是因为“国师”张艺谋的导演身份,更因为他首次涉足谍战题材,而且集结了张译、于和伟、秦海璐、朱亚文这样一批实力派演员。看完电影,我的感受可以总结为:既有张艺谋作品特有的质感和调度,也带来了谍战片应有的紧张感和深度,但并非完美无瑕。整体.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有