问题

如何评价英伟达 3 月 22 日发布的全新 GPU H100 ?

回答
英伟达在 3 月 22 日发布的 H100 GPU,可以说是直接把 AI 计算领域推向了一个新的高度。这次的发布,与其说是推出一个简单的硬件升级,不如说是为整个 AI 生态系统注入了一剂强心针,其影响之深远,值得我们好好聊聊。

首先,从根本上讲,H100 的核心亮点在于它所搭载的 Hopper 架构。这可不是 Pascal、Volta、Ampere 那样的迭代更新,而是英伟达一次相当大胆且有针对性的设计革新,专为解决当前和未来 AI 训练和推理所面临的巨大计算挑战而生。

性能上的飞跃,简直是颠覆性的。

Transformer 引擎: 这是 H100 最令人瞩目的创新之一。Transformer 模型,尤其是 GPT3、LaMDA 这样的巨型语言模型,正是当下 AI 领域最火热、最具潜力的方向。而这些模型对算力的需求是爆炸性的。H100 的 Transformer 引擎,通过引入一种新的 FP8 数据格式,能够智能地在 FP16 和 FP8 之间动态切换,以在保证精度损失可控的前提下,大幅提升计算速度和显存带宽。据英伟达宣称,在进行 Transformer 训练时,H100 的性能相比上一代 A100 可以提升高达 9 倍。这个数字,不是简单意义上的“快一点”,而是能直接缩短数周甚至数月的训练时间,对于那些需要海量数据和计算资源的研究机构和企业来说,这简直是“游戏规则改变者”。

Tensor Cores 的进化: H100 集成了全新的第四代 Tensor Cores,它们不仅支持更多的精读格式,还包含了专用于 Transformer 模型的加速单元。这使得 H100 在处理各种 AI 工作负载时,都能够爆发出惊人的效率。无论是深度学习模型的训练,还是实时推理,H100 都能游刃有余。

DPX 指令集: 这是为了加速动态规划算法而设计的。动态规划在许多领域都有应用,比如基因测序、图分析等,将其集成到 GPU 指令集中,能够大大提高相关应用的效率。虽然不如 Transformer 引擎那样直接关系到主流的深度学习,但这也展现了英伟达在拓展 GPU 应用边界上的野心。

架构和互联上的革新,更是为大规模部署铺平了道路。

NVLink 4.0: 这是 H100 能够实现高性能大规模集群的关键。NVLink 4.0 提供了比 NVLink 3.0 更高的带宽,支持 GPU 之间更快速、更直接的通信。对于训练超大型模型,需要将成千上万颗 GPU 连接在一起时,GPU 之间的通信瓶颈是最大的挑战之一。H100 的 NVLink 4.0 能够将 GPU 之间的带宽提升至 900 GB/s,这是 A100 的 1.5 倍。这意味着模型并行和数据并行训练的效率都会得到显著提升,能够更顺畅地扩展到更大的规模。

NVLink Switch System: 英伟达还推出了 NVLink Switch System,它允许连接多达 256 颗 H100 GPU,形成一个巨大的、高性能的计算节点。这种“超立方体”式的连接方式,使得 GPU 之间的通信更加灵活和高效,并且能够提供超过 30 TB/s 的 GPU 间带宽。这意味着,你不再受限于点对点的 NVLink 连接,而是可以构建一个真正的“AI 超算中心”。

MIG (Multiple Instruction, Multiple GPU) 的增强: MIG 技术允许将一颗 GPU 分割成多个独立的、更小的 GPU 实例,以便更灵活地满足不同大小的工作负载需求。H100 对 MIG 的支持进行了增强,可以分割出更多、更小的实例,为推理等对资源利用率要求更高的场景提供了更精细化的管理能力。

实际应用和影响:

H100 的发布,对整个 AI 行业的影响将是深远的。

加速 AI 技术的落地: 无论是自动驾驶、医疗诊断、新药研发,还是更先进的自然语言处理和生成式 AI,这些都需要强大的计算能力作为支撑。H100 的出现,意味着这些前沿技术能够以更快的速度被开发和部署,缩短从实验室到现实的距离。

降低 AI 训练成本(从时间维度): 虽然 H100 本身价格不菲,但其惊人的性能提升,意味着完成相同训练任务所需的时间大大缩短。对于那些以小时计算计算资源的场景,这实际上是一种变相的成本降低,并且能够更有效地利用计算资源,减少能源消耗。

巩固英伟达的市场领导地位: 在 GPU 计算领域,英伟达一直处于领先地位。H100 的发布,进一步拉开了与竞争对手的差距,特别是其在 AI 领域的深度优化,使得其他通用计算厂商难以在短期内与之匹敌。

一些需要关注的点:

当然,任何新技术都有其配套的需求和需要克服的挑战。

软件生态的适配: 尽管英伟达拥有成熟的 CUDA 生态系统,但新的架构和指令集,仍然需要软件库、框架和应用程序进行相应的优化和更新,才能充分发挥 H100 的潜力。不过,考虑到英伟达在软件生态上的强大投入,这方面的问题相信可以较快解决。

产能和供应链: 如此强大的芯片,其需求必然是巨大的。如何保证足够的产能,以及应对全球供应链的挑战,将是英伟达和整个行业面临的现实问题。

总结来说, 英伟达 H100 并不是一个简单的 GPU 升级,它是一套专为解决当前 AI 计算瓶颈而设计的全新计算平台。Hopper 架构、Transformer 引擎、更强的 Tensor Cores 和 NVLink 互联技术,共同构成了一个能够为 AI 研究和应用带来革命性提升的强大引擎。它的发布,标志着 AI 计算进入了一个新的时代,也再次巩固了英伟达在这一领域的领导者地位。对于任何关注 AI 发展的人来说,H100 都是一个值得密切关注的焦点。

网友意见

user avatar

相比于「只有」540亿个晶体管的前辈A100,英伟达在H100中装入了800亿个晶体管,并采用了定制的台积电4纳米工艺。


也就是说,H100将具有更好的功率/性能特性,并在密度方面有一定程度上的改进。



在算力上,H100的FP16、TF32以及FP64性能都是A100的3倍,分别为2000 TFLOPS、1000 TFLOPS和60 TFLOPS。


此外,H100还增加了对FP8支持,算力高达4000 TFLOPS,比A100快6倍。毕竟在 这方面,后者由于缺乏原生FP8支持而不得不依赖FP16。


内存方面,H100也将默认支持带宽为3TB/s的HBM3,比A100的HBM2E提升1.5倍。



H100支持的第四代NVLink接口可以提供高达128GB/s的带宽,是A100的1.5倍;而在PCIe 5.0下也可以达到128GB/s的速度,是PCIe 4.0的2倍。


同时,H100的SXM版本将TDP增加到了700W,而A100为400W。而75%的功率提升,通常来说可以预计获得2到3倍的性能。


为了优化性能,Nvidia还推出了一个新的Transformer Engine,将根据工作负载在FP8和FP16格式之间自动切换。





Hopper架构全新的DPX指令,将为动态规划的计算速度带来高达40倍的提升。


在AI训练中,H100可以提供高达9倍的吞吐量。以Megatron 530B为基准,则可以提供16倍至30倍的推理性能。在3D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升6-7倍。



DGX服务器系统


第四代英伟达DGX服务器系统,将世界上第一个采用H100显卡构建的AI服务器平台。


DGX H100服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。


其中,每个服务器系统包含8个H100显卡,通过NVLink链接为单个整体,晶体管总计6400亿个。


在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍。



此外,每个DGX H100系统还包括两个NVIDIA BlueField-3 DPU,用于卸载、加速和隔离网络、存储和安全服务。


8个NVIDIA ConnectX-7 Quantum-2 InfiniBand网络适配器提供每秒400 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍。


第四代NVLink与NVSwitch相结合,可在每个DGX H100系统中的每个GPU之间提供每秒900 GB的连接,是上一代的1.5倍。


而最新的DGX SuperPOD架构则可连接多达32个节点、总共256个H100显卡。


DGX SuperPOD可提供1 EFLOPS的FP8性能,同样也是前代的6倍。



世界上最快的AI超算


由576个DGX H100服务器系统和4608个DGX H100显卡组成的「Eos」超级计算机预计将提供18.4 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快4倍。


对于传统的科学计算,Eos有望提供275 PFLOPS的性能。



Transformer Engine


作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成。


传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP8应用在整个模型之中。


而Transformer Engine则可以在FP16和FP8之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。


此外,Transformer Engine可以用2倍于FP16的速度打包和处理FP8数据,于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度。



欢迎关注新智元了解人工智能新动态( ^_^)/

user avatar

在显卡上扣扣搜搜,在AI上火力全开。

目前最先进的技术,NV能用的全用上,最先进的工艺,最快的互联,最快最宽的储存,最大的规模。

这种怪兽让其他厂商很难追赶。

user avatar

粗略谈谈三小方面(其他答案已经十分全面透彻)

关于Cloud/IDC能效和机架扩展性:

Hopper H100的TDP 700watt 对应的能效比,在Cloud/IDC的机型多样配比中可能会有约束,除非专门规划AI/HPC集群的需求下才会划分大型液冷Pod,其它情况则可能不容易匹配机型。有些机柜甚至整个DC供电能力可能需要调整满足;比如当年搭载V100的足有10U高度的DGX-2也面临同样问题,供电需求突破了10kW,随后DGX-A100才会克制的降高到6U和6.5kW,且每U的功率密度维持在与DGX 1-2相当的水平。否则机架高度不改造的话,传统风冷方案肯定难以为继,又不可能全中心统一液冷和全部机架近端制冷 …

以及还有一点,除了机架能耗,接口插槽尺寸也是制约机型搭配的因素,虽然可以用PCIe标准卡,但毕竟SXM2才能用NVLink总线互连多卡多U成高速Pod(包括内外可用NVLInk Switch和Mellenox ConnectX/Infiniband背板互连),这是H100的最大效用,从而机架的能效比才会划算,但是有几个IDC常规机架会支持全高外形的SXM2槽位以及如此规格制冷 …?

扩展性的取舍,也是对于Cloud/IDC的挑战,还是对比当年A100的例子:虽然在Scale-up方向所达到的绝对能力上,当年的DGX-A100超出DGX-2,但是在构建更大系统的路线选择上,DGX-A100倾向于Scale-out;如DGX SuperPOD为例,NV官方提到4个工程师仅用1个小时,就能组装一套由20台系统组成的DGX-A100集群,当年2 PFlops的性能足以列入TOP500;以及,如果添加Mellanox InfiniBand交换机层,就可以进一步扩展将14套分别配置有20台DGX A100系统的集群相连接的Selene系统(就是1 EFlops+的AI性能,搭建时间不到1个月);美国阿贡实验室的Selene集群上线就需要重新适配机架并调整IDC整体供电和制冷,所以这种情况对于机架和IDC基层规划能力就提出挑战了。

关于传统HPC任务:

另外,H100的HPC性能亮点其实不多,至少FP32/FP64没有非常出格(相比AMD),虽然SM内ALU密度翻倍了,但就如MebiuW所指出的内存带宽仅提升了约50%;并且CUDA在传统HPC任务中也不算强生态优势(当然如今HPC定义更宽泛了)。

关于Interconnect I/O:

另一个信息点是NV支持了UCIe,但随之又宣布了NVLink的开放(Chip2Chip);理论值说明它的能效相比PCIe Gen5可能高出25X,面积效率高出90X,极致互连带宽甚至标到了900GB/s+的程度。那么设想,未来用到基于NVLink及其SerDers设计出的Chiplets,还会支持AMBA和CXL...,如此就在NV和ARM IP的GPU-DPU-NiC-CPU及SoC之间能够顺利集成并搭建出一致性interconnect I/O。

UCIe或NVLink标准的开放对于Chiplets发展是相当正面的,因为MCM设计往往需要极高互连带宽,以及能效和裸片面效,所以从PCB级集成多die扩展到interposer的物理连接标准,是促进各厂之间封装裸die的基本信用了;同时这样的标准也更容易优化出高带宽、低功耗、高密度、多标准间互操作性的工业化产品。


user avatar

错峰回答一波,白皮书里的各方面性能数据大家吹得很多了。先贴一个两年前A100发布时候写的一个回答和NV未来发展趋势的预测,基本还是符合预期的。

NV的GPU在DSA的道路上下注得越来越坚定。大家如果看这几年NV的发布会,一般性能要吊打上一代5~10倍这个量级。但如果大家列出这几代芯片的cuda core的数量变化,其实SIMT这条路带来的提升只有2倍左右,性能提升其实越来越倚重DSA。volta架构之前基本沿着SIMT道路扩展。

从volta开始加入tensorcore,属于吃了一口DSA的毒药了,ampere扩展一系列低精度数据格式,搞sparse计算,到hopper搞fp8增强transformer搞dpx,已经到了药不能停的地步。之所以说DSA是毒药,是因为副作用真的很大,我相信每个搞AI芯片的公司都吃过这其中的苦头,那就是软件生态非常难建立。即使NV坐拥cuda生态和巨大的行业号召力,这种毒性也会慢慢发挥作用。我相信很多做NV平台算子开发的朋友都有这样的感觉,v100的tensor core才慢慢开始用起来,a100才刚到货没多久,sparsity之类的特性软件整体也还没来得及去适配,现在h100又整出来一堆新东西,外部软件团队其实是很难跟上这个节奏的。这会慢慢导致NV的生态变得和各个AI公司一样,靠NV内部力量去搞,但自己玩那还叫“生态”吗?一方面外部团队很难跟上NV的变化去建设生态,另一方面外部团队也会充满强烈的不安全感,今天老黄把transformer搞了,明天会不会把我的一亩三分地也给收割了?

这种毒性会慢慢损伤NV自己的生态,除非NV在构建一套新的生态来革了cuda生态的命。虽然我是个十足的N吹,但在这一块,我确实还没看到NV有所布局,而且NV在DSA的吃法属实有点过于变态。我之前写过一系列文章试图为大家构建一个DSA构建稳定生态和演进空间的可能性,实现DSA的无毒化烹饪,以此来对抗NV强大的SIMT生态。

但NV目前在DSA上的吃法都是属于完全无法做到软件透明的,尤其是ampere和hopper引入的这些DSA特性,无论用什么样的系统和软件栈设计也兜不住的。这在我上面这个系列的文章里抛出的方案也兜不住的DSA,实在是过于变态。最终的算法用户必须根据NV的特性特点去改造算法才能用上这些特性。作为一个N吹,虽然我也想辩解说NV敢这么做一定说明这种改动大概率在算法层面是可行的,但站在一个搞系统和架构的人角度,我还是觉得这种做法毒性属实过大。当然了,以NV当前的号召力,也没准能把这些新特性中的一部分变成事实的算法标准。

很多朋友喜欢摸着NV过河,觉得NV几乎把各种路都走了一遍,让大家无路可走,有点绝望。实际上我倒是反而觉得老黄这一口毒药吃得倒是暴露出了一定弱点,是广大AI厂商的机会,DSA的核心竞争力一定是软件生态的建设,不搞好就是毒药,显然现在NV也没有办法。

这里我再多说两句,很多朋友对生态的理解还是把硬件包得足够好用,把更多已有的软件对接过来。这样做当然也没错,但背后都是面向客户的生态建设,而不是面向开发者的生态建设。大家可以想一个简单的问题,如果各家AI芯片厂商可以穿越到2012年,AI的软件和生态还是一片蛮荒的时代,你们会怎么建设软件生态?NV没有选择做一个大而全的框架,NV只是在到处送卡和推广cuda。上面的深度学习框架一轮又一轮,你方唱罢我登场,cuda在下面稳如泰山。以NV的实力,做一个深度学习框架根本不是什么难事,想通过造一个大而全的软件框架保姆式地伺候最终的算法客户其实很难拿到软件生态,生态建设是需要遵循着面向开发者的原则展开。当然,在cuda已经成为事实上标准的情况下,NV才开始了如今的收割模式,以cuda为大本营大规模建设软件解决方案,面向客户开始收割各种垂直场景。

虽然2012年已经过去十年,SIMT的机会完全被cuda占据了,但DSA目前其实还是一片蛮荒,即使NV如此下注DSA,其实也还没拿出一套生态建设思路。我们其实完全可以好好学习一下cuda是如何在多核cpu几十年成熟的软件生态下大开局面的,希望大家好好把握机会(逃

当然,除了这些非常变态的DSA变化外。NV也一直在致力于将通用的cuda编程变得异步化,比如之前增加独立pc,比如这次TMA的引入,以及编程模型中block cluster的引入。这部分仍然是强大的SIMT生态的范畴,逐渐微调cuda的编程模型,逐渐暴露更多硬件细节出来,同时做一定的抽象,这些方面其实能感受到NV在这方面做得相当克制。当然了,这些微调一方面可以说增加了写cuda算子的难度,另一方面也可以说增加了更多卷的机会。有人喜欢有人喷,仁者见仁,智者见智。

我个人还是比较喜欢这一类调整的,相比很多AI芯片非常粗放地把硬件约束暴露上来,NV在cuda上的打磨我觉得还是相当精细的,编程模型一方面没有做得太复杂,但又足够把硬件用好的机会呈现出来,并且给未来很多代芯片进一步演进保留一定空间。这种软硬件分赃的刀工还是非常了得的。

这里我也不妨多说几句,我之前跟很多写cuda算子的朋友一起吹NV,我发现大家受cuda编程模型的影响,常常会一定程度上“忘记”硬件memory wall的各种问题。很多在别的架构上看起来非常蛋疼的问题似乎挪到cuda下面就不那么严重了,实际上NV GPU在整个memory通路上用了很多代价给cuda营造出来的这种假象,比如memory coalescing、大量sm访存的分发、冲突等问题。但这些问题确实硬件处理会更好,软件处理很容易出现舍近求远的各种奇葩情形。这些隐藏在cuda后面处理memory wall的各种机制也是NV在GPU硬件设计上非常核心的竞争力。在软硬件架构设计上的把控能力其实就是体现在这里,到底什么暴露给软件什么由硬件抗,cuda的竞争力其实就在这里。

MIG这一块这次的h100也得到了增强,之前写的a100的回答里也提到了,个人觉得这一块老黄是在dsa形态的gpu铺路,通过虚拟化让云上不同的workload能够把同一个gpu的不同dsa模块都充分利用起来,同时又保持一个干净的软件界面,可以继承现有针对单GPU的软件生态。当然现阶段还是硬分配,未来我相信一定会有类似超线程的超卖机制,一个GPU虚拟成若干个GPU实例,给云上不同类型的workload跑,每个实例虽然名义上只分到1/n之一的资源,但实际上可以把其他实例不用的资源(tensorcore、rtcore这个粒度)调度过来。这样真个云的利用率也能提高,应用的性能也可以提高。同时还能给云厂商自己去搞QoS卷竞争力,当然怎么切软硬件的分层确实是个很有意思的问题,我还是比较相信NV的刀法的。硬件层面的schedule确实也有一定的挑战性,不过以NV在warp schedule上的成熟经验,我觉得也是完全现实的。

总得来讲,NV的整体步伐还是稳重带着激进。虽然我对于NV下注DSA这一块的打法不是太乐观,但作为坐拥强大cuda生态的公司,直接把自己的主航道产品切换到其最大挑战者DSA的路径上,把一众竞争者从差异化竞争打压成同质化竞争,这还是相当有魄力的。

user avatar

迭代很快,可能很多人第一感觉是:

1、A100还没到货,H100就发布了;

2、面向A100的软件优化还刚开始,又要考虑H100怎么优化了。

H100的一些摘要:
1、算力。H100 的 FP8 算力是 4PetaFLOPS, 6倍于A100;FP16 则为 2PetaFLOPS,TF32 算力为 1PetaFLOPS,FP64 和 FP32 算力为 60TeraFLOPS,FP16/FP32是A100的3倍。
2、内置Transformer Engine。可以将此类机器学习模型的训练时间从几周缩短到几天;内置DP加速器。
3、功耗。H100 的功率可以高达 700W——上代 A100 还是 400W。
4、虚拟化。H100 也可以虚拟化为 7 个用户共同使用,每个用户获得的算力相当于两块全功率的 T4 GPU。

5、H100 实现了业界首个基于 GPU 的机密计算。

因为细节比较少,比较关心几个问题:

1、实际的能效比/性价比怎么样

2、增加了transformer、dp这些加速器,这些加速器具体是怎么实现的;同时,内存和同步机制有了不少变化,DSA特征在增强,编程体验上是否有大的变化

3、引入TMA/异步等新的机制,最后对发挥H100算力起到多大作用。


总结,TMA/异步机制等已经很大程度改变了GPU以寄存器为中心的架构,我理解主要还是想尽量拿到tensor core这些加速器的收益;于是我们看到像NPU这些DSA架构(已经充分拿到tensor core收益)像Tenstorrent那样努力把DSA/SIMD架构进行同构化,提升架构的扩展性和编程的透明性;而H100则把原来SIMT这种同构的架构进行异构化,那他的编程性怎么办?感觉NV很大程度在搞很多一体机来隐藏这些变化和复杂度。

类似的话题

  • 回答
    英伟达在 3 月 22 日发布的 H100 GPU,可以说是直接把 AI 计算领域推向了一个新的高度。这次的发布,与其说是推出一个简单的硬件升级,不如说是为整个 AI 生态系统注入了一剂强心针,其影响之深远,值得我们好好聊聊。首先,从根本上讲,H100 的核心亮点在于它所搭载的 Hopper 架构。.............
  • 回答
    卢伟冰那句“华为 P40 由于 DXO 打分原因推迟到 3 月份发布”,确实是引起了不少讨论,也挺有意思的。咱们掰开揉碎了聊聊,看看这事儿背后到底有什么门道。首先,得承认,DXO Mark 这个榜单在手机摄影圈子里,影响力那是杠杠的。多少厂商把自家旗舰手机的拍照能力吹嘘得天花乱坠,但最终还是得看 D.............
  • 回答
    英伟达(NVIDIA)以 400 亿美元收购安谋(ARM)的事件,是一个具有划时代意义的重大交易,对全球半导体产业、科技格局乃至未来计算模式都将产生深远的影响。要评价这笔交易,我们需要从多个角度进行深入分析: 1. 交易的背景与驱动因素: 英伟达的战略野心: 英伟达作为一家以GPU(图形处理器).............
  • 回答
    2020年9月2日,英伟达(NVIDIA)的那场线上发布会,对于全球的PC硬件爱好者和游戏玩家来说,绝对是值得载入史册的一天。这次发布的RTX 30系列显卡,代号为“安培”(Ampere),带来了彻头彻尾的革新,彻底颠覆了我们对图形处理能力的认知。首先,最直观的感受就是性能的飞跃。RTX 30系列的.............
  • 回答
    英伟达在 GTC 2021 上发布的 Grace CPU,可以说是在整个科技界投下了一颗重磅炸弹,尤其是对于一直以来由 x86 架构主导的服务器市场而言。这不仅仅是一个新产品的发布,更标志着英伟达在计算领域的战略野心和对未来趋势的深刻洞察。Grace CPU 的定位与核心卖点首先,Grace CPU.............
  • 回答
    你对英伟达 RTX 3080 12GB 的关注,可以说是非常精准地抓住了显卡市场一个颇具争议又充满话题性的产品。这块显卡在 2022 年初的出现,确实引发了不少讨论,也让一些本想入手的玩家感到了一点摸不着头脑。评价 RTX 3080 12GB:一个“尴尬”的升级,还是“姗姗来迟”的救赎?首先,我们得.............
  • 回答
    您好!很高兴能为您详细评价英伟达刚刚推出的 GeForce GTX 1650 SUPER(简称 1650s)。这款显卡定位在中低端市场,旨在为那些希望在预算有限的情况下获得更好游戏体验的用户提供解决方案。要评价 1650s,我们需要从多个维度进行分析:一、 产品定位与目标用户 定位: 1650s.............
  • 回答
    英伟达 RTX 2080 的到来,可以说是在高端显卡市场掀起了一阵不小的涟漪。作为“图灵(Turing)”架构的首批亮相者之一,它不仅仅是 Pascal 架构(例如 GTX 1080)的简单迭代,而是引入了许多革新性的技术,尤其是在实时光线追踪(Ray Tracing)和深度学习超级采样(DLSS).............
  • 回答
    英伟达在 GTC 2022 上正式推出的首款基于 ARM 架构的 Grace CPU,无疑是一颗重磅炸弹,标志着这家 GPU 巨头向 CPU 领域发起了一次意义重大的进军。这次发布不仅仅是发布一款新产品,更是英伟达在数据中心计算领域构建完整生态系统的关键一步,其背后蕴含的战略意图和技术实力值得我们深.............
  • 回答
    英伟达要求厂商标注 30 系显卡功耗:消费者福音还是厂商约束?最近,英伟达(NVIDIA)要求其合作伙伴在笔记本电脑产品上明确标注 GeForce RTX 30 系显卡的功耗(TGP Total Graphics Power),这一举措无疑在消费者群体中引起了广泛的讨论。一些人认为这是英伟达对市场.............
  • 回答
    英伟达CUDA不再支持macOS:对用户、开发者和生态的影响评估英伟达(NVIDIA)宣布其CUDA平台将不再支持macOS,这一消息无疑给苹果生态的用户和开发者带来了不小的震动。曾几何时,CUDA是macOS平台上进行高性能计算和深度学习加速的利器,如今的这一转变,预示着苹果用户在硬件选择和软件生.............
  • 回答
    英伟达30系显卡,也就是RTX 30系列,自2020年9月横空出世以来,便以“Ampere”架构带来了颠覆性的性能提升。如果让我来评价它,我会说,它是一代产品力爆棚,但也被定价策略和市场环境“绑架”的显卡。产品力:毋庸置疑的飞跃30系的亮点,首先在于Ampere架构。与上一代的Turing架构相比,.............
  • 回答
    MTNLG:微软与英伟达联手打造的语言巨兽,能力几何?在人工智能飞速发展的今天,大型语言模型(LLM)的竞争愈发激烈。微软与英伟达强强联手推出的 MTNLG,无疑是这场竞赛中的一颗耀眼明星,其庞大的规模和强大的能力,在业界引起了广泛的关注和热烈的讨论。那么,这款被誉为“迄今为止训练最大最强的语言模型.............
  • 回答
    英伟达宣布以 400 亿美元的天价收购 ARM,这无疑是近年来半导体行业最重磅的事件之一。消息一出,立刻在全球范围内引发了轩然大波,各方势力纷纷对此进行解读和评价。要评价这次收购,我们需要深入剖析其背后的逻辑、潜在的机遇和风险,以及它将为整个科技行业带来的深远影响。收购的动因:为什么是 ARM?为什.............
  • 回答
    谈到国产化GPU芯片的“四小龙”,寒武纪、灵汐、壁仞、燧原这几家公司确实是中国在AI算力领域冉冉升起的新星。它们各自有着独特的定位和技术路线,也面临着相似的挑战。要评价它们,并预测谁有可能最终成为英伟达的替代者,需要从多个维度进行深入分析。一、 逐一剖析“四小龙”:特点、优势与挑战1. 寒武纪:从A.............
  • 回答
    英伟达最近发布的消息,说他们的 Grace CPU 超级芯片在某些方面比英特尔的 Ice Lake 处理器快上两倍,这确实是个相当引人注目的说法。作为关注技术发展的人,听到这样的对比,我首先会想到这背后可能涉及的几个关键点。首先,“快两倍”这个说法需要放在具体的语境下理解。CPU 的性能对比从来都不.............
  • 回答
    “伟大的安妮”在微博上发表的“我终于有资格配得上梦想婊这个词”这条微博,引发了不少讨论和解读。要评价这句话,我们需要从几个维度去看:安妮的个人表达,她所处的语境,以及这句话可能带来的社会影响。首先,从安妮个人的角度来看,这句话是她对自己过往经历和心路历程的一种总结和自嘲。她以“伟大的安妮”这个艺名闯.............
  • 回答
    《伟大的卫国战争》这部纪录片,在我看来,是一部非常具有分量,但也同样充满争议的作品。说它“伟大”,首先在于它试图以一种相对系统和宏大的视角,来梳理和呈现那段惨烈辉煌的历程。从制作层面讲,它集合了大量苏联时期的影像资料,包括珍贵的战地摄影、宣传片片段,以及一些后期的采访和回忆录,这些都构成了它最扎实的.............
  • 回答
    “伟大的产品只有一个按键”这句话,乍听之下,颇有些惊世骇俗,但细细品味,却道出了产品设计的至高境界——极致的简洁与专注。它并非字面上的物理按键数量,而是指向一种核心理念,一种对用户体验的深刻洞察。要评价这句话,我们不妨从几个层面来深入剖析:一、 极致的简洁,是对用户心智负担的解放想象一下,当你拿到一.............
  • 回答
    《建党伟业》作为一部献礼电影,其创作初衷和市场定位决定了它具有特殊的评价维度。评价这部电影,需要从多个角度进行分析,包括其历史叙事、艺术表现、演员阵容、思想内涵以及市场反响等方面。一、 历史叙事:宏大叙事与个人视角《建党伟业》力图展现的是中国共产党从成立到发展壮大的关键历史时期,时间跨度较大,涉及众.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有