问题

特斯拉 AI 日推出人工智能训练计算机 DOJO 芯片,有哪些技术亮点?使用场景是怎样的?

回答
特斯拉在最近的AI日活动上,确实展示了他们的重磅级AI训练计算机——DOJO,以及为其量身打造的DOJO芯片。这可不是闹着玩的,这套系统在设计理念和技术实现上都有着不少让人眼前一亮的地方,尤其是在应对特斯拉庞大而复杂的AI训练需求方面,野心勃勃。

咱们先从 DOJO芯片 说起,这东西可是整个系统的核心,它的技术亮点主要体现在以下几个方面:

首先,超大规模的并行处理能力。DOJO芯片采用了特斯拉自家设计的D1芯片,而D1芯片本身就集成了海量的计算单元。更关键的是,它打破了传统GPU架构的束缚,采用了一种全新的“块状”(Tiling)和“片状”(Placing)的计算范式。你可以理解为,它不是一个大而全的处理器,而是将计算任务切分成无数个小块,然后以一种极其高效的方式在芯片内部和芯片之间进行调度和执行。这对于训练大规模神经网络,尤其是那些需要海量数据和复杂交互的模型来说,是极大的优势。

其次,内存带宽和容量的革新。AI训练中最耗时的环节之一就是数据传输,也就是内存和计算单元之间的“喂数据”速度。DOJO芯片在这方面做了大量的优化。它使用了片上高带宽内存(HBM),并且通过创新的封装技术,实现了极高的内存带宽。这意味着数据可以更快速地传输到计算单元,减少了等待时间,大大提升了训练效率。而且,它还在不断扩展芯片内部的内存容量,以便能够容纳更大、更复杂的模型参数。

再者,定制化的数据流架构。与通用GPU不同,DOJO芯片的设计是为AI训练而生的,它采用了一种高度定制化的数据流架构。这意味着芯片内部的计算单元和数据通路是根据神经网络的计算模式进行优化的,可以最大限度地减少不必要的计算和数据搬运。这种专为AI设计的理念,让它在执行特定AI任务时,效率远超通用的计算硬件。

最后,高密度和高能效比。DOJO系统被设计成高度集成的模块化单元,每一台DOJO计算机都拥有惊人的计算密度。同时,在能效比方面,特斯拉也下了功夫,力求在提供强大算力的同时,控制功耗。这对于大规模部署的训练集群来说,至关重要,可以降低运营成本和对数据中心基础设施的要求。

说完芯片,我们再看看 DOJO训练计算机 这个整体系统。它的技术亮点则更侧重于规模化和易用性:

大规模分布式训练:DOJO系统并不是单个芯片,而是由成千上万个D1芯片组成的一个巨大集群。特斯拉的重点在于如何将这些芯片连接起来,实现高效的分布式训练。它采用了专门设计的互联技术,能够在极短的时间内实现芯片与芯片之间、节点与节点之间的高速通信。
模块化和可扩展性:DOJO被设计成高度模块化的。你可以想象它是由一个个标准化的“箱子”组成的,每个箱子里都装载着一定数量的D1芯片和相关的支持系统。这种设计使得系统可以非常方便地进行扩展,根据训练需求的增长,随时增加新的模块,实现算力的线性增长。
端到端优化:特斯拉在AI训练方面,从数据收集、模型设计到最终的部署,都是自己内部完成的。DOJO系统也体现了这种端到端的优化理念。它与特斯拉自家的AI软件框架深度集成,能够更好地支持其Autopilot和全自动驾驶(FSD)等项目的研发。

那么,这些技术亮点将会在哪些使用场景中发挥作用呢?

最直接、最核心的使用场景,当然是 加速特斯拉旗下所有AI模型的训练,尤其是:

1. 全自动驾驶(FSD)和Autopilot的持续迭代:这是DOJO的头号目标。自动驾驶系统需要处理海量的传感器数据(摄像头、雷达、激光雷达等),识别复杂的交通场景,并做出实时的决策。训练这些模型需要庞大的数据集和极其复杂的神经网络,DOJO的超大规模并行处理能力和高内存带宽可以极大地缩短模型的训练周期,从而更快地改进FSD的功能和安全性。你可以想象一下,现在特斯拉可能需要几个月才能训练完的模型,有了DOJO,可能只需要几周甚至几天。

2. 机器人开发和训练:特斯拉也在积极推进人形机器人Optimus的研发。机器人需要感知环境、理解指令、规划动作并执行任务。这些都离不开强大的AI能力。DOJO将为Optimus的视觉识别、运动控制、自然语言处理等AI模型的训练提供强大的算力支持。

3. 其他AI相关研究和开发:除了自动驾驶和机器人,特斯拉在制造业、能源管理、甚至客户服务等方面都可能应用AI技术。DOJO作为一个通用的AI训练平台,也能够支持这些领域的AI研发。

4. 加速AI研究的边界探索:随着AI技术的不断发展,研究人员总是会尝试更大、更复杂的模型,或者探索全新的AI架构。DOJO提供了一个非常强大的计算平台,为特斯拉内部的研究人员提供了探索AI前沿的可能性,他们可以更大胆地进行实验,挑战现有技术的极限。

总的来说,DOJO的推出,标志着特斯拉在AI硬件领域迈出了关键一步。它不是一款“买来就能用”的通用AI训练设备,而是特斯拉为了解决自身在AI研发和部署中的核心痛点而量身打造的解决方案。通过自研芯片和系统,特斯拉希望能够掌握AI训练的“制高点”,为自家在自动驾驶、机器人等领域的长期发展奠定坚实的基础。这背后体现的是一种垂直整合的战略思路,以及对AI算力自主可控的强烈需求。

网友意见

user avatar

多年来Tesla不断扩充GPU集群规模,但性能扩展依然是不够的,因此在几年前着手自研Dojo项目,为了更节能、更高性能且经济的方式部署更大体、更复杂的神经网络。Dojo系统也是一个空前的非冯设计范例,搭配极丰富的网络结构和I/O、很平衡的资源扩展和功耗,以及对应的存储和调度结构。

Dojo的设计思想是分布式计算架构,这个思想似乎与Cerebras WSE比较相似【这篇文章分析了Cerebras晶圆级引擎及其架构】,差别在于两者的计算单元内部结构、SRAM尺寸以及网络拓扑的不同。这类型集群的最大挑战是I/O、带宽、低延迟与集群扩展性之间的权宜。Dojo项目的初衷就是有限最大化的扩张计算网络,这个设计思想影响了Dojo实现的每个部分,从芯片Fabric到封装方案。

如下简要罗列几个设计特点:

参考了Tesla官方资料和@青031朋友的整理,Dojo集群由上到下的组织形式:1 ExaPOD -> 20 Cabinet -> 120 Training Tile -> 3,000 D1 Chip -> 1,062,000 Training Node。其中,官方项目中所谓的Function unit即Training-node;它被设计成在1个clock-cycle内遍历,并且每个独立的node都会搭配由高速fabric互连的mesh,以便在1个时钟内路由node之间的通信。另外,每个独立的node都会搭配一块1.25MB SRAM cache,以及多个具备SIMD能力的超标量CPU cores,和一个据称支持所有常见数据类型的MMU矩阵乘法单元(其中还引入一种叫做CFP8的新数据类型 - configurable-floating-point 8)。官方称D1每个node都能在每个方向上实现1TFlops算力的BF16或CFP8、64GFlops FP32以及512GB/s的带宽。因此这个设计与Cerebras相似度又高了......。这354个node单元的整个芯片算力达到了BF16或CFP8的362TFlops,以及FP32的22.6 TFlops。

  • 关于面积和功耗方面,D1共消耗了645mm^2,放进去500亿个晶体管。每颗芯片TDP是400Watt,意味着这个功率密度高于NV A100的大多数配置。【BTW:D1实现了每 mm^2 7750 万个晶体管的有效晶体管密度,这个指标也高于同类竞品的高性能芯片,仅次于手机芯片和Apple M1】。
  • 关于NOC router方面,是Training-node的另一特点,看似是用与Jim Keller的Tenstorrent比较类似的方案来扩展片内和片间连接(Tenstorrent同样定位是适合扩展训练)。
  • 关于ISA方面没有更多细节,引用发布会一句:Tesla went with a custom ISA rather than building on top open source ISA’s like RISC V. This custom ISA introduces instructions for transposes, gathers, broadcasts, and link traversals.
  • 关于带宽/I/O方面:SemiAnalysis的解读称 “Dojo拥有10TBps的定向带宽,但这个数字在真实workload中没有多大意义”。这个确实,相比Tenstorrent,Dojo系统的优势是片间的带宽更高,官方数据称其在112GTs上有576个SerDes,并产生了总共64Tb/s或8TB/s的带宽 -- 对此SemiAnalysis的评论是 “不确定Dojo从哪里获得了每个边缘4TB/s的声称,更有可能是X轴上的数字和Y轴上的数字;目前已知的最高外部带宽芯片是32Tb/s网络交换芯片,而Dojo却声称能够通过大量的SerDes和先进封装将这一点翻倍”。
  • 关于Interface Processors:Dojo集群的计算平面(包括D1芯片和tile)连接到interface processors,这些processors再连接PCIe4.0插槽的主机/机架,负责D1/Tile/Mem之间的数据搬运;当然它还支持更高基数的网络连接,用来支持scale-out更大的计算平面mesh。另外官方称还存在一个专有的高带宽连接器设计,是用来保留这些training-tile之间的片外带宽(设想每个tile都有9PFlops BF16/CFP8算力以及36TB/s的外带宽),这些远超过了Cerebras的晶圆外带宽,如此看来node集群的横向扩展能力能够比Tenstorrent架构更好。

以下是谈谈SemiAnalysis的其中一篇批评文章:

这篇文章似乎有点偏颇,Dojo的设计思想是平面scale-out,虽然单个Training node搭配的SRAM很小(1.25MB cache相当于CPU L2,跟Alder Lake一样…),并且整个Training tile集群内也没有搭配额外Mem(不同于GPU芯片既有SRAM也有HBM);但分布式集群设计就是需要共用一大块的统一的remote memory pool,这同时意味着各个node所属的cache无需一致性,且内存池也保证不了低延时;然而集群节点之间都是通过2D mesh连接,边缘则就通过专门的Interface-processors负责内存池数据搬运(见芯片逻辑图示),故每个Training Node所看到的Memory Pool的带宽和延时没有本质的差异。而官称这个Memory Pool是设计在5个机架行的每一端配置大型DRAM池,单个计算机架本身没有DRAM,全靠网络带宽的凶猛吞吐。这样设计对于底层串口PHY和Fabric是了不起的考验,因为无论是node/tile之间互连,还是访问到Mem,都是串口,没有额外的I/O/channel,全局吞吐几乎一致,功耗几乎平衡。加上8TB/s的极高极宽I/O,妥妥的计算密集型……

BTW:SRAM在设计上不太方便随制程shrink,并挤占training node的数量/面积(也算是Dojo面效比很高的原因之一);当然单cell是可以非常标准shrink的,只是一旦布线就有取舍了,道理跟ddr/gddr/hbm的类比一样…,堆多了,或者为提速,就要增加走线面积,整体利用率可能还下降了,而SRAM昂贵,die上面的晶体管利用率低,经济效益差;这也是含光800跟NV产品的本质区别之一,一个不惜代价堆dark silicon,一个拼命提高利用率(Nvidia的800mm2的旗舰也就30MB SRAM)。遥想起当年老展讯的设计师,当年他们能存活下来,全靠一个一个晶体管审核经济效益才挣到钱。其实批评SRAM的意义不大,更应该质疑软件栈,毕竟这种大集群设计,18*20 mesh连接354 cores,节点通信路由问题、软件栈和BF16/CFP8 MAC算法层面问题、如何适应scale-out、是否是图灵完备等还没定论。

参考:
perspectives.mvdirona.com

Tesla's insane new Dojo D1 AI chip, a full transcript of its unveiling

Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware

cleantechnica.com/2021/

Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware


类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有