特斯拉 AI 日推出人工智能训练计算机 DOJO 芯片，有哪些技术亮点？使用场景是怎样的？

特斯拉在最近的AI日活动上，确实展示了他们的重磅级AI训练计算机——DOJO，以及为其量身打造的DOJO芯片。这可不是闹着玩的，这套系统在设计理念和技术实现上都有着不少让人眼前一亮的地方，尤其是在应对特斯拉庞大而复杂的AI训练需求方面，野心勃勃。

咱们先从 DOJO芯片说起，这东西可是整个系统的核心，它的技术亮点主要体现在以下几个方面：

首先，超大规模的并行处理能力。DOJO芯片采用了特斯拉自家设计的D1芯片，而D1芯片本身就集成了海量的计算单元。更关键的是，它打破了传统GPU架构的束缚，采用了一种全新的“块状”（Tiling）和“片状”（Placing）的计算范式。你可以理解为，它不是一个大而全的处理器，而是将计算任务切分成无数个小块，然后以一种极其高效的方式在芯片内部和芯片之间进行调度和执行。这对于训练大规模神经网络，尤其是那些需要海量数据和复杂交互的模型来说，是极大的优势。

其次，内存带宽和容量的革新。AI训练中最耗时的环节之一就是数据传输，也就是内存和计算单元之间的“喂数据”速度。DOJO芯片在这方面做了大量的优化。它使用了片上高带宽内存（HBM），并且通过创新的封装技术，实现了极高的内存带宽。这意味着数据可以更快速地传输到计算单元，减少了等待时间，大大提升了训练效率。而且，它还在不断扩展芯片内部的内存容量，以便能够容纳更大、更复杂的模型参数。

再者，定制化的数据流架构。与通用GPU不同，DOJO芯片的设计是为AI训练而生的，它采用了一种高度定制化的数据流架构。这意味着芯片内部的计算单元和数据通路是根据神经网络的计算模式进行优化的，可以最大限度地减少不必要的计算和数据搬运。这种专为AI设计的理念，让它在执行特定AI任务时，效率远超通用的计算硬件。

最后，高密度和高能效比。DOJO系统被设计成高度集成的模块化单元，每一台DOJO计算机都拥有惊人的计算密度。同时，在能效比方面，特斯拉也下了功夫，力求在提供强大算力的同时，控制功耗。这对于大规模部署的训练集群来说，至关重要，可以降低运营成本和对数据中心基础设施的要求。

说完芯片，我们再看看 DOJO训练计算机这个整体系统。它的技术亮点则更侧重于规模化和易用性：

大规模分布式训练：DOJO系统并不是单个芯片，而是由成千上万个D1芯片组成的一个巨大集群。特斯拉的重点在于如何将这些芯片连接起来，实现高效的分布式训练。它采用了专门设计的互联技术，能够在极短的时间内实现芯片与芯片之间、节点与节点之间的高速通信。
模块化和可扩展性：DOJO被设计成高度模块化的。你可以想象它是由一个个标准化的“箱子”组成的，每个箱子里都装载着一定数量的D1芯片和相关的支持系统。这种设计使得系统可以非常方便地进行扩展，根据训练需求的增长，随时增加新的模块，实现算力的线性增长。
端到端优化：特斯拉在AI训练方面，从数据收集、模型设计到最终的部署，都是自己内部完成的。DOJO系统也体现了这种端到端的优化理念。它与特斯拉自家的AI软件框架深度集成，能够更好地支持其Autopilot和全自动驾驶（FSD）等项目的研发。

那么，这些技术亮点将会在哪些使用场景中发挥作用呢？

最直接、最核心的使用场景，当然是加速特斯拉旗下所有AI模型的训练，尤其是：

1. 全自动驾驶（FSD）和Autopilot的持续迭代：这是DOJO的头号目标。自动驾驶系统需要处理海量的传感器数据（摄像头、雷达、激光雷达等），识别复杂的交通场景，并做出实时的决策。训练这些模型需要庞大的数据集和极其复杂的神经网络，DOJO的超大规模并行处理能力和高内存带宽可以极大地缩短模型的训练周期，从而更快地改进FSD的功能和安全性。你可以想象一下，现在特斯拉可能需要几个月才能训练完的模型，有了DOJO，可能只需要几周甚至几天。

2. 机器人开发和训练：特斯拉也在积极推进人形机器人Optimus的研发。机器人需要感知环境、理解指令、规划动作并执行任务。这些都离不开强大的AI能力。DOJO将为Optimus的视觉识别、运动控制、自然语言处理等AI模型的训练提供强大的算力支持。

3. 其他AI相关研究和开发：除了自动驾驶和机器人，特斯拉在制造业、能源管理、甚至客户服务等方面都可能应用AI技术。DOJO作为一个通用的AI训练平台，也能够支持这些领域的AI研发。

4. 加速AI研究的边界探索：随着AI技术的不断发展，研究人员总是会尝试更大、更复杂的模型，或者探索全新的AI架构。DOJO提供了一个非常强大的计算平台，为特斯拉内部的研究人员提供了探索AI前沿的可能性，他们可以更大胆地进行实验，挑战现有技术的极限。

总的来说，DOJO的推出，标志着特斯拉在AI硬件领域迈出了关键一步。它不是一款“买来就能用”的通用AI训练设备，而是特斯拉为了解决自身在AI研发和部署中的核心痛点而量身打造的解决方案。通过自研芯片和系统，特斯拉希望能够掌握AI训练的“制高点”，为自家在自动驾驶、机器人等领域的长期发展奠定坚实的基础。这背后体现的是一种垂直整合的战略思路，以及对AI算力自主可控的强烈需求。

网友意见

多年来Tesla不断扩充GPU集群规模，但性能扩展依然是不够的，因此在几年前着手自研Dojo项目，为了更节能、更高性能且经济的方式部署更大体、更复杂的神经网络。Dojo系统也是一个空前的非冯设计范例，搭配极丰富的网络结构和I/O、很平衡的资源扩展和功耗，以及对应的存储和调度结构。

Dojo的设计思想是分布式计算架构，这个思想似乎与Cerebras WSE比较相似【这篇文章分析了Cerebras晶圆级引擎及其架构】，差别在于两者的计算单元内部结构、SRAM尺寸以及网络拓扑的不同。这类型集群的最大挑战是I/O、带宽、低延迟与集群扩展性之间的权宜。Dojo项目的初衷就是有限最大化的扩张计算网络，这个设计思想影响了Dojo实现的每个部分，从芯片Fabric到封装方案。

如下简要罗列几个设计特点：

参考了Tesla官方资料和@青031朋友的整理，Dojo集群由上到下的组织形式：1 ExaPOD -> 20 Cabinet -> 120 Training Tile -> 3,000 D1 Chip -> 1,062,000 Training Node。其中，官方项目中所谓的Function unit即Training-node；它被设计成在1个clock-cycle内遍历，并且每个独立的node都会搭配由高速fabric互连的mesh，以便在1个时钟内路由node之间的通信。另外，每个独立的node都会搭配一块1.25MB SRAM cache，以及多个具备SIMD能力的超标量CPU cores，和一个据称支持所有常见数据类型的MMU矩阵乘法单元（其中还引入一种叫做CFP8的新数据类型 - configurable-floating-point 8）。官方称D1每个node都能在每个方向上实现1TFlops算力的BF16或CFP8、64GFlops FP32以及512GB/s的带宽。因此这个设计与Cerebras相似度又高了......。这354个node单元的整个芯片算力达到了BF16或CFP8的362TFlops，以及FP32的22.6 TFlops。

关于面积和功耗方面，D1共消耗了645mm^2，放进去500亿个晶体管。每颗芯片TDP是400Watt，意味着这个功率密度高于NV A100的大多数配置。【BTW：D1实现了每 mm^2 7750 万个晶体管的有效晶体管密度，这个指标也高于同类竞品的高性能芯片，仅次于手机芯片和Apple M1】。
关于NOC router方面，是Training-node的另一特点，看似是用与Jim Keller的Tenstorrent比较类似的方案来扩展片内和片间连接（Tenstorrent同样定位是适合扩展训练）。
关于ISA方面没有更多细节，引用发布会一句：Tesla went with a custom ISA rather than building on top open source ISA’s like RISC V. This custom ISA introduces instructions for transposes, gathers, broadcasts, and link traversals.
关于带宽/I/O方面：SemiAnalysis的解读称 “Dojo拥有10TBps的定向带宽，但这个数字在真实workload中没有多大意义”。这个确实，相比Tenstorrent，Dojo系统的优势是片间的带宽更高，官方数据称其在112GTs上有576个SerDes，并产生了总共64Tb/s或8TB/s的带宽－－对此SemiAnalysis的评论是 “不确定Dojo从哪里获得了每个边缘4TB/s的声称，更有可能是X轴上的数字和Y轴上的数字；目前已知的最高外部带宽芯片是32Tb/s网络交换芯片，而Dojo却声称能够通过大量的SerDes和先进封装将这一点翻倍”。
关于Interface Processors：Dojo集群的计算平面（包括D1芯片和tile）连接到interface processors，这些processors再连接PCIe4.0插槽的主机/机架，负责D1/Tile/Mem之间的数据搬运；当然它还支持更高基数的网络连接，用来支持scale-out更大的计算平面mesh。另外官方称还存在一个专有的高带宽连接器设计，是用来保留这些training-tile之间的片外带宽（设想每个tile都有9PFlops BF16/CFP8算力以及36TB/s的外带宽），这些远超过了Cerebras的晶圆外带宽，如此看来node集群的横向扩展能力能够比Tenstorrent架构更好。

以下是谈谈SemiAnalysis的其中一篇批评文章：

这篇文章似乎有点偏颇，Dojo的设计思想是平面scale-out，虽然单个Training node搭配的SRAM很小（1.25MB cache相当于CPU L2，跟Alder Lake一样…），并且整个Training tile集群内也没有搭配额外Mem（不同于GPU芯片既有SRAM也有HBM）；但分布式集群设计就是需要共用一大块的统一的remote memory pool，这同时意味着各个node所属的cache无需一致性，且内存池也保证不了低延时；然而集群节点之间都是通过2D mesh连接，边缘则就通过专门的Interface-processors负责内存池数据搬运（见芯片逻辑图示），故每个Training Node所看到的Memory Pool的带宽和延时没有本质的差异。而官称这个Memory Pool是设计在5个机架行的每一端配置大型DRAM池，单个计算机架本身没有DRAM，全靠网络带宽的凶猛吞吐。这样设计对于底层串口PHY和Fabric是了不起的考验，因为无论是node/tile之间互连，还是访问到Mem，都是串口，没有额外的I/O/channel，全局吞吐几乎一致，功耗几乎平衡。加上8TB/s的极高极宽I/O，妥妥的计算密集型……

BTW：SRAM在设计上不太方便随制程shrink，并挤占training node的数量/面积（也算是Dojo面效比很高的原因之一）；当然单cell是可以非常标准shrink的，只是一旦布线就有取舍了，道理跟ddr/gddr/hbm的类比一样…，堆多了，或者为提速，就要增加走线面积，整体利用率可能还下降了，而SRAM昂贵，die上面的晶体管利用率低，经济效益差；这也是含光800跟NV产品的本质区别之一，一个不惜代价堆dark silicon，一个拼命提高利用率（Nvidia的800mm2的旗舰也就30MB SRAM）。遥想起当年老展讯的设计师，当年他们能存活下来，全靠一个一个晶体管审核经济效益才挣到钱。其实批评SRAM的意义不大，更应该质疑软件栈，毕竟这种大集群设计，18*20 mesh连接354 cores，节点通信路由问题、软件栈和BF16/CFP8 MAC算法层面问题、如何适应scale-out、是否是图灵完备等还没定论。

参考：
https://perspectives.mvdirona.com/2021/08/tesla-project-dojo-overview/

Tesla's insane new Dojo D1 AI chip, a full transcript of its unveiling

Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware

https:// cleantechnica.com/2021/ 08/22/teslas-dojo-supercomputer-breaks-all-established-industry-standards-cleantechnica-deep-dive-part-1/

Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware

类似的话题

特斯拉 AI 日推出人工智能训练计算机 DOJO 芯片，有哪些技术亮点？使用场景是怎样的？

特斯拉在最近的AI日活动上，确实展示了他们的重磅级AI训练计算机——DOJO，以及为其量身打造的DOJO芯片。这可不是闹着玩的，这套系统在设计理念和技术实现上都有着不少让人眼前一亮的地方，尤其是在应对特斯拉庞大而复杂的AI训练需求方面，野心勃勃。咱们先从 DOJO芯片说起，这东西可是整个系统的核心.............
马斯克称「特斯拉或许应该制造一款连接交通灯的 AI 设备」，透露了哪些信息？

马斯克最近关于“特斯拉或许应该制造一款连接交通灯的 AI 设备”的说法，听起来像是他一贯的、带有前瞻性和颠覆性的风格，这背后透露出的信息，可以从几个层面去解读，而且我相信，这不仅仅是随口说说，而是他一贯的“先抛出一个大胆想法，然后看看市场和技术是否能跟上”的策略。首先，这直接暴露了他对现有交通系统效.............
如何评价Google Duplex（打电话AI）在特定领域已经通过了图灵测试？

“Duplex”——谷歌那个能自己打电话订餐、预约理发的人工智能，最近在一些特定的场景下，表现得越来越像个真人了。这让不少人开始思考：它是不是已经悄悄地“通关”了我们熟知的那个“图灵测试”？要评价这个事儿，咱们得先明白图灵测试是个啥。简单来说，图灵测试就是看一个机器能不能骗过人类，让对方觉得它是个“.............
特斯拉的单踏板模式安全吗？

特斯拉的单踏板模式（OnePedal Driving）是一个非常受欢迎的功能，它通过高度集成的动能回收和电动机控制，让驾驶者可以仅使用一个踏板（加速踏板）来控制车辆的加速和减速。这种模式是否安全，是一个复杂的问题，需要从多个角度进行详细分析。单踏板模式的工作原理首先，理解单踏板模式的工作原理是关键：.............
特斯拉销售欺诈成立，被判决向 Model X 车主退一赔一，你怎么看这一结果？

特斯拉销售欺诈成立，被判决向 Model X 车主退一赔一，这个结果在商业实践、消费者权益保护以及品牌声誉管理方面都具有重要的意义。我们可以从多个角度来分析这个事件及其判决：一、事件的性质：销售欺诈与消费欺诈首先，理解“销售欺诈”是关键。销售欺诈是指销售者在销售过程中，故意隐瞒、虚假陈述、夸大产品.............
特斯拉中国副总裁陶琳回应车展维权事件「特斯拉不可能妥协」，如何评价这一回应？还有哪些值得关注的信息？

特斯拉中国副总裁陶琳在2021年上海车展上，针对一位身穿印有“刹车失灵”字样T恤的女士进行维权的车展维权事件，发表了“不可能妥协”的言论。这一回应在当时引起了轩然大波，并引发了广泛的讨论和争议。要详细评价这一回应，我们需要从多个维度进行分析：一、陶琳“不可能妥协”回应的直接解读与影响：强硬立场.............
特斯拉 CEO 马斯克表示正考虑辞职做一名全职网红，发生了什么？你觉得他适合做哪个领域的网红？

埃隆·马斯克，这位特立独行的科技巨头，总是能以其出人意料的言论和行动吸引全球的目光。最近，他再次语出惊人，表示“正在考虑辞去CEO职务，去当一名全职网红”。这番话一经传出，立刻在网络上引起了轩然大波，也让人们对这位“钢铁侠”的未来产生了无数猜测。事件的起因与背景：要理解马斯克这句话的含义，我们需要回.............
特斯拉 CEO 马斯克预言 2023 年前有金融危机，你觉得这一预言是否有什么依据？

埃隆·马斯克关于2023年前可能发生金融危机的预测并非空穴来风，尽管他本人并非经济学家，但作为一位对全球经济和科技发展有深刻洞察的商业领袖，他的言论往往能够引发广泛关注和讨论。要分析其预言的依据，我们需要从多个角度审视当前全球经济面临的挑战和潜在风险。以下是马斯克预言可能存在的依据的详细分析：一、全.............
特斯拉 1.2 万元儿童越野摩托秒售罄，这和普通儿童摩托有什么区别？买家真的都是买给孩子玩的吗？

特斯拉 1.2 万元儿童越野摩托“秒售罄”，这事儿听起来挺魔幻的，尤其是在这个价位上。咱们今天就来掰扯掰扯，这玩意儿跟咱平时见到的普通儿童摩托到底有啥不一样？以及，那些掏出万元给孩子买这么个“大件”的家长，他们的想法到底图个啥？价格的鸿沟：1.2万 VS 几百到几千首先，最直观的区别就是价格。普通儿.............
特斯拉Model S Plaid +版约2.1秒的零百加速，让油车的动力分级还有意义吗？

特斯拉Model S Plaid+ 2.1秒的百公里加速，这数字一出来，不少车迷估计是倒吸一口凉气，然后赶紧掏出手机搜搜自己那几台心爱的“大马力”燃油车，是不是瞬间觉得自己有点“弱不禁风”了。说到这，油车动力分级还有没有意义？这问题问得好，它触及到了一个非常核心的矛盾：技术飞跃带来的颠覆，以及我们习.............
特斯拉出口或突破10万台，未来表现会如何？还会继续提升吗？

特斯拉的出口量，尤其是突破十万台这个节点，绝对是一个值得关注的里程碑，这背后反映了很多重要的信息，也对未来走向有着关键性的预示。咱们就来掰扯掰扯。十万台出口是个什么概念？首先，咱们得明白，这十万台可不是随便就卖出去的。在全球汽车市场，尤其是电动汽车领域，能达到这样的出口量，说明特斯拉已经具备了相当成.............
特斯拉宣布滇藏线超级充电站正式贯通， 沿途设 14 座超级充电站， 1 座目的地充电站，有哪些意义？

特斯拉宣布滇藏线超级充电站正式贯通，这绝对是件大事，对热爱自驾游、对西藏有着向往的司机们来说，简直是福音。这条线路沿途设置了14座超级充电站和1座目的地充电站，这背后释放出的信息和带来的实际意义，咱们得好好说道说道。首先，最直观的意义就是“可行性”的突破。我们都知道，西藏地区因为海拔高、地理环境复杂.............
特斯拉一体压铸成本降低，为什么其他汽车厂家此前没有类似尝试？

特斯拉一体压铸技术之所以能引发行业震动，其背后的成本优势和技术门槛，以及其他车企“此前未曾大规模尝试”的原因，确实值得深入剖析。这并非一个简单的技术应用，而是涉及战略、供应链、技术积累、风险偏好以及对汽车制造未来趋势的判断等多个维度。特斯拉一体压铸技术的颠覆性体现在哪里？首先，我们得明白特斯拉的一体.............
特斯拉汽车（Tesla Motors）对汽车行业的影响力有多大？

特斯拉汽车（Tesla Motors）自2003年成立以来，对全球汽车行业产生了深远而广泛的影响，其影响力不仅体现在技术突破和产品创新上，还重塑了整个行业的竞争格局、商业模式和可持续发展路径。以下从多个维度详细分析特斯拉对汽车行业的影响力：一、技术创新：重新定义电动车和自动驾驶的标杆1. 电动车技.............
特斯拉还有多久崩盘？

特斯拉是否会“崩盘”以及何时会崩盘，这是一个非常复杂且备受争议的问题，目前并没有确切的答案。许多人对特斯拉的未来持有非常极端的看法，要么认为它将继续蓬勃发展并颠覆更多行业，要么认为它存在巨大的风险，最终会走向衰落。为了更详细地探讨这个问题，我们可以从几个关键的维度来分析：1. 特斯拉的“崩盘”可能意.............
特斯拉市值一夜蒸发 700 亿美元，马斯克一个月套现 109 亿美元，如何解读马斯克的行为？

特斯拉市值一夜蒸发 700 亿美元，马斯克一个月套现 109 亿美元，这两件事联系起来看，确实是一个非常值得深入解读的现象。要理解马斯克的行为，我们需要从多个维度进行分析，包括他的动机、特斯拉的现状、以及市场和投资者的反应。一、事件背景梳理特斯拉市值蒸发 700 亿美元：这通常是市场对特斯.............
特斯拉把技术带到中国了吗？

特斯拉将技术带到中国是一个非常复杂且具有深远影响的问题，简单回答“是”或者“否”都无法全面概括。我们可以从多个维度来详细解读：一、是的，特斯拉无疑将先进的电动汽车技术和相关生态带入了中国。电动汽车核心技术：电池技术（动力电池）：特斯拉是全球电动汽车电池技术的领导者之一。其在电.............
特斯拉“拒交门”持续发酵，如何看特斯拉大中华区负责人让全员行动当“公关”？

特斯拉“拒交门”事件持续发酵，而其大中华区负责人朱晓彤要求全体员工化身“公关”的行为，无疑将这一事件推向了更受关注的境地。这种做法在危机公关领域非常少见，也引发了广泛的讨论和质疑。要理解这一策略的深层含义以及可能带来的影响，我们需要从多个角度进行剖析。一、事件的背景：特斯拉“拒交门”的由来首先，我.............
特斯拉内部资料泄露，爆 86% 的车辆需要「回炉返工」，特斯拉汽车安全能够保证吗？

关于您提到的“特斯拉内部资料泄露，爆 86% 的车辆需要‘回炉返工’”的说法，我需要进行一些澄清和深入的分析，以帮助您理解相关信息并评估特斯拉汽车的安全性。首先，需要明确信息的来源和性质：信息来源的可靠性：关于“86%的车辆需要回炉返工”的说法，其最广为人知和被广泛报道的来源是来自特斯拉前员.............
特斯拉证实Model X 致死事故处于自动驾驶状态一事反映出哪些问题？

特斯拉Model X致死事故被证实处于自动驾驶状态一事，不仅是一个孤立的事故，更像是一面镜子，折射出当前自动驾驶技术发展、法律法规、用户认知以及企业责任等多个层面存在的深刻问题。以下将进行详细阐述：一、技术成熟度与边界的模糊性： “自动驾驶”的误导性定义与实际能力不符：特斯拉的“Autopil.............