多年来Tesla不断扩充GPU集群规模,但性能扩展依然是不够的,因此在几年前着手自研Dojo项目,为了更节能、更高性能且经济的方式部署更大体、更复杂的神经网络。Dojo系统也是一个空前的非冯设计范例,搭配极丰富的网络结构和I/O、很平衡的资源扩展和功耗,以及对应的存储和调度结构。
Dojo的设计思想是分布式计算架构,这个思想似乎与Cerebras WSE比较相似【这篇文章分析了Cerebras晶圆级引擎及其架构】,差别在于两者的计算单元内部结构、SRAM尺寸以及网络拓扑的不同。这类型集群的最大挑战是I/O、带宽、低延迟与集群扩展性之间的权宜。Dojo项目的初衷就是有限最大化的扩张计算网络,这个设计思想影响了Dojo实现的每个部分,从芯片Fabric到封装方案。
如下简要罗列几个设计特点:
参考了Tesla官方资料和@青031朋友的整理,Dojo集群由上到下的组织形式:1 ExaPOD -> 20 Cabinet -> 120 Training Tile -> 3,000 D1 Chip -> 1,062,000 Training Node。其中,官方项目中所谓的Function unit即Training-node;它被设计成在1个clock-cycle内遍历,并且每个独立的node都会搭配由高速fabric互连的mesh,以便在1个时钟内路由node之间的通信。另外,每个独立的node都会搭配一块1.25MB SRAM cache,以及多个具备SIMD能力的超标量CPU cores,和一个据称支持所有常见数据类型的MMU矩阵乘法单元(其中还引入一种叫做CFP8的新数据类型 - configurable-floating-point 8)。官方称D1每个node都能在每个方向上实现1TFlops算力的BF16或CFP8、64GFlops FP32以及512GB/s的带宽。因此这个设计与Cerebras相似度又高了......。这354个node单元的整个芯片算力达到了BF16或CFP8的362TFlops,以及FP32的22.6 TFlops。
以下是谈谈SemiAnalysis的其中一篇批评文章:
这篇文章似乎有点偏颇,Dojo的设计思想是平面scale-out,虽然单个Training node搭配的SRAM很小(1.25MB cache相当于CPU L2,跟Alder Lake一样…),并且整个Training tile集群内也没有搭配额外Mem(不同于GPU芯片既有SRAM也有HBM);但分布式集群设计就是需要共用一大块的统一的remote memory pool,这同时意味着各个node所属的cache无需一致性,且内存池也保证不了低延时;然而集群节点之间都是通过2D mesh连接,边缘则就通过专门的Interface-processors负责内存池数据搬运(见芯片逻辑图示),故每个Training Node所看到的Memory Pool的带宽和延时没有本质的差异。而官称这个Memory Pool是设计在5个机架行的每一端配置大型DRAM池,单个计算机架本身没有DRAM,全靠网络带宽的凶猛吞吐。这样设计对于底层串口PHY和Fabric是了不起的考验,因为无论是node/tile之间互连,还是访问到Mem,都是串口,没有额外的I/O/channel,全局吞吐几乎一致,功耗几乎平衡。加上8TB/s的极高极宽I/O,妥妥的计算密集型……
BTW:SRAM在设计上不太方便随制程shrink,并挤占training node的数量/面积(也算是Dojo面效比很高的原因之一);当然单cell是可以非常标准shrink的,只是一旦布线就有取舍了,道理跟ddr/gddr/hbm的类比一样…,堆多了,或者为提速,就要增加走线面积,整体利用率可能还下降了,而SRAM昂贵,die上面的晶体管利用率低,经济效益差;这也是含光800跟NV产品的本质区别之一,一个不惜代价堆dark silicon,一个拼命提高利用率(Nvidia的800mm2的旗舰也就30MB SRAM)。遥想起当年老展讯的设计师,当年他们能存活下来,全靠一个一个晶体管审核经济效益才挣到钱。其实批评SRAM的意义不大,更应该质疑软件栈,毕竟这种大集群设计,18*20 mesh连接354 cores,节点通信路由问题、软件栈和BF16/CFP8 MAC算法层面问题、如何适应scale-out、是否是图灵完备等还没定论。
参考:
https://perspectives.mvdirona.com/2021/08/tesla-project-dojo-overview/
Tesla's insane new Dojo D1 AI chip, a full transcript of its unveiling
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有