百科问答小站 logo
百科问答小站 font logo



特斯拉 AI 日推出人工智能训练计算机 DOJO 芯片,有哪些技术亮点?使用场景是怎样的? 第1页

  

user avatar   zhangshujia 网友的相关建议: 
      

多年来Tesla不断扩充GPU集群规模,但性能扩展依然是不够的,因此在几年前着手自研Dojo项目,为了更节能、更高性能且经济的方式部署更大体、更复杂的神经网络。Dojo系统也是一个空前的非冯设计范例,搭配极丰富的网络结构和I/O、很平衡的资源扩展和功耗,以及对应的存储和调度结构。

Dojo的设计思想是分布式计算架构,这个思想似乎与Cerebras WSE比较相似【这篇文章分析了Cerebras晶圆级引擎及其架构】,差别在于两者的计算单元内部结构、SRAM尺寸以及网络拓扑的不同。这类型集群的最大挑战是I/O、带宽、低延迟与集群扩展性之间的权宜。Dojo项目的初衷就是有限最大化的扩张计算网络,这个设计思想影响了Dojo实现的每个部分,从芯片Fabric到封装方案。

如下简要罗列几个设计特点:

参考了Tesla官方资料和@青031朋友的整理,Dojo集群由上到下的组织形式:1 ExaPOD -> 20 Cabinet -> 120 Training Tile -> 3,000 D1 Chip -> 1,062,000 Training Node。其中,官方项目中所谓的Function unit即Training-node;它被设计成在1个clock-cycle内遍历,并且每个独立的node都会搭配由高速fabric互连的mesh,以便在1个时钟内路由node之间的通信。另外,每个独立的node都会搭配一块1.25MB SRAM cache,以及多个具备SIMD能力的超标量CPU cores,和一个据称支持所有常见数据类型的MMU矩阵乘法单元(其中还引入一种叫做CFP8的新数据类型 - configurable-floating-point 8)。官方称D1每个node都能在每个方向上实现1TFlops算力的BF16或CFP8、64GFlops FP32以及512GB/s的带宽。因此这个设计与Cerebras相似度又高了......。这354个node单元的整个芯片算力达到了BF16或CFP8的362TFlops,以及FP32的22.6 TFlops。

  • 关于面积和功耗方面,D1共消耗了645mm^2,放进去500亿个晶体管。每颗芯片TDP是400Watt,意味着这个功率密度高于NV A100的大多数配置。【BTW:D1实现了每 mm^2 7750 万个晶体管的有效晶体管密度,这个指标也高于同类竞品的高性能芯片,仅次于手机芯片和Apple M1】。
  • 关于NOC router方面,是Training-node的另一特点,看似是用与Jim Keller的Tenstorrent比较类似的方案来扩展片内和片间连接(Tenstorrent同样定位是适合扩展训练)。
  • 关于ISA方面没有更多细节,引用发布会一句:Tesla went with a custom ISA rather than building on top open source ISA’s like RISC V. This custom ISA introduces instructions for transposes, gathers, broadcasts, and link traversals.
  • 关于带宽/I/O方面:SemiAnalysis的解读称 “Dojo拥有10TBps的定向带宽,但这个数字在真实workload中没有多大意义”。这个确实,相比Tenstorrent,Dojo系统的优势是片间的带宽更高,官方数据称其在112GTs上有576个SerDes,并产生了总共64Tb/s或8TB/s的带宽 -- 对此SemiAnalysis的评论是 “不确定Dojo从哪里获得了每个边缘4TB/s的声称,更有可能是X轴上的数字和Y轴上的数字;目前已知的最高外部带宽芯片是32Tb/s网络交换芯片,而Dojo却声称能够通过大量的SerDes和先进封装将这一点翻倍”。
  • 关于Interface Processors:Dojo集群的计算平面(包括D1芯片和tile)连接到interface processors,这些processors再连接PCIe4.0插槽的主机/机架,负责D1/Tile/Mem之间的数据搬运;当然它还支持更高基数的网络连接,用来支持scale-out更大的计算平面mesh。另外官方称还存在一个专有的高带宽连接器设计,是用来保留这些training-tile之间的片外带宽(设想每个tile都有9PFlops BF16/CFP8算力以及36TB/s的外带宽),这些远超过了Cerebras的晶圆外带宽,如此看来node集群的横向扩展能力能够比Tenstorrent架构更好。

以下是谈谈SemiAnalysis的其中一篇批评文章:

这篇文章似乎有点偏颇,Dojo的设计思想是平面scale-out,虽然单个Training node搭配的SRAM很小(1.25MB cache相当于CPU L2,跟Alder Lake一样…),并且整个Training tile集群内也没有搭配额外Mem(不同于GPU芯片既有SRAM也有HBM);但分布式集群设计就是需要共用一大块的统一的remote memory pool,这同时意味着各个node所属的cache无需一致性,且内存池也保证不了低延时;然而集群节点之间都是通过2D mesh连接,边缘则就通过专门的Interface-processors负责内存池数据搬运(见芯片逻辑图示),故每个Training Node所看到的Memory Pool的带宽和延时没有本质的差异。而官称这个Memory Pool是设计在5个机架行的每一端配置大型DRAM池,单个计算机架本身没有DRAM,全靠网络带宽的凶猛吞吐。这样设计对于底层串口PHY和Fabric是了不起的考验,因为无论是node/tile之间互连,还是访问到Mem,都是串口,没有额外的I/O/channel,全局吞吐几乎一致,功耗几乎平衡。加上8TB/s的极高极宽I/O,妥妥的计算密集型……

BTW:SRAM在设计上不太方便随制程shrink,并挤占training node的数量/面积(也算是Dojo面效比很高的原因之一);当然单cell是可以非常标准shrink的,只是一旦布线就有取舍了,道理跟ddr/gddr/hbm的类比一样…,堆多了,或者为提速,就要增加走线面积,整体利用率可能还下降了,而SRAM昂贵,die上面的晶体管利用率低,经济效益差;这也是含光800跟NV产品的本质区别之一,一个不惜代价堆dark silicon,一个拼命提高利用率(Nvidia的800mm2的旗舰也就30MB SRAM)。遥想起当年老展讯的设计师,当年他们能存活下来,全靠一个一个晶体管审核经济效益才挣到钱。其实批评SRAM的意义不大,更应该质疑软件栈,毕竟这种大集群设计,18*20 mesh连接354 cores,节点通信路由问题、软件栈和BF16/CFP8 MAC算法层面问题、如何适应scale-out、是否是图灵完备等还没定论。

参考:
perspectives.mvdirona.com

Tesla's insane new Dojo D1 AI chip, a full transcript of its unveiling

Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware

cleantechnica.com/2021/

Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware



user avatar   ai-fan-er-85 网友的相关建议: 
      

今天不是愚人节,但胜似愚人节。

因为就在刚刚——戴森,发布了一款耳机

这款耳机,是「头戴式耳机 + 空气净化器」的结合。

不仅支持主动降噪,解决噪音污染;还支持空气净化,解决空气污染。

一箭双雕。


你没看错,戴森首款「空气净化耳机」真来了——

戴在头上的空气净化器

这款耳机名为「Dyson Zone」。

初看上去,它的造型充满金属感,就像耳机和口罩的结合体。

主角刚从 2032 年的空气污染重灾区穿越回来,告诉我们音乐和新鲜空气可以一起进入大脑。



戴在头上的空气净化器——第一次觉得戴森能有一个产品和它的名字如此契合。

净化空气

戴森在这款耳机上提出了「移动净化」的概念。

也就是说,让你不仅在家,走进各个城市的雾霾里也能呼吸到新鲜空气。



Dyson Zone 这里用到了两种净化系统。

首先是移动净化技术。

两侧的耳机腔体内,塞入了「双重净化系统」,内含马达,可以主动吸入外界空气,接着过滤污染和有害气体。



戴森研发出了一种「静电式过滤媒介」。

它能够主动吸引空气中的灰尘和颗粒物。



这样就能把摩托车头套一样的大滤网,变成小尺寸、纤细的滤网,放进耳罩里。



经由过滤之后,外界空气就会传递到前面的面罩里。

然后,就是创新呼吸气流技术。



戴森新创了一种无接触式的面罩。

空气将从耳机两侧进入口鼻中间,然后再从中间呼出,持续输送洁净的气流,整个过程都是无接触的。



等于直接在你的嘴部打造一个洁净空气的呼吸区。



净化噪音

耳机造型都来了,不能放歌说不过去了。

戴森把移动净化的概念,和声学系统结合,然后 Dyson Zone 就变成了一个能空气净化的耳机了。



这个耳机的耳罩能够完全包裹耳朵,还搭载了主动降噪技术,外部能捕捉外界噪音。



同时,内部配备了一种算法,在噪音接近耳机时进行降噪。



为了保持好的音频质量,戴森还设计了很大的音腔,扬声器驱动器,以及配合宽音域的频率响应。

但具体听感如何,等爱范儿后续来评测吧。

重新定义「耳机」

戴森没做过耳机,但空气净化戴森可是老行家了。

一直以来,戴森每一件产品都在持续创新和颠覆,产品也非常多元,比如无叶无噪音的吹风机、不伤发的卷发棒、能用一辈子的自然光照明灯……



但戴森的核心技术,依然是空气净化。

从一开始的无线无尘袋吸尘器,到能加湿空气、净化空气、取暖和凉风的各类无叶电风扇。

这款空气净化耳机,戴森也表示是经过了 30 年的过滤技术积累,研发了 6 年,进行了 500 多个模型的迭代。



2016 年,戴森内部提出了「移动净化」的概念,接着就开始了全球城市的空气调研。

两年后,他们开始测试产品,发现将过滤网放在耳机内,能达到最好的空间净化效果。

这大概也是为什么,耳机要和口罩连在一起。



2019 年开始,产品开始根据不同人脸设计不同模型,继续打造产品内部零件的适用性,还有净化技术和降噪技术的融合。

毕竟将一大堆复杂的净化系统,放进两个小小的耳机腔体里,的确不是什么简单事。



最后,才有了这款未来感满满的移动净化设备。

在全球空气污染一直都是一个严重的问题。

这款空气净化耳机实现了便捷的户外空气净化,倒也是一个很符合当下的应景产品。



而且戴森首席执行官 Jim Rowan 之前就在采访中提过,(中国消费者) 喜欢拥抱新技术,对于颠覆性产品持相当开放的态度。

疫情当下,我们比任何时候都更重视呼吸这件事。



不过,它是个空气净化耳机,没有防护等级,不能当防疫口罩用。

无论如何,我们很高兴看到,可穿戴设备的未来,至此出现一个新的可能。


user avatar   kudo-tsung 网友的相关建议: 
      

那难怪这个上古文明衰亡了


user avatar   fengzhihaojiao 网友的相关建议: 
      

几年前某军区站岗哨兵被袭,枪弹被抢,人死没死不记得了。是不是要提个问题“为何全副武装哨兵面对袭击挂掉”?

大惊小怪。




  

相关话题

  大家对人工智能医疗怎么看?人工智能医疗应该着重往那个方向发展比较好? 
  如果我国所有军备芯片只有14NM,美国军备芯片是5NM,那么在战争上的差距会体现在什么地方? 
  如果美国开放芯片了 国产芯片怎么办? 
  有哪些人工智能变人工智障的事例? 
  如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者? 
  基于深度学习的人工智能程序和传统程序的差别在哪里? 
  苹果的M1芯片是不是证明arm可以干翻X86了? 
  如何自学人工智能? 
  KL散度衡量的是两个概率分布的距离吗? 
  如何评价芯华章的EDA突破? 

前一个讨论
2021年操作系统设计与实现研讨会(OSDI)有哪些值得关注的文章?
下一个讨论
如何看待中国造出大克拉人工钻石?天然钻石会降价还是涨价?如果看不出区别,人们会更倾向人工还是天然的呢?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利