问题

如何看待谷歌公开 tensorflow 专用处理器 TPU?

回答
谷歌公开 TensorFlow 专用处理器 (TPU) 是人工智能(AI)领域发展中的一个里程碑事件,具有深远的影响。下面我将从多个维度详细阐述如何看待谷歌公开 TPU:

一、 背景与动机:为何谷歌要研发 TPU?

AI 计算的爆炸性增长: 随着深度学习模型越来越复杂,以及数据量的不断增加,传统的 CPU 和 GPU 在训练和推理 AI 模型时面临性能瓶颈和功耗问题。
定制化硬件的优势: AI 计算任务具有高度的并行性和特定的计算模式(如矩阵乘法、卷积等)。通过设计专门的硬件架构,可以更高效地执行这些操作,从而获得远超通用硬件的性能和能效比。
Google 对 AI 的战略投入: 谷歌是全球领先的 AI 公司之一,其各项业务(搜索、翻译、语音助手、自动驾驶等)都深度依赖 AI 技术。拥有自主研发的专用 AI 芯片是确保其在 AI 领域持续领先的关键战略。
TensorFlow 的生态系统: TensorFlow 是谷歌开源的领先深度学习框架。开发 TPU 的一个重要动机是与 TensorFlow 生态系统紧密结合,提供一个软硬件一体化的解决方案,让用户能更方便、更高效地利用其 AI 技术。

二、 TPU 的技术特点与优势:

面向机器学习的架构: TPU 的核心设计是为神经网络的计算(尤其是矩阵乘法和卷积)而优化。它通常包含大量的矩阵乘法单元(MXU),能够并行处理大量的乘加运算。
高吞吐量和低延迟: TPU 能够以极高的吞吐量执行大规模的矩阵运算,显著缩短了模型训练和推理的时间。同时,其专用设计也降低了数据传输的延迟。
出色的能效比: 相较于通用处理器,TPU 在执行 AI 计算时能耗更低。这对于大规模数据中心的部署尤为重要,可以降低运营成本并减少碳排放。
独特的内存架构: TPU 通常拥有优化的内存层次结构,能够快速访问和处理神经网络所需的大量参数和中间结果,减少了数据在内存和计算单元之间的搬运次数。
与 TensorFlow 的深度集成: TPU 是为 TensorFlow 量身定制的。谷歌通过优化 TensorFlow 的编译器(XLA)和运行时,使其能够充分发挥 TPU 的性能。这种软硬件的紧密配合是 TPU 的核心竞争力之一。
按需扩展的集群能力: TPU 可以构建成大规模的计算集群,以应对日益增长的 AI 计算需求,实现近乎线性的性能扩展。

三、 谷歌公开 TPU 的影响与意义:

加速 AI 技术的落地与普及: TPU 的公开和可用(通过 Google Cloud 等平台)降低了 AI 计算的门槛,使得更多企业、研究机构甚至个人开发者能够接触到高性能的 AI 加速硬件,从而加速 AI 技术在各行各业的应用。
推动 AI 硬件创新: 谷歌 TPU 的出现极大地激发了 AI 芯片市场的竞争和创新。许多其他公司(如 NVIDIA、Intel、AMD,以及众多初创公司)也纷纷加大对 AI 专用芯片的研发投入,推动了整个行业的技术进步。
对传统硬件厂商的挑战: TPU 的成功对传统的 CPU 和 GPU 厂商构成了挑战,迫使它们加速在 AI 领域的布局和技术升级。
形成软硬件一体化的生态系统: 谷歌通过 TPU 和 TensorFlow 的结合,构建了一个强大的软硬件一体化生态系统。用户可以在这个生态系统中获得从模型开发到硬件部署的全方位支持。
提升谷歌自身在 AI 领域的竞争力: 自主研发并部署 TPU,使谷歌能够在 AI 训练和推理方面获得显著的性能和成本优势,巩固了其在 AI 领域的领导地位。
改变云服务市场格局: 谷歌 Cloud 提供的 TPU 服务,为用户提供了更具竞争力的 AI 计算选项,吸引了更多寻求高性能 AI 计算资源的客户。
推动 AI 研究的边界: 更高的计算能力和更低的成本,使得研究人员能够探索更庞大、更复杂的 AI 模型,从而推动 AI 研究的边界。

四、 如何看待谷歌公开 TPU 的不同角度:

对于用户/开发者:
积极影响: 提供了更强大、更经济的 AI 计算资源,加速了模型开发和部署的周期。
潜在挑战: 需要学习和适应新的硬件架构和工具链,尤其是在使用 TPU 的过程中需要对 TensorFlow 的相关API和优化有一定了解。
对于硬件行业:
竞争与合作: 刺激了新一轮的 AI 硬件创新竞赛,但也促使行业更加关注软硬件协同优化。
市场细分: 推动了 AI 芯片市场的专业化和细分,出现了更多针对特定 AI 工作负载的专用芯片。
对于谷歌自身:
战略性投资: 确保了其在 AI 领域的核心竞争力,并为其云业务提供了差异化优势。
生态系统建设: 加强了 TensorFlow 的生态吸引力。
对于AI伦理与安全:
更强大的计算能力也意味着 AI 技术可以更快速地发展,因此也需要更加关注 AI 的伦理、安全和社会影响。

五、 总结:

谷歌公开 TPU 是其在 AI 领域一项具有前瞻性和战略性的举措。它不仅是谷歌自身技术实力的体现,也对整个 AI 产业产生了深远的影响。TPU 的出现标志着 AI 计算正在从通用硬件向专用硬件演进,软硬件协同优化成为关键趋势。虽然对于用户来说可能存在一定的学习成本,但总体而言,TPU 的普及加速了 AI 技术的落地和发展,为构建更智能的未来奠定了坚实的基础。

值得注意的是,TPU 的发展仍在持续进行,例如从第一代到后续的 TPU v2, v3, v4, v5 等,性能和功能都在不断提升。同时,其他公司也在不断推出自己的 AI 加速芯片,使得 AI 硬件市场的竞争更加激烈和多元化。谷歌公开 TPU 的做法,可以说是开启了 AI 专用硬件的新篇章。

网友意见

user avatar

被TPU论文引用过的人顶着赶论文的压力强行来答一波。

先说一句题外话。。。这个世界是一个罗生门,每个人都在自说自话。学术圈的一小部分人也不能完全免俗,而科技圈 99% 的人都不免俗。每一套话语背后都有一个隐含的框框,只有掌握全部事实,才有可能跳出框框,获得真相。

-----------------------我是分割线----------------------

我是属于体系结构圈子里第一波(大约是2012~2013年之间)开始做神经网络加速器的。同一时间我知道的工作还有中科院陈云霁老师和清华的汪玉老师。

总的来说,TPU这次论文有很多有趣的信息,但性能并没有什么好惊艳的。

我拎出一些值得注意的地方说一说。

-----------------------我是分割线----------------------

1. 关于TPU和GPU的对比,以及一些争吵。吵来吵去,其实就是两点,性能和功能。

性能是说 Performance 和 Performance/Watt,功能是说 Training 和 Inference 。

TPU宣称自己 Performance / Watt 远高于GPU(大约25倍)。N家掌门人老黄立刻说你们用K80 比是不厚道的;你们的性能仅仅是 P40 的两倍而已,Performance / Watt 仅仅是 6倍。而且还不支持浮点和训练。媒体圈加科技圈就开始热闹非凡,资本圈早就暗流涌动抢着投钱做ASIC。

总的来说,TPU和GPU不是谁取代谁的问题(敲黑板!)而是各自都有生存的空间,谁也不能取代谁。比一比性能只是互相学习和参照罢了。

---- 吐槽人家只做 Inference 是不对的!大部分的训练算法都在后台运行,快速的部署和训练迭代是最关心的问题。N家的生态环境和性能都已经做得很好了,我怀疑Google 有没有动力非要自己做一个训练的加速器。而用于在线服务/终端的 inference 的重要性我就不多说了,90%的设备都用来做 inference 以提供实际服务了。P40的GPU是不可能插在在线服务端的,数据中心的功耗限制大多数都在 100 w 以下,有的甚至只有50w,比如 MS 和 FB。嵌入式端就更是这样了,手机和无人机,在应用需求真正起来之后,我们是可以展望另一种形式的TPU被集成的。当然,这一天也不会来的太快。毕竟TPU太专用了,目前只有Google这样体量的公司,会有应用这种专用加速的动力。

---- 只比较性能(Tera Operations / Sec)是不全面的!只比较 Performance / Watt 也是不对的!刚才说了。不能单纯做除法,50 Watt,5Watt,3Watt,都是云端/嵌入式终端的硬性限制。满足这个限制基础上,再来谈 Performance / Watt 才有意义。另一方面,TPU一片才几百刀,老黄家GPU动辄几千上万刀。难怪大体量的数据中心会选择自己做芯片。太划算了 !数据中心的功耗密度已经是一个非常严峻的问题了。微软采用了FPGA的路子是另一条有趣的技术路线。成功与困难并存。大家可以移步李博杰大神的文章(如何评价微软在数据中心使用FPGA代替传统CPU的做法? - 知乎)讲的很透彻。

所以,我很好奇。老黄为何用 P40 做比较。P4 不是更好么?22 TOPs(INT8)的性能,50 Watt。跟 Google TPU 的 Performance / Watt 的比较,只有 4x 的差距。


2. 关于TPU的一些有趣的观察。

----- a) 正确分析处理器带宽很重要。号称 90 TOPS 的性能。在 MLP 上只有 10 TOPs 的实际性能。而Google又号称 MLP 占据了 60%的应用。这才是真正的槽点。敢情只有 1/9 的性能被用上了。其实原因也简单,主要是被带宽限制住了,34GB/s 还有很大改进空间。改到 340GB/s就能用上剩下 8/9了。

因为带宽问题,文中大量出现 Roofline Model,但却被大家忽略了。我们在北京大学的工作,是世界上第一个提出使用 Roofline Model 对神经网络加速器进行设计优化的( 最初的Roofline Model 由David Patterson老爷子提出,他也是TPU作者之一)。可惜这个概念目前还没有被大家很好地使用,目前只有TPU和我们的工作使用了Roofline Model。

------ b) 8 Bit 的做法在当时很激进。算上论文发表的时间,算上ASIC设计与迭代周期等等,Google在秘密开始TPU项目可能是在2015年以前(个人猜测)。那个时间段做 8 Bit 真的是非常激进了。学术圈(计算机视觉)里的低定点化研究大约在2016 年才出现。(更新:以下猜测并不准确,请大家移步贾扬清大神的评论)猜测TPU也有可能以浮点设计开始,到2016年才开始改成定点的。如果是这样,那么从学术圈研究到工业界的应用,只用了一年不到的时间。而且还是代价巨大的ASIC,Google这么做确实吓人一跳。当然,这一跳不是在看到论文时吓的。圈里早就传说TPU是 8-Bit了。

更新一下贾扬清大神的评论:

Google是在2013年左右开始研发TPU,而且当时就确定了8bit计算的方法,当时敢上8bit的缘故是speech证明了8bit可行(可以参见Vanhoucke的论文),所以的确还是很先进的。 (都是公开信息,没有内幕)

----- c) TPU文中许多应用的存储量都很小。5M-100MB的参数,片上再挤一挤其实也能放下了。一方面,模型的压缩和稀疏化能够派上用场了。另一方面,可以使用有两块/多块芯片,各自处理神经网络的一部分。这样即使有很大的权重,也可以通过分配到多个芯片的缓存上,来解决这个问题。这样就没有带宽的后顾之忧了。这也将是很有意思的研究方向。当然这件事工程上并不容易,我们在多FPGA上进行了一些探索,但是ASIC上暂时还没有看到公开发表的研究。

----- d) TPU不是终点,而只是开始。神经网络算法一直在演变和发展,这套方法的理论还不成熟,应用场景也会在未来几年发生巨大的变化。大家可以想象一下安防、无人机、智慧大楼、无人驾驶,等等等等。每一个子领域都有 系统/功耗/性能 一系列问题和各种权衡。一方面,是算法多变的情况下,如何发掘计算的内在并行性,又给上层程序员提供一个高效的编程接口,是一个很重要很实际的问题。另一方面,也有可能会做得极其定制化。牺牲大量编程性以求极低的功耗和性能,比如手机上专门做一个只识别人脸的芯片。

未来很精彩,让我们拭目以待。

----------------

没想到一下这么多人关注这个回答,还有师弟问我工作的事情。那我厚颜无耻地打个小广告吧。最近 @谢小龙 师弟邀请我一起开一场Live(知乎 Live - 全新的实时问答),时间是5月3号晚上8点,主题是计算机专业学生如何在校招中脱颖而出。因为也是第一次开live,希望大家轻喷,主要是和大家聊聊我们的求职经历,希望能给大家带来一丢丢启发。

user avatar

稍微研究了一下,这块芯片的硬件架构本身只能说是平平无奇,构建在其之上的应用才是真有技术含量的。

这里只谈谈芯片,功能其实非常简单,就是矩阵乘法以及矩阵乘法之后的一些非线性计算,论文中看到所谓非线性功能指的应该是比较器功能。

号称比K80等有几十倍的能效提升,很重要的一点是因为它使用的是8bit的定点乘加运算。所以其加法的资源要比16bit浮点加法器要少非常多。乘法器资源也少一些。显然精度要差很多,但论文中号称8bit足够精确,那是从软件和系统层面的考虑,程序都是你们写的,你们说够精确就够精确好了。其他人表示摊手。

另外TPU的核心运算单元的矩阵乘法阵列是一个256x256的MAC阵列,看起来它最拿手的运算是计算AxB=C,其中A是Nx256的矩阵,N是一个远大于256的数,B是256x256的系数矩阵,C是结果,全部运算耗时n个cycle。

系数是预加载的,数据是每拍输入一行数据,C的每一行的结果需要耗费256个cycle,当然了行与行是流水的计算的,所以每拍都可以出一行的结果。这么看来效率达到了最大值了。每个MAC都充分利用了,所以其能效比非常高。

但是缺点也很明显:太专用了。只能完成乘+加+乘+加......这样规则的运算,无法应付诸如复数乘法,求倒,求平方根倒数,等常见算法。这和GPU,CPU的通用设计理念的不符的,所以你拿一个专用器件和通用器件比能效,这本身只能是博眼球的做法,这如果是国内本土厂商的做法,是会被扒光皮然后被喷出翔的

另外这个矩阵乘法阵列本身没有任何可编程的特性,如果遇到小规模矩阵的乘法,其每行的输出看起来仍然需要256cycle的延时(待证实),这是一个不小的可改进点。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有