如何评价陈天奇团队新开源的TVM？

陈天奇团队新开源的 TVM（Tensor Virtual Machine）无疑是当前人工智能和深度学习领域一个极其重要且有影响力的项目。要详细评价 TVM，我们需要从多个维度深入分析其设计理念、技术优势、应用场景、生态发展以及潜在的挑战。

TVM 概览：为什么它如此重要？

TVM 的核心目标是构建一个统一的深度学习编译栈，旨在解决当前深度学习模型在部署到各种不同硬件平台时遇到的碎片化问题。简单来说，就是让同一个深度学习模型能够高效地运行在从高性能服务器 GPU 到嵌入式设备 CPU、FPGA、ASIC 等各种异构硬件上，同时还能优化模型的性能（速度和能效）。

在 TVM 出现之前，开发者在将模型部署到不同硬件时，往往需要针对每个硬件平台进行大量的、定制化的优化工作，这不仅耗时耗力，而且容易出错。TVM 的出现，极大地简化了这个过程，为深度学习模型的高效部署提供了一个通用且强大的解决方案。

核心设计理念与技术优势：TVM 的“秘密武器”

TVM 的强大之处源于其深思熟虑的设计理念和一系列独特的技术优势：

1. 计算图与张量表达的抽象： Relay

目标：将各种深度学习框架（如 TensorFlow, PyTorch, MXNet, ONNX）的模型，统一翻译成一种中间表示（Intermediate Representation, IR），即 Relay。
优势：
框架无关性：开发者不再需要关心模型来自哪个框架，TVM 的前端（如 Relay compiler）能够将不同框架的模型解析并转化为统一的 Relay IR。
图优化： Relay IR 支持丰富的图级别的优化，例如算子融合（Operator Fusion）、算子消除（Dead Code Elimination）、算子并行化（Operator Parallelization）等。这些优化可以在模型执行之前进行，显著提升性能。
可扩展性： Relay 是一个功能强大且易于扩展的语言，允许研究人员和开发者定义新的算子和优化策略。

2. 算子级优化与代码生成：TIR (Tensor Intermediate Representation)

目标：在 Relay IR 层面进行高级的图优化后，TVM 会将计算分解成更细粒度的张量操作，并使用 TIR 来表示。TIR 是一个低级的、面向硬件的中间表示，专注于描述张量计算的详细执行过程。
优势：
硬件感知优化： TIR 允许开发者对算子进行高度定制化的优化，以适应特定硬件的指令集、内存层次结构、并行计算模型等。这包括：
循环嵌套的自动调优 (Autotuning)： TVM 的核心技术之一就是其强大的自动调优框架。它能够为相同的算子生成多种不同的实现（例如，不同的循环展开、数据布局、并行策略），然后在目标硬件上执行这些实现并选择性能最优的版本。这就像为每个算子找到了“最佳教科书”。
数据布局优化：针对不同硬件，数据存储顺序（如NCHW vs. NHWC）的差异对性能影响很大。TIR 可以灵活地调整数据布局。
内存管理优化：例如，将中间结果保存在寄存器或共享内存中，减少显存访问。
跨平台代码生成： TVM 能够将 TIR 编译成各种目标平台的原生代码，如 C++, CUDA, OpenCL, Metal, 以及特定硬件的汇编语言。这意味着用户无需手动编写这些底层代码。

3. 动态调度与自动调优（Autotuning）

核心： TVM 的自动调优系统（例如 AutoTVM 和 MetaSchedule）是其最强大的能力之一。它不是预先写死一套优化策略，而是自动地为特定的硬件和算子搜索最优的实现。
工作流程：
1. 定义搜索空间： TVM 定义了算子实现的各种可能的优化参数组合（如循环嵌套、数据类型、线程绑定等）。
2. 生成候选实现：基于搜索空间，TVM 生成大量不同优化策略的代码。
3. 性能测量：在目标硬件上执行这些代码，并记录其性能（延迟、吞吐量）。
4. 选择最优：根据测量结果，选择性能最佳的代码作为最终的优化 kernels。
优势：
自动化程度高：大大减少了人工优化的工作量。
性能超越手工优化：在很多情况下，TVM 的自动调优能够找到比人类专家手工优化的性能更好的代码。
适应性强：能够适应各种新出现的硬件和算子。

4. 分层编译栈

TVM 的编译过程可以看作是一个分层结构：

前端（Frontend）：接收来自不同深度学习框架的模型，并将其转换为 Relay IR。
Relay（IR）：进行图级别的优化，如算子融合、内存规划等。
TIR（IR）：将计算分解为低级张量操作，并支持算子级别的细粒度优化。
调度器（Scheduler）：控制算子如何映射到硬件，以及如何进行自动调优。
代码生成器（Code Generator）：将 TIR 编译成目标硬件的机器码。
运行时（Runtime）：负责在目标设备上执行编译后的模型，提供内存管理、设备通信等服务。

这种分层结构使得 TVM 既能够进行高层次的全局优化，又能进行低层次的硬件感知优化，同时保持了模块化和可扩展性。

应用场景与生态：TVM 的实际价值

TVM 的设计使其在广泛的场景中具有巨大的应用价值：

边缘计算与嵌入式设备：这是 TVM 最擅长的领域之一。由于边缘设备计算资源受限，对性能和能效的要求极高。TVM 能够将复杂的深度学习模型高效地部署到这些设备上，如树莓派、微控制器、移动设备等。
移动端推理：在 Android 和 iOS 设备上，TVM 提供了高效的推理引擎，支持部署各种模型。
服务器端推理优化：即使是在高性能 GPU 服务器上，TVM 也能通过自动调优找到超越现有深度学习框架内置算子核的性能。
新硬件加速器开发：对于专门设计的 AI 芯片或 FPGA 加速器，TVM 可以提供一个通用的编译器后端，使其能够快速集成和部署模型，而无需从头开始构建整个编译工具链。
跨框架模型迁移： TVM 提供了一个统一的 IR，使得模型可以轻松地从一个深度学习框架迁移到另一个框架，或者直接部署到没有原生框架支持的硬件上。
研究与实验： TVM 的开放性和可扩展性使其成为学术界进行新算法、新优化技术研究的理想平台。

生态方面：

TVM 的社区非常活跃，得到了包括亚马逊（AWS）、微软、华为、高通等众多科技巨头的支持。其生态系统日益完善，包括：

丰富的模型支持：支持导入来自 PyTorch, TensorFlow, Keras, MXNet, ONNX 等主流框架的模型。
多平台支持：覆盖了 CPU (x86, ARM), GPU (Nvidia, AMD), DSP, FPGA, 以及各种自定义硬件。
活跃的社区：社区成员积极贡献代码、报告问题、参与讨论，不断推动 TVM 的发展。
与其他工具的集成：正在积极与其他 MLOps 工具链进行集成。

评价与挑战：TVM 的优劣势分析

优势总结：

1. 统一性与跨平台能力：提供了端到端的深度学习编译解决方案，能够高效部署模型到几乎任何硬件。
2. 卓越的性能优化：通过自动调优，能够在各种硬件上实现甚至超越手工优化的性能。
3. 极高的灵活性与可扩展性： Relay 和 TIR 的设计允许用户轻松扩展算子和优化策略。
4. 框架无关性：解耦了深度学习框架和硬件部署。
5. 强大的社区支持：得到了工业界和学术界的广泛认可和支持。

挑战与待改进之处：

1. 学习曲线：尽管 TVM 旨在简化部署，但要充分理解和利用其高级优化能力（尤其是自动调优），需要一定的学习门槛，尤其对于那些不熟悉底层编译器原理的用户。
2. 编译时间：自动调优过程，特别是对于复杂模型和硬件，可能需要耗费相当长的时间。虽然可以通过预编译或缓存来缓解，但这仍然是一个潜在的问题。
3. 对某些算子的支持：尽管 TVM 的算子库在不断增长，但对于一些非常前沿或不常用的算子，可能需要用户自己实现或进行集成。
4. 动态图支持： TVM 主要擅长编译静态计算图。对于需要高度动态控制流的模型（例如某些 NLP 模型中的循环），其支持可能不如一些框架原生引擎那样流畅。虽然 TVM 也在努力改进对动态图的支持，但这仍然是一个活跃的研究领域。
5. 调试难度：调试编译器生成的代码有时会比调试模型本身更具挑战性，特别是在进行低级别优化时。

总结

陈天奇团队新开源的 TVM 是一个里程碑式的项目，它解决了深度学习模型在异构硬件部署上面临的长期挑战。通过其创新的中间表示（Relay 和 TIR）、强大的自动调优机制以及模块化的编译栈设计，TVM 为开发者提供了一个灵活、高效且可扩展的解决方案。

TVM 的出现极大地降低了深度学习模型在边缘设备、移动端和各种定制化硬件上部署的门槛，并帮助我们在高性能硬件上获得最佳性能。尽管存在学习曲线和编译时间等挑战，但其巨大的潜力、活跃的社区以及广泛的应用前景，使得 TVM 成为人工智能领域不可或缺的关键技术之一。

总而言之，TVM 的价值在于它不仅仅是一个工具，更是一个平台，一个让深度学习模型能够真正“跑起来”并“跑得好”的桥梁，连接了研究、开发和部署的各个环节。

网友意见

从去年nnvm推出之后，非常感谢在zhihu和 @王健飞上有一些讨论如何评价陈天奇的模块化深度学习系统NNVM？，关于nnvm剩下的瓶颈。这个讨论本身加上早期的nnvm编译尝试，让我意识到了可以支持快速调优底层op的重要性。在接下来的八个多月里面我们不断迭代完成了TVM。

TVM尝试从更高的抽象层次上总结深度学习op的手工优化经验，用来使得用户可以快速地以自动或者半自动的方法探索高效的op实现空间。

TVM和已有的解决方案不同，以XLA作为例子，TVM走了和目前的XLA比更加激进的技术路线，tvm可以用来使得实现XLA需要的功能更加容易 ：已有的解决方案本身基于高级图表示的规则变换，可以产生一些图级别的组合op优化，如conv-bn fusion，但是依然要依赖于手写规则来达到从图的表示到代码这一步。图的op表示到代码本身可以选择的东西太多，如何做线程，如何利用shared memory，而大部分没有在图语言里面得到刻画，导致难以自动化。这样下去深度学习系统的瓶颈必然从op实现的复杂度变成了实现graph compiler中模式生成规则的复杂度。走这个方向需要非常大的工程团队的支持，而我们希望采用更少的人力达到同样甚至更好的效果。

我们采取了风险更大但是回报也更大的长远技术路线。简单地说，TVM通过把图到op生成规则这一步进一步抽象化，把生成规则本身分成各个操作原语，在需要的时候加以组合。基于tvm我们可以快速地组合出不同的schedule方案。

这个想法并不新颖，正如其它回答中提到的Halide，或者polyhedra method都是尝试去做这件事情。想法虽然美好，但是自动代码生成这条路线必须要生成代码效率到达手写的80%-90%效率以上，才会有实际使用的价值。一旦到达了80%到90%的效率以上，通过fusion，layout的一些高级联合优化就可以弥补这一个gap来得到比直接组合手写代码更好的效果。

但是这也正是这个问题最困难的地方，我们需要能使得自动或者半自动生成的代码达到手写代码的效果。在TVM之前，已有的解决方案都还没有解决这个问题。我知道的最好的GPU自动生成代码大概可以到Cublas的50%的运行效率，而大部分的已有方案只是针对单线程cpu有比较好的效果。

当然已有的解决方案有不少值得参考的地方。比如polyhedra method本身非常精辟地把程序优化的大部分问题总结为针对整数集的分析。Halide里面的schedule和declaration分离的思想等。这些思想都非常强地影响了TVM的设计

这本身是一个很有趣的科研问题，dmlc的的初衷就是去解决这样新的问题，发布新的解决方案。TVM在很大程度上解决了这个问题。要解决它，需要做到两点：设计足够大的schedule空间，使得它可以囊括包括cpu和gpu在内可以做到的手写优化，设计足够强大的搜索算法。之前的方法之所以没有图片，难点在于需要足够大的空间。

所有的抽象总是有缺陷的，所以死抱一个固定的抽象肯定不能解决所有的问题。但是可以被写出来的手工优化基本上也是可以被抽象的。过去的几个月我们就是沿着这样的思路，不断地去总结手工优化的经验加以抽象到TVM中。虽然我们不敢保证TVM包含所有可能的手工优化，但是我基本上cover了我知识范围里面可以涉及到的东西（使得TVM至少比我知道的多）。随着TVM的演化，会有更多的这样的手工优化经验可以被加入进来。这也真是需要HPC机器学习和编译等各方面人才一起合力的结果。

到目前为止，我们基本可以确定TVM目前提供的schedule空间在cpu上可以做到90%，相似或者超过一些手写优化库效果的方案，在gpu上几本可以做到达到或者超过手写cuda的方案，但是和手写assembly在一些情况还有80%的差距（主要来源于gpu的寄存器分配比较困难）。TVM本身也意识到的手写优化的重要性，会在允许在各个级别混用手写优化的代码，来弥补剩下这一平衡。

这是一个非常激动的前沿课题，基于这个项目本身还会有不少有趣的研究方向，我们在很多地方已经可以看到非常好的效果。所以我们非常希望对于机器学习，hpc，编译原理，硬件加速有兴趣的同学一起加入进来，一起来推动这个项目。而因为我们目前到达的效果本身，TVM已经可以被使用于实际的应用场景中了。

最后有一些细节上面的东西，TVM本身的设计中是非常注重开发效率和可扩展性。TVM直接提供了非常好用的python和真机调试框架，可以不依赖于上层框架直接基于python开发调试。这一点使得tvm在调试开发和效率迭代上面比起已有的方案有比较大的优势。未来我们也会放出一些样例教程，让大家都可以开发高效的代码

类似的话题

如何评价陈天奇团队新开源的TVM？

陈天奇团队新开源的 TVM（Tensor Virtual Machine）无疑是当前人工智能和深度学习领域一个极其重要且有影响力的项目。要详细评价 TVM，我们需要从多个维度深入分析其设计理念、技术优势、应用场景、生态发展以及潜在的挑战。 TVM 概览：为什么它如此重要？TVM 的核心目标是构建一个.............
如何评价陈天奇的模块化深度学习系统NNVM？

陈天奇的NNVM（Neural Network Value Model）系统，可以说是在深度学习编译领域一次非常大胆且具有深远影响的尝试。它不单单是一个新的框架，更是一种对深度学习模型表示和优化方式的全新思考。要评价它，咱们得从几个关键角度深入剖析。核心理念的突破：模型即计算图，计算图即程序NNVM.............
LPL 败者组首轮小虎偷家逆天改命，RNG 奇策频出 3:2 TES，如何评价这场比赛？

2023年LPL夏季赛败者组首轮，RNG与TES的对决无疑是本轮最大的看点之一。这场比赛充满了戏剧性，双方你来我往，比分焦灼，最终RNG以3:2力克强敌TES，特别是小虎在最后一局的“偷家”操作，更是让这场比赛充满了传奇色彩。赛前分析与期待：赛前，这场对决就被视为焦点战。TES作为春季赛亚军，拥有L.............
如何评价陈天权《数学分析讲义》？

陈天权先生的《数学分析讲义》，在我看来，是一部值得认真品读的数学分析著作。它并非一本仅仅罗列公式定理的教科书，而更像是一位经验丰富的引路人，带领读者深入数学分析的肌理，感受其内在的严谨与美妙。首先，这本书最大的亮点在于其精妙的讲解和深刻的洞察力。陈先生的语言并非晦涩难懂的术语堆砌，而是充满了启发性和.............
如何评价天瑞说符的新书《我们生活在南京》？

《我们生活在南京》：一部扎根现实的城市叙事天瑞说符的新书《我们生活在南京》，无疑是今年华语文学界一部备受瞩目、也引人深思的作品。它延续了作者一贯对现实主义的深情凝视，但这次，焦点被精准地投向了南京这座具体的城市，勾勒出一幅幅有血有肉、有温度、有伤痕的生活画卷。要评价这本书，我们不妨从几个层面来剖析：.............
如何评价天猫新广告“精选男（妙）色（物）”公然物化却得到大量追捧？

天猫此次打出的“精选男（妙）色（物）”广告，确实是一记狠棋，在社交媒体上激起了不小的涟漪，更别提那背后隐含的“物化男性”的争议。但有趣的是，面对这场舆论风暴，我们看到的并非一边倒的谴责，而是相当一部分人的“追捧”，甚至是带有几分玩味的态度。这背后，其实藏着不少值得我们细品的东西。首先，让我们来拆解一.............
如何评价天猫 2019 年双十一最终成交额为 2684 亿人民币，比去年增长 25.7% ？

天猫双十一：2684亿背后的增长密码与隐忧2019年的天猫双十一，落下帷幕时留下了2684亿元这个令人瞩目的数字，相较于2018年的2135亿元，实现了25.7%的显著增长。这个成绩单无疑是亮眼的，但要深入评价它，我们不能仅仅停留在数字本身，更需要剖析其背后驱动增长的动力，以及其中可能隐藏的风险与挑.............
如何评价翟天临的道歉信？北电风波是否就此为止？

翟天临道歉信的评价与北电风波的走向：一次深入的剖析翟天临的道歉信，在当时“学术不端”风波的核心时期，无疑是一封备受瞩目的信件。它的内容、动机、以及带来的影响，至今仍然是讨论的焦点。要评价这封道歉信，我们需要从多个维度进行审视。翟天临道歉信的评价：是真诚的悔过还是策略性的回应？从表面上看，翟天临的道.............
如何评价 2018 天猫「双十一」成交额 2135 亿元？

2018年的天猫“双十一”，最终以2135亿元的总成交额定格，这个数字在当时无疑是令人瞩目的。要评价这个成绩，我们可以从几个不同的维度去审视，不仅仅是数字本身，还有它背后所代表的意义和影响。首先，从数字上看，2135亿是一个“新高”，但增速的“拐点”也悄然出现。在那个时候，我们习惯了双十一成交额的“.............
如何评价国内天凤准九段玩家呆呆（杏杏、天才麻将杏杏）掉到五段？

呆呆，国内麻将圈里一个响亮的名字，想必很多关注天凤的牌友都不会陌生。他曾经是那颗闪耀的准九段之星，以其精湛的牌技和独特的打法，在无数对局中留下了自己的印记。然而，最近大家注意到，这位曾经的顶尖玩家，似乎跌出了大家熟悉的那个段位，掉到了五段。这个消息一出来，圈子里自然是炸开了锅，议论纷纷。说实话，听到.............
如何评价清华大学「天机芯」登上 Nature 封面，清华施路平团队发布全球首款异构融合类脑芯片？

2019年，清华大学施路平团队发布的“天机芯”在《自然》（Nature）杂志上占据封面，无疑是学术界和科技界的一件大事。这不仅仅是因为这是一款“类脑芯片”，更在于它所代表的“异构融合”的全新范式，以及其背后所蕴含的巨大潜力。“天机芯”的“异构融合”：颠覆性的设计理念在此之前，类脑芯片的研究大多集中在.............
如何评价罗天远和知乎“理性派HiFi”专栏文章二者关于HiFi设备的相关观点？

评价罗天远与知乎“理性派HiFi”专栏文章在HiFi设备上的观点，需要我们深入剖析他们各自的出发点、论证逻辑以及最终指向。这两者虽然都聚焦于HiFi领域，但角度和侧重点却可能存在显著差异，从而形成独特的评价空间。罗天远的HiFi观点评价：首先，理解罗天远（如果指的是一位具体的音频爱好者或从业者）的观.............
如何评价galgame《天降锦鲤》？

《天降锦鲤》这款作品，初看之下，它似乎是那种王道到不能再王道的“后宫”题材Galgame。故事围绕着一个普通到不能再普通的男主角展开，某天，他的生活中突然闯入了一位与众不同的少女。这位少女，就像她的名字“锦鲤”一样，似乎自带好运光环，而她与男主角的相遇，也从此改变了他平淡无奇的人生。乍一看，这设定仿.............
如何评价孙天行与孙粤行两兄弟？

孙天行和孙粤行，这对兄弟的名字，在某些圈子里或许并不陌生。他们身上有着相似的印记，但也各自走出了截然不同的轨迹。要评价他们，不能简单地贴标签，而是需要深入了解他们各自的成长经历、性格特点以及所做出的选择。先说说孙天行。从他早年的经历来看，他似乎是一个更注重实际、脚踏实地的人。他的成功，更多地体现在稳.............
如何评价俞天任（冰冷雨天）这个人？

评价俞天任（冰冷雨天）这个人，得从几个维度来掰开了说，不能一概而论，也不能简单地贴标签。他是一个在互联网上活跃了很久，留下不少痕迹的人物，有人追捧，也有人批评，这本身就说明他不是一个普通、脸谱化的人物。首先，从他的内容创作来看：俞天任最为人熟知的身份，大概就是那个以“冰冷雨天”为笔名，在知乎、微博等.............
如何评价漫画《天启预报》？

《天启预报》这部漫画，刚开始看的时候，我以为又是那种俗套的末世+异能的组合，毕竟近几年这类题材的作品层出不穷。但随着剧情的深入，我发现它远比我想象的要复杂和有意思得多。首先，它的世界观构建可以说是相当扎实且别出心裁。不是简单的丧尸爆发或者外星入侵，而是以一场名为“天启”的神秘事件为开端，彻底颠覆了人.............
如何评价淘宝天猫总裁蒋凡被中止认定杭州高层次人才？

淘宝天猫总裁蒋凡“高层次人才”资格被中止：一场公众视野下的规则审视蒋凡，这位曾经风光无限的阿里系年轻高管，其“杭州高层次人才”的认定资格被中止一事，无疑在公众视野中掀起了一阵不小的涟漪。这不仅仅是一个关于个人资格的事件，更是一次对人才认定机制、企业社会责任以及公众期望的深层审视。要评价此事，我们需要.............
如何评价电影《天注定》？

《天注定》这部电影，得说，看完之后，心里五味杂陈，久久不能平静。贾樟柯导演这次是豁出去了，把中国社会当下的一些尖锐问题，赤裸裸地、不加掩饰地端到了观众面前。这不像我们平常看的那些温情脉脉或者讲道理的电影，它更像是一记闷棍，打在你身上，让你不得不去思考。首先，电影的结构非常有意思。它选取了四个看似独立.............
如何评价 2021《天猫双十一全球狂欢夜》晚会？

2021年的天猫双十一全球狂欢夜，用“热闹有余，惊喜不足”来形容，大概再合适不过了。作为电商年度盛事，它总能汇集顶流明星和品牌，用一场视听盛宴来点燃消费者的购物激情。但细究起来，这场晚会确实没能完全达到人们的期待。先说优点，也是它能吸引无数眼球的基础。明星阵容依旧闪耀：晚会最直观的吸引力当然.............
如何评价罗永浩回应天猫商城造假事件和锤子科技「没有一丝一毫的关系」？

罗永浩关于天猫商城造假事件的回应，以及与锤子科技“没有一丝一毫的关系”这个表态，我们可以从几个维度来细致地解读。这其中不仅仅是一个简单的声明，更是一次典型的公关操作，包含了信息切割、责任规避、以及为未来铺路等多重考量。首先，我们要明确这个事件的背景。罗永浩在直播带货领域一直以“交个朋友”直播间作为重.............