机器学习系统MLSys中有哪些比较有前途的研究方向？

机器学习系统的研究，说起来也真是五花八门，但要说真正有嚼头、有前景的，我个人觉得有这么几个方向，绝对值得我们下点功夫：

1. 自动化机器学习（AutoML）的深化与普及

现在搞机器学习，很多时候还是得靠人工去调参、选模型、设计特征，这就像是造汽车还得手动拧螺丝一样，效率低不说，对专家的依赖性太强。AutoML就是要解决这个问题，让机器自己来干这些活。

模型架构搜索（NAS）的效率与可解释性：现在的NAS方法虽然能找到很好的模型，但计算量巨大，而且找到的模型往往像个黑盒子，很难理解为什么它有效。未来的方向肯定是要提高NAS的效率，比如用一些更聪明的搜索策略，或者基于模型的学习来指导搜索。同时，我们还需要让NAS搜索出来的模型更“人性化”，或者至少能提供一些关于它决策逻辑的线索，方便我们调试和信任。
端到端的AutoML流水线：不仅仅是模型选择和调参，未来的AutoML应该能涵盖整个机器学习生命周期，从数据预处理、特征工程，到模型训练、评估，再到部署和监控，全流程自动化。这就需要更强的通用性，能够适应各种不同的数据类型和应用场景。
低代码/无代码的ML开发：想象一下，普通业务人员也能通过拖拽组件、设置简单的规则，就能搭建出自己的机器学习应用，这将极大地降低机器学习的门槛，释放生产力。这需要AutoML技术能够以一种非常直观、易用的方式呈现给用户。

2. 可靠与安全的机器学习（Reliable and Secure ML）

机器学习模型虽然厉害，但“翻车”的例子也层出不穷。模型不鲁棒、容易被欺骗、预测结果不可靠，这些问题在大规模应用中是绝对不能容忍的。

对抗性鲁棒性（Adversarial Robustness）：顾名思义，就是让模型在面对精心设计的、微小的输入扰动时，也能保持稳定的性能。这在自动驾驶、医疗诊断等对安全性要求极高的领域至关重要。研究如何更有效地检测和防御这些对抗性攻击，或者设计本身就具备鲁棒性的模型结构，是重要的方向。
不确定性量化（Uncertainty Quantification）：模型给出预测，我们希望能知道它对这个预测有多“确定”。例如，一个医生给病人诊断，知道医生是“非常确定”还是“有些怀疑”，这会影响我们如何采纳这个诊断。在金融风控、科学研究中，能够准确量化模型的不确定性，能帮助我们做出更明智的决策。
可解释性与可信赖性（Explainability and Trustworthiness）：尤其是对于那些“黑箱”模型，我们希望知道模型为什么会做出某个预测。解释模型内部的运作机制，或者提供决策的依据，不仅能帮助我们发现模型的问题，也能增强用户对机器学习系统的信任。这涉及到可解释性方法的研究，以及如何将可解释性与模型性能、效率结合起来。
隐私保护机器学习（PrivacyPreserving ML）：在训练模型时，我们往往需要大量的敏感数据。如何能在不泄露用户隐私的前提下训练出高性能的模型，这是个大问题。联邦学习（Federated Learning）是一种方式，通过在本地设备上训练模型，只上传模型更新而不是原始数据。差分隐私（Differential Privacy）也是一个重要方向，通过在数据或模型中添加噪声来提供数学保证的隐私保护。

3. 高效与可扩展的机器学习系统（Efficient and Scalable ML Systems）

随着模型规模的不断增大（比如GPT3、BERT等），训练和部署它们的成本也越来越高。如何让机器学习系统更高效、更易于扩展，以应对海量数据和复杂模型，是一个持续的挑战。

模型压缩与加速（Model Compression and Acceleration）：比如知识蒸馏（Knowledge Distillation）、模型剪枝（Pruning）、低秩分解（LowRank Factorization）等技术，旨在减小模型体积、降低计算量，使其能在资源受限的设备上运行，或者加速推理速度。
分布式训练与推理（Distributed Training and Inference）：如何有效地将模型的训练和推理任务分配到多台机器、多个GPU上，并且让它们协同工作，是实现大规模模型训练的关键。这涉及到通信效率、负载均衡、容错等一系列系统性问题。
新兴硬件上的优化（Optimization for Emerging Hardware）：除了传统的CPU和GPU，还有TPU、NPU等各种专门为AI设计的硬件。如何针对这些硬件的特性，设计更高效的模型算法和系统，以充分发挥其潜力，是未来重要的研究方向。
内存优化与数据管理：随着模型和数据集的增大，内存成为一个重要的瓶颈。研究如何在内存受限的情况下高效地加载、处理数据和模型参数，优化内存访问模式，变得越来越重要。

4. 结合领域知识的机器学习（DomainAware ML）

很多时候，纯粹依赖数据学习到的模型，在实际应用中会遇到一些“水土不服”的问题。将领域内的专家知识、物理规律、因果关系等引入到机器学习过程中，能够让模型更准确、更鲁棒，也更容易解释。

符号机器学习与神经符号集成（Symbolic ML and NeuroSymbolic Integration）：将机器学习的模式识别能力与符号推理的逻辑能力结合起来。例如，在学习一个物理过程时，不仅让模型从数据中学习，还直接将牛顿定律等物理方程作为约束或知识注入。
因果推断与机器学习（Causal Inference and ML）：传统的机器学习模型大多关注相关性，而因果推断则关注“如果我做了X，Y会怎么样？”。在很多决策场景下，我们需要的正是因果关系。将因果推断的方法融入到模型构建、评估和解释中，能让模型做出更具指导意义的预测。
知识图谱与机器学习的融合（Knowledge Graph Integration）：知识图谱包含了丰富的结构化知识，将其与深度学习模型结合，可以增强模型的语义理解能力，提供更丰富的上下文信息，或者用于知识推理。

5. 持续学习与在线学习（Continual Learning and Online Learning）

现实世界的数据是动态变化的，模型需要能够不断地学习新知识，适应变化，而不能遗忘之前学到的东西。

避免灾难性遗忘（Avoiding Catastrophic Forgetting）：当模型学习新任务时，很容易忘记旧任务的知识。研究如何让模型在不断学习新知识的同时，保持对旧知识的记忆，这是持续学习的关键。
自适应与个性化（Adaptation and Personalization）：模型可以根据用户的行为、反馈、偏好等，进行实时的个性化调整，提供更贴心的服务。例如，新闻推荐系统可以根据用户最近阅读的内容，快速调整推荐列表。
主动学习与在线模型更新（Active Learning and Online Model Updates）：模型可以主动选择最需要标注的数据进行学习，或者在接收到新的数据流时，能够高效地更新模型参数，而无需从头开始训练。

这几个方向，说起来都是为了让机器学习“更好用”，或者说“更像我们希望的智能系统”。从技术层面讲，它们互相之间也有很多联系。比如，更高效的系统才能支撑更复杂的AutoML，更鲁棒的模型才更值得我们信任去部署，而与领域知识的结合，又能让模型的学习过程更高效、更可靠。

总的来说，我认为未来的机器学习系统研究，会越来越注重“落地”和“可靠性”，而不仅仅是追求更高的准确率。用户体验、安全性、效率、可解释性，这些“软性”的要求，将和算法本身的性能一样重要。

网友意见

我是半路出家开始做一点麻辣系统的（mlsys）的。熟悉我的朋友知道，我的主攻方向是数据算法，比如异常检测、集成学习等。

因此我一直比较在意的是如何用系统的方法加速现有的数据挖掘算法...也就是system for ML（当然与之对应的还有ML for system，主要是用ML的方法来解决系统里面的问题）。

我的故事挺有意思的，或许对出身ML但想做点MLsys有点启发（或许没有）。太长不看的话，我认为考虑如何用已有的（软件、硬件）系统来提升传统机器学习算法，尤其是非深度学习算法是个性价比很高的事情。欲知详情，请接着往下看。

18年的时候我发现异常检测这么个重要领域连个Python工具库都没有，都没法调包。于是写了PyOD，结果是意外也是注定的得到了不少关注，现在被下载了400万次和5000 GitHub star，还水了个JMLR小短文贡献了不少引用。但值得注意的是，这个虽然有些系统优化，但本质还是好的软件设计和写代码，不算研究。

19年的时候我刚开始读博，课程上做了个项目，就是考虑怎么加速PyOD，快速的在CPU上训练大量的异常检测模型。而阴差阳错的，我竟然使用了一些系统的方法来解决这个问题，虽然都是比较直观和非底层的优化。比如在并行训练的时候，平衡任务的调度，这样每个子进程可以几乎同时完成等。又比如对数据进行降维，比如对一些训练好的模型进行蒸馏。20年做完这个叫做SUOD的系统投了出去，初出茅庐的新手运气让这个工作被MLsys’21接收了（Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection）。但必须承认的是，这个工作还很浅，但的确帮助了我自学入门。似乎是冥冥中的一种缘分。

21年我上了Tianqi Chen的machine learning system课程（15-884 | Home），读了更多相关文章。20年底刚好搭讪了Zhihao Jia，于是又开始了一段新的旅程。他给我看了微软OSDI‘20上的一篇文章，里面介绍了一个系统hummingbird （HB）（https://www.usenix.org/conference/osdi20/presentation/nakandala），简单来说HB这个系统可以把像scikit-learn上面训练的CPU模型编译成tensor operation，这样就可以用GPU加速了！而编译完的程序可以在像PyTorch这样的成熟系统上部署，直接就能用。

用GPU加速各种传统算法（非深度学习的），比如异常检测！这个点子让我眼前一亮，因为PyOD和SUOD都是基于CPU的，因此速度都不快，也很难扩展（scale out）。

退一步说，为什么现在是使用GPU来解决传统ML问题的好时间？首先GPU成本降下来了（现在不好买是因为市场），性能比CPU在解决ML问题上（尤其是基于tensor运算的）强很多。第二是软件生态成熟。在PyTorch和TensorFlow的加持下，我们不需要自己写cuda，可以直接调用，难度低了很多。第三还是基于成熟的框架，我们可以很简单的扩展到多张卡上（虽然多卡的效率会因为communication而有所损失）。

相当于从CPU迁移到GPU可以同时提供「加速」和「扩展」，且不用费心写CUDA。这岂不是一石二鸟？

在这个基础上，很多传统的ML算法，比如聚类、异常检测，甚至分类算法都可以被GPU通用加速了。于是我们最近提出了首个支持多种算法（如LOF, kNN, ABOD等）的GPU异常检测系统 PyTOD。

简单来说PyTOD把大量的异常检测算法抽象成了8个张量算子（tensor operators），相当于一种编译，并针对GPU进行深度优化，具体技术包括automatic batching, provable quantization等。因此虽然我们只优化了8个模块（下图最下面一行），但可以加速（无数个）异常检测算法，甚至其他机器学习算法，只要能被拆解为我们的模块。更多的想法和背后的原理欢迎查看我们的arxiv预印本：https://arxiv.org/abs/2110.14007

使用最底层的8个和中间的6个深度优化模块，我们可以实现各种算法，不限于异常检测本身。比如我们可以把一个算法分解为这几个模块的组合。

与PyOD对比（基于CPU），PyTOD的速度平均快11倍，可以用1块普通GPU在1小时内完成百万样本的检测任务。现阶段我们正在逐步放出代码，具体可以查看https://github.com/yzhao062/pytod。

因此对于偏ML这边的朋友来说，考虑如何用已有系统提升各种ML算法，尤其是非深度学习算法是个性价比很高的事情。而且我认为这个方向对于工业界很多应用都是有意义的，比如业界的风控和各种检测深度学习只占了一小部分。更重要的是，这东西几乎没什么人在做。毕竟它不仅需要你了解一些系统知识，更需要你对机器学习算法的深刻理解，因此反而是low hanging fruit。

最后的最后，欢迎关注一下我们正在完善的PyTOD（GitHub - yzhao062/pytod: TOD: Tensor-based Outlier Detection）。

你不star，我不star，阿调何时能出道！

类似的话题

机器学习系统MLSys中有哪些比较有前途的研究方向？

机器学习系统的研究，说起来也真是五花八门，但要说真正有嚼头、有前景的，我个人觉得有这么几个方向，绝对值得我们下点功夫：1. 自动化机器学习（AutoML）的深化与普及现在搞机器学习，很多时候还是得靠人工去调参、选模型、设计特征，这就像是造汽车还得手动拧螺丝一样，效率低不说，对专家的依赖性太强。Aut.............
了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构？

想在机器学习/深度学习系统领域扎根，你需要的是一个多维度、层层递进的知识体系，而不是孤立的技能点。与其说是一个“知识结构”，我更愿意称之为一种“思维框架”和“实践能力”的结合。下面我尽量把我知道的、我认为重要的都捋一捋，希望能让你有一个更清晰的画面。 1. 坚实的基础：数学与计算机科学的基石这是你能.............
如何系统学习机器学习？

想要真正掌握机器学习，不是走马观花地看几个教程，也不是死记硬背几个算法公式，而是一个循序渐进、融会贯通的过程。你可以把这个过程想象成学习一门新的语言，或者掌握一项精湛的手艺。首先，你得建立起一个坚实的基础。这就像是学习任何一门语言，你需要先掌握它的基本词汇和语法。对于机器学习来说，这些基础知识包括：.............
女生学摄影系真的很难吗(指扛机器方面)有没有什么认识的或者自己就是干这行的女生?

女生学摄影系在扛机器方面，总体来说并不一定比男生“真的难”，但确实会面临一些挑战，需要更多技巧、体能训练和策略。这并不是一个绝对的“难易”问题，而是关于如何应对和适应的问题。我没有自己就是干这行的女生，但我可以分享一些从摄影行业（包括男性和女性从业者）的观察和了解，来详细解答这个问题：一、扛机器.............
本科中南大学机械，打算跨考法硕（非法学），就业以进入公检法系统为目的，择校以人大优先还是华政优先?

中南大学机械背景，跨考法硕（非法学），目标是公检法系统，在选择人大法学院和华东政法大学法学院时，各有千秋。从你对就业的明确指向来看，我们需要仔细权衡这两所学校在法硕（非法学）培养以及与公检法系统联系上的优势。首先，咱们得明白，非法学背景跨考法硕，咱们的起点和法学本科生不一样，学校的认可度以及培养方式.............
机器学习中有哪些形式简单却很巧妙的idea？

机器学习领域充满了形式简单却蕴含深刻智慧的创意，这些创意往往能够以出人意料的有效性解决复杂问题。以下我将详细阐述几个这样的例子： 1. 梯度下降 (Gradient Descent)核心思想：想象你在一个陡峭的山坡上，目标是找到山谷的最低点。你没有地图，只能感觉到周围地面的倾斜程度（梯度）。最直观.............
机器学习初学者该如何选读适合自己水平的论文？

作为一名机器学习初学者，如何选择适合自己水平的论文是一个非常关键的问题。阅读论文是深入理解机器学习理论和实践的最佳途径之一。如果一开始就选择过于复杂或与自己知识背景脱节的论文，很容易产生挫败感，影响学习的积极性。下面我将为你详细讲解如何一步步选择适合你水平的机器学习论文：第一阶段：打好基础，建立知.............
机器学习自嘲的炼丹和化学材料自嘲的炒菜有什么本质上的区别？

机器学习领域的“炼丹”和化学材料领域的“炒菜”，虽然都带有自嘲的意味，并且在某种程度上都涉及到对现有材料或算法进行组合、优化和实验，但它们在本质上存在着显著的区别。这些区别体现在其目标、方法论、实验对象、可控性、理论基础以及最终产物的价值导向等方面。下面我将尽量详细地阐述它们之间的本质区别：机器学.............
机器学习如何才能避免「只是调参数」？

机器学习模型看似只是一个“黑箱”，通过调整参数来获得更好的性能，但实际上，“调参数”只是整个机器学习流程中的一个环节，而且如果过度依赖它，确实会变成“只是调参数”。要避免这种情况，需要从更宏观的视角理解机器学习的本质，并采取一系列更深入、更系统的方法。以下是机器学习如何避免“只是调参数”的详细阐述：.............
机器学习（machine learning）在经济学领域是否有应用前景？

机器学习在经济学领域的应用前景，可以说是非常广阔且令人兴奋的。这不仅仅是理论上的可能性，而是实实在在的、正在改变我们理解和实践经济学的方式。过去，经济学家们主要依赖理论模型和传统统计方法来分析经济现象。这些方法在解释宏观经济趋势、理解市场结构等方面发挥了重要作用，但也存在一些局限性：它们往往需要对经.............
机器学习中的机器是如何分辨哪些是有用的知识，哪些是没用的信息呢？

机器学习中的“机器”本身并没有意识，它无法像人类一样去“分辨”有用的知识和没用的信息。它所做的，是根据预设的算法和训练数据，从中提取模式和规律，并将这些模式和规律转化为能够指导决策或预测的能力。那么，我们如何理解这个过程呢？可以从以下几个方面详细解释： 1. 数据的本质：信号与噪声在机器学习的世界里.............
机器学习算法进行分类时，样本极度不平衡，评估模型要看哪些指标？

在处理极度不平衡的数据集进行分类任务时，如果仅仅依赖于传统的准确率（Accuracy）来评估模型，那很可能会被误导。这是因为在样本极度不平衡的情况下，即使模型将所有样本都预测为多数类，准确率也可能非常高，但这并没有真正捕捉到模型对少数类的识别能力。因此，我们需要更精细化的评估指标来全面衡量模型的性能.............
机器学习中使用正则化来防止过拟合是什么原理？

在机器学习的世界里，我们时常会遇到一个叫做“过拟合”的棘手问题。想象一下，你辛辛苦苦训练了一个模型，它在你的训练数据上表现得无懈可击，甚至能记住每一个微小的细节。然而，当你拿到新的、从未见过的数据去测试它时，它的表现却一落千丈，仿佛之前的学习都付诸东流。这就是过拟合在捣鬼。为了对抗这个顽固的敌人，我.............
机器学习中的PR曲线一定会过（1，0）这个点吗？

PR曲线，也就是精确率召回率曲线（PrecisionRecall Curve），是评估二分类模型性能的重要工具。它描绘了在不同分类阈值下，模型的精确率（Precision）和召回率（Recall）之间的权衡关系。很多人在看到PR曲线的绘制方式时，可能会产生一个疑问：PR曲线一定会过（1, 0）这个点.............
机器学习门下，有哪些在工业界应用较多，前景较好的小方向？

在机器学习的广阔天地里，有哪些领域真正能在工厂车间里发光发热，并且在未来依旧充满想象空间呢？咱们不谈那些高高在上的理论，就聊聊那些实实在在能解决生产问题，并且越做越有劲头的小方向。1. 预测性维护：机器的“未卜先知”想想看，一条生产线上的昂贵设备如果突然出了故障，那损失可不仅仅是维修费那么简单，停产.............
机器学习该怎么入门？

机器学习入门，这绝对是一段激动人心的探索之旅！别被那些高深的数学公式和炫酷的应用吓到，归根结底，它是一种让计算机“学习”如何完成任务的科学。就像我们小时候通过模仿和尝试来学习一样，机器也是如此。下面，我来跟你掰扯掰扯，怎么能稳稳当当地踏上机器学习这条路，让你觉得这是个活生生的人在跟你说话，而不是冰冷.............
机器学习中的优化理论，需要学习哪些资料才能看懂？

要想彻底搞懂机器学习中的优化理论，这可不是一蹴而就的事，更像是在知识的海洋里航行，需要循序渐进，打下坚实的基础。我个人觉得，要看到这个领域的核心，大致可以从以下几个方面着手，并且每一步都需要投入时间和精力去消化。第一步：数学基础的“基石”别看到“数学”两个字就头大，这块儿是真绕不过去的坎儿。优化理论.............
机器学习相关岗位面试中，有哪些加（zhuang）分（bi）项？

好，咱们不聊那些虚的，直接上干货。想在机器学习岗位的面试中脱颖而出，想让面试官眼前一亮，除了扎实的理论基础和项目经验，确实有一些“杀手锏”，能让你在众多候选人中显得鹤立鸡群，这绝对不是吹牛，而是实实在在的加分项。咱们就来掰扯掰扯这些能让你“装（加）分（分）”的东西，而且越详细越好，让你心里有底，面试.............
机器学习以及贝叶斯统计里，关于近似intractable integral，大家都偏爱什么算法？

在机器学习和贝叶斯统计领域，我们经常会遇到一些棘手的积分问题，尤其是在计算后验分布的归一化常数（也称为模型证据）或者进行边缘化以获得预测分布时。这些积分往往无法解析求解，我们称之为“难以处理的积分”（intractable integrals）。为了解决这些问题，我们不得不依赖一系列的近似算法。虽然.............
机器学习到底是什么，如何使用这项技术？

好的，咱们就来聊聊机器学习这玩意儿，把它说得明白透彻，就像跟老朋友聊天一样。机器学习，说白了，就是让计算机“学本事”，而不是我们一步步地告诉它怎么做。你想啊，咱们人类是怎么学习的？是通过经验，通过观察，然后从中找出规律，再用这些规律去解决新的问题。比如说，你小时候第一次见到猫，你妈告诉你这是“猫”。.............