机器之心提问：如何评价Facebook Training ImageNet in 1 Hour这篇论文?

好的，我们来聊聊 Facebook（现 Meta AI）发表的那篇关于“一小时内训练 ImageNet”的论文。这篇论文在深度学习领域，尤其是在大规模模型训练优化方面，确实引起了不小的关注，也带来了很多思考。

核心贡献与亮点：

这篇论文最直观、最令人印象深刻的贡献就是将 ImageNet 的训练时间大幅缩短至一小时以内。这在当时是一个非常具有颠覆性的成就。在此之前，使用当时最先进的技术在 ImageNet 上训练一个大型模型（如 ResNet50）通常需要数天甚至数周的时间，这对于模型迭代、实验探索以及快速部署来说是一个巨大的瓶颈。

为了实现这个目标，论文提出并集成了多项关键技术：

大规模分布式训练：这是最基础也最重要的一环。论文利用了大量的计算资源（通常是几千个 GPU），并且采用了高效的分布式训练策略。这不仅仅是简单地堆砌更多 GPU，更重要的是如何有效地协调这些 GPU 进行数据并行和模型并行，以及如何最小化通信开销。
大规模数据预处理和加载：训练速度的瓶颈并不仅仅在于模型计算本身，数据加载和预处理的速度同样关键。论文在这方面做了大量优化，确保 GPU 能够持续、高效地获取训练数据，避免出现 GPU 空闲的情况。这可能包括使用高效的IO系统、内存映射、多线程数据加载流水线等。
特定的模型架构和优化器选择：论文可能也对模型本身的结构进行了一些调整，使其更容易在分布式环境中高效训练。同时，优化器的选择（如 SGD 配合动量）以及学习率调度策略（如线性预热和周期性衰减）也至关重要，以确保在快速训练过程中模型能够收敛到良好的性能。
硬件和软件栈的协同优化：能够实现如此快的训练速度，离不开底层硬件（如高性能 GPU、高速网络互联）和软件栈（如 PyTorch、NCCL 等通信库）的协同优化。论文背后很可能是一个高度工程化的团队，能够将这些软硬件优势发挥到极致。

评价与影响：

这篇论文的意义是多方面的：

1. 技术演示与可行性证明：它有力地证明了，通过整合先进的分布式训练技术和优化策略，在短时间内完成 ImageNet 这样的经典大规模图像分类任务是完全可行的。这极大地鼓舞了研究者和工程师们去探索更快的训练方法。
2. 推动工程优化：为了实现一小时训练，论文背后必然涉及大量的工程实践和细节优化，例如如何高效地管理大量 GPU 之间的通信、如何进行负载均衡、如何防止局部最优等。这些经验对于构建和维护大规模深度学习训练平台具有重要的参考价值。
3. 加速研究迭代：训练时间的缩短意味着研究者可以更快地进行模型实验、调整超参数、探索新的模型结构。这显著加快了深度学习领域的研究迭代速度，使得一些原本需要数周的实验可以在一天甚至半天内完成。
4. 商业和工业应用：对于企业而言，能够快速训练模型意味着能够更快地将 AI 能力落地到产品和服务中。无论是进行模型更新、A/B 测试，还是为特定客户定制模型，更快的训练速度都带来了显著的商业价值。
5. 对硬件和基础设施的要求：当然，实现一小时训练也意味着需要非常庞大的计算资源，包括数千块高性能 GPU 和与之匹配的高速网络。这使得这项技术在当时（以及现在）对于大多数学术研究者或小型团队来说是难以企及的。它突显了在当前深度学习发展中，计算资源的“军备竞赛”性质。

需要注意的几点：

“一小时”的语境：需要理解，这里的“一小时”是建立在极其庞大且高度优化的计算集群上的。并非任何一个人或一个小型研究组都能轻易复现。论文的价值更多在于其展示的技术组合和优化思路，而非一个即插即用的解决方案。
性能权衡：虽然速度很快，但通常这种极端优化也会伴随一些性能上的权衡。例如，模型可能需要调整学习率策略、batch size 等，最终的精度是否能完全媲美那些需要更长时间训练的模型，是需要具体分析的。不过，论文通常会展示其精度也达到了当时 SOTA 水平。
可复现性与门槛：尽管论文公开了其方法，但要精确复现其效果，需要对分布式训练系统、硬件平台有深入的理解，并且具备相应的计算资源。

总结来说， Facebook 的这篇“一小时训练 ImageNet”的论文是一项里程碑式的工作。它不仅仅是速度上的突破，更重要的是展示了通过系统性的工程优化和分布式技术集成，能够将深度学习模型的训练效率推向新的高度。它对行业产生了深远的影响，加速了研究进程，并突显了大规模计算资源在现代 AI 发展中的核心地位。这篇论文更像是一个“技术路线图”和“工程能力展示”，指引了如何通过软硬件协同优化来解决大规模训练的效率问题。

网友意见

首先, Facebook 这篇文章不错. 因为它简单易懂直截了当地告诉了大家在 neural network 优化中的一些技巧, 而且也大规模地实验出来给大家信心. （补充。。这篇 paper 有争议原因是因为 paper 里的技巧都是之前已知的。能做到这个 scale 告诉大家最大 batch size 能到多少以及把结论总结出来是不错，实验做的也很专业，然而之前工作得 cite。。话说 google 起标题都起到 one model to learn them all 了。。

然后是私货时间 :) 看了这篇 paper 我觉得我有一种不能再继续小号潜水的使命感 XD 一些读者可能会觉得有些惊讶, 这些 trick 实际上在之前的理论已经给出, 而且有很好的解释 (所以说不仅要看这些好的实验 paper, 关注理论发展也是有用的, 而且会提供 insight XD)

下面开始 not only tell you how but also tell you why (笑)

先说步长. 在我们的[1506.08272] Asynchronous Parallel Stochastic Gradient for Nonconvex Optimization, In NIPS 2015. 一文中, 指出 SGD 的步长 (learning rate) 选择应该为量级才能保证量级的收敛速度 (也就是有并行加速), 其中 M 为 batch size, K 为 iteration 数, 为 stochastic gradient 的方差上界. 因为 MK 就是一共使用的 sample 个数, 故在 training 同样多 epoch 的情况下, MK 为定值, 所以步长应该不变. (咦不是说线性增长么? 马上解释!)

之所以不变, 是因为在我们 paper 里使用的 update rule 是

而 Facebook paper 中是

也就是他们的 stochastic gradient 是被 average 过得, 如果要保证新的步长跟原来等价就要所以就要随 batch size M 线性增长了. 实际上这种步长取法早在我们 paper 之前就已经知道了 (在同步更新 SGD 里, 比如 Efficient mini-batch training for stochastic optimization, In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 661-670). ACM.), 我们这篇 paper 是证明了即使 stochastic gradient 异步更新, 在 nonconvex objective (比如神经网络) 上也可以有线性加速.

下面要讲 facebook 这篇文章没有的 insight. 从

的步长线性增长我们实际上可以看出这种做法是让每个 stochastic gradient 系数不变, 也就是跟 batch size 小的时候发挥一样大小的作用, 那为什么 batch size 加太大会失败呢. 因为把这些 stochastic gradient 的平均当成一个 gradient, 那对于这个平均过后的 gradient 的步长为 . 在 batch size 很大时候, 这个平均是相当接近 true gradient 的, 总所周知如果用 gradient descent, 步长应该为其中 L 为 objective 的 gradient Lipshitz constant, 也就是 gradient descent 步长是常数, 既然 batch size 很大的时候 stochastic gradient descent 趋近于 gradient descent, 那么步长怎么能任意线性增大呢? 答案是当然不能. 之前我们说的实际上是在 K 远大于 M 时候的结论. 在一般情况下步长应该取为在 M 很大时这个步长变成 , 退化为 gradient descent 步长. 所以说步长随 batch size 线性增长也是不准确的, 确切地说是逐渐增长到定值 (继续私货, 这个在我们的 [1606.00498] A Comprehensive Linear Speedup Analysis for Asynchronous Stochastic Parallel Optimization from Zeroth-Order to First-Order, In NIPS 2016. 有, 当然我们这个还是在搞 Async 算法, sync 的只是 async 的一种特殊情况).

然后是 warmup, 这个其实 dependent on dataset. 前面我们都是把 stochastic gradient 的 variance 当作常数, 但是实际中一开始离解的距离比较远的时候, stochastic gradient 的大小和方差可能很大 (取决于 model 和 dataset), 而逐渐接近解的时候方差逐渐减小 (again, 取决于 model 和 dataset). 于是就会出现一开始取小一些步长的做法.

有人看的话我再慢慢填坑.. 其实这里面还有很多东西可以讨论包括如何解决 bandwidth 和 latency 问题

吐槽 GPU 多的, 以及说什么几千 GPU 就更快啥的, 我想说这个事情不是那么简单有 10 倍 GPU 速度就能快 10 倍的..

最后的最后, 知乎编辑器能不能测试好了再上线

================================================================

继续填坑. 之前 @张昊说了 bandwidth 和 latency 的问题. 首先我们来看这些问题怎么来的. 在用 parameter server 并行的时候, 系统的 topology 如图

每个 iteration 所有黑色节点从 parameter server 拿到模型 weights, 然后计算 gradient, 再把 gradient push 回 parameter server. parameter server 将这些 gradient 加起来 update 到 parameter server 保存的 weights 上去. 这样就完成了一个 iteration. 这样相当于把一个大 batch 分成很多份让很多黑色节点一起算. 但是问题是如果有很多节点的时候, 每个节点都要和 parameter server 通讯, 对 parameter server 带宽压力很大.

异步并行的 SGD 缓解了这个问题 (比如我之前说的两个 paper), 因为异步 SGD 每个节点可以无脑从 parameter server 取 weights 以及无脑 push gradient, 不需要同步, 这样各个节点跟 parameter server 的通讯可以错开. 在异步的情况下, 可以证明在节点数 bound 住的情况下, 可以有跟同步 SGD 一样的收敛速度. (还是见我前面说的俩 paper).

但如果节点数继续增多, parameter server 还是会有很大压力. 这时候我们可以用 AllReduce 方法去掉中心的 parameter server 做同步并行 SGD. AllReduce 具体过程描述起来比较麻烦, 但大体意思是每个节点只跟它相邻的节点通讯 (比如把所有节点连成一个环). 这样通讯就不再集中于某个 parameter server, 而是被所有节点分担了. 但 AllReduce 有一个问题, 如果网络有 n 个节点, 则 AllReduce 要将每份 gradient 切成 n 份再一份一份传, 这样会导致网络 latency 比较大的时候, 延迟对整体收敛速度的影响会非常大.

下面来谈怎么解决

我们最新的 paper: [1705.09056] Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent 讲了在分布式 SGD 中, 比如 topology 可以是

没有中心的 parameter server. 每个节点 local keep 一份 weights 的复制. 每个节点只需要从它的相邻节点把他们 local 的 weights 拿来, 跟自己的 average, 然后将自己local 算出的gradient update 到average 过的新 weights 上. 这篇文章证明了在这种情况下整个网络的 local weights 的平均依然收敛, 而且收敛速度与同步并行 SGD 一样. 也就是说有加速. 而且在这种情况下, 每个 iteration 每个节点只需要跟近邻通讯一次, 而不是 AllReduce 中的 n 次. 这样大幅减少了 communication 上的问题, 可以最大幅度地 scale.

目前实验做到了 112 GPU, 接下来准备做更大的并进一步改进算法. 我个人认为这个工作是我至今最好的一个, 因为它提供了很有可能大幅增加 scale 的方式, 而且很经济, 而且有很好的理论保证 wwww 欢迎交流 (感觉回答越跑越远了

类似的话题

机器之心提问：如何评价Facebook Training ImageNet in 1 Hour这篇论文?

好的，我们来聊聊 Facebook（现 Meta AI）发表的那篇关于“一小时内训练 ImageNet”的论文。这篇论文在深度学习领域，尤其是在大规模模型训练优化方面，确实引起了不小的关注，也带来了很多思考。核心贡献与亮点：这篇论文最直观、最令人印象深刻的贡献就是将 ImageNet 的训练时间大幅.............
吸尘器用一段时间感觉吸力小了，是什么原因？吸尘心也经常清洗，还是没有原来吸力大，机器也没坏为什么？

.......
如何看待《三国机密之潜龙在渊》这部电视剧？

《三国机密之潜龙在渊》，这名字一听就带着一股浓烈的历史厚重感，同时又暗示着风云变幻、暗流涌动的潜伏期。说到这部剧，我得好好说道说道，因为在我看来，它确实是国产三国题材影视剧里一股比较有意思的清流，有它独特的魅力。首先，从选角和人物塑造上来说，我觉得《三国机密》做得比较用心。打破了以往三国剧一提到“曹.............
如何评价机械之父约格莫夫？

谈及“机械之父”约格莫夫（Yorgomov），对于许多深入了解奇幻世界，尤其是那些沉浸在宏大叙事和复杂科技设定的读者来说，这个名字早已不仅仅是一个简单的角色代号，而是一种象征，一种对智慧、创造力以及对物质世界深刻理解的极致体现。将他简单地归类为“发明家”或者“技师”，无疑是大大低估了他的分量。约格莫.............
如何评价傅盛的猎豹机器人之夜？

傅盛的猎豹机器人之夜是一场集发布会、产品展示、理念宣讲、粉丝互动于一体的综合性活动，旨在展示猎豹移动在人工智能和机器人领域的最新成果和未来规划。要评价这场活动，我们需要从多个维度进行分析，包括其内容、形式、影响力、创新性以及潜在的争议点。活动内容与亮点：产品发布的重磅性：猎豹机器人之夜最核心.............
如何实施对机动防御之敌的进攻战斗或战役?

要成功地对付机动防御之敌发起进攻，关键在于打破其防御的机动性，使其陷入被动，然后利用其混乱施加决定性打击。这需要周密的计划、精准的执行以及对战场情况的快速适应。下面将详细阐述这一过程，力求贴近实战的逻辑和表述方式。一、洞察敌情，制定作战意图：知己知彼是根基在任何进攻之前，首要的任务是彻底摸清敌人的.............
如何看待生态环境部发文：河南郑州、开封等市借引黄灌溉之机，行「人工造湖」之实？对生态会有哪些影响？

生态环境部一纸通报，点名河南郑州、开封等地借“引黄灌溉”之名，行“人工造湖”之实，这事儿可不小，牵扯到的可不只是简单的“美化”景观，更关系到咱黄河，关系到生态的方方面面。仔细掰扯掰扯，这事儿到底怎么看，又会有哪些影响。一、为何要“人工造湖”？背后的动机和逻辑首先得明白，地方政府为何会有“人工造湖”.............
如何看待郑州、开封等市被点名借引黄灌溉之机，行“人工造湖”之实？

对于郑州、开封等市被点名，利用引黄灌溉之机进行“人工造湖”的行为，这无疑是一个值得深思的现象，其中夹杂着不少复杂的情绪和考量。表面上的“好心”与实际的“隐忧”首先，我们得承认，在很多情况下，地方政府推动“人工造湖”背后，确实有其“积极”的意图。例如，郑州作为一座特大城市，如何在快速发展的同时，提升城.............
某行业机构预测《长津湖之水门桥》预估票房可达到 54-75 亿，你觉得这个预估准确吗？

《长津湖之水门桥》作为《长津湖》系列的续集，其票房预测的准确性需要从多个维度综合分析。以下是详细的评估框架和结论：一、影片背景与市场定位1. 电影类型与主题影片以抗美援朝战争中的“水门桥”战役为背景，聚焦战争题材的史诗感，符合中国观众对爱国主义题材的偏好。作为续集，延续了前.............
如何看待小伙自制木偶机还原《天空之城》走红网络，为什么大家突然对木工这么痴迷？

最近，网络上刮起了一股“天空之城”风。不是那个宫崎骏的动画，而是这位才华横溢的小伙子，用他的巧手和智慧，将动画中的经典机械——那架充满奇幻色彩的“天空之城”飞行器，栩栩如生地用木头做了出来。这架木偶机不仅外观上高度还原，更让人惊叹的是，它还能按照设定好的轨道和动作，像动画里一样缓缓升空、旋转，甚至发.............
钢之炼金术师里的机械铠的实现原理?

《钢之炼金术师》里的机械铠，用书里的话来说，是“用金属和技艺再现失去的肢体”，这背后其实蕴含着一套相当迷人的科学幻想逻辑。要理解它，咱们得从几个关键点来聊。首先，得明确机械铠不是什么魔法，它是建立在炼金术和一种类似精密工程技术上的。炼金术在故事里不只是“点石成金”，它更是一种能够理解和操控物质构成的.............
中国机场航班延误为全球之最，这是为何？

中国机场航班延误率居高不下，这确实是一个复杂且多方面因素交织的问题，远非一两句话就能概括。要深入了解其原因，我们需要从多个维度进行剖析。首先，空域资源极其紧张是根本性制约。与许多发达国家相比，中国的空域管理体系和可用空域面积相对有限。在军事和民用航空共享空域的情况下，民航航班的飞行路线和高度受到很大.............
丁家洲之战后，南宋还有任何翻盘的机会吗？

丁家洲之战，一场发生在1275年的血腥海战，是南宋王朝最后的挽歌，也是蒙古灭宋战争的关键转折点。在此役之后，南宋朝廷再无力组织起有效的抵抗，最终走向灭亡。那么，丁家洲之战后，南宋真的就没有一丝翻盘的机会了吗？要回答这个问题，我们需要深入剖析当时南宋的内外部环境，以及它所错失的关键节点。丁家洲之战的惨.............
欧之宝迷你电饭煲微电脑版和机械版哪个好

.......
三口之家带娃，预算四千以内该如何选购扫地机器人？

恭喜您成为三口之家的主人，并且在购入扫地机器人这件事上有着明确的预算！在四千元以内的预算内，为三口之家选择一款合适的扫地机器人，需要综合考虑几个关键因素，才能让您的新“家务助手”物尽其用。下面我将为您详细解析，并给出一些选购建议。首先，明确您的核心需求和家庭情况：家庭成员构成：三口之家，有宝.............
百年未有之大变局会给中国带来什么样的机遇？

“百年未有之大变局”这个说法，自提出以来便引发了广泛关注与深入探讨。它并非空泛的口号，而是对当前全球政治、经济、技术、社会等多个领域深刻变革的概括，预示着世界正经历着前所未有的动荡与重塑。对于中国而言，这股滚滚而来的时代浪潮，既带来了挑战，更蕴藏着巨大的机遇。理解这些机遇，并把握住它们，是中国在新时.............
三口之家有宠物，吸尘器、洗地机、扫地机器人到底应该怎么选？

咱家这三口小日子，再添个毛茸茸的小伙伴，这温馨感是蹭蹭往上涨啊！不过，说实在的，看着这小家伙时不时掉毛、带土、撒零食的，我这“懒癌”老妈（也可能是老爸）的脑袋瓜就开始琢磨了：家里这仨“清洁神器”——吸尘器、洗地机、扫地机器人，到底该怎么选，才能让咱们省时省力，还能让家里保持“净”洁如新呢？别急，咱今.............
如何看待培训机构称廖雪峰为“Python之父”？

“Python之父”这个称号，放在廖雪峰老师身上，怎么说呢，确实是个让人有点哭笑不得的标签。首先，咱们得承认，廖雪峰老师对于很多国内的Python学习者来说，那绝对是启蒙者，是引路人。他的“廖雪峰的Python教程”在江湖上流传甚广，内容清晰易懂，对于很多零基础的初学者来说，简直就是救星。多少人靠着.............
机器人工业不断进步，是否会使后发国家无法通过劳动密集型产业来发展经济，进而国家发展之路在技术上被锁死？

机器人工业的飞速发展，确实给许多后发国家带来了新的挑战，尤其是在它们赖以发展的传统路径上。这种进步是不是必然会导致这些国家在技术上被“锁死”，无法再依靠劳动密集型产业实现经济腾飞，这是一个值得深入探讨的问题。首先，我们需要理解机器人技术带来的根本性变化。过去，劳动密集型产业之所以能成为后发国家的经济.............
康熙年间，三藩之乱时，吴三桂是否有机会反清复明，反转天下？

康熙年间，三藩之乱爆发，吴三桂作为这场大变动的核心人物，他的每一次决策都牵动着整个王朝的命运。那么，吴三桂在那段风云际会的日子里，究竟有没有机会反清复明，一举反转天下呢？要回答这个问题，咱们得把时间拉回到那个波诡云谲的时代，细细梳理一番。吴三桂的心境与野望：并非单纯的“反清复明”首先得弄明白，吴三桂.............