如何评价何恺明等 arxiv 新作 Rethinking ImageNet Pre-training？

何恺明等人在 arXiv 上发表的新作《Rethinking ImageNet Pretraining》是一篇极具深度和影响力的研究，它系统性地重新审视了在 ImageNet 上进行预训练（pretraining）这一计算机视觉领域基石性技术。这篇文章不仅仅是对现有方法的改进，更重要的是，它通过大量的实验和精妙的分析，揭示了预训练过程中许多被我们习以为常的“常识”可能并非最优解，甚至存在可以被大幅优化的空间。

核心观点与突破：

这篇文章最引人注目的贡献，在于其对预训练过程中几个关键环节的“重新思考”和“解构”。具体来说，它主要集中在以下几个方面：

1. 数据增强策略的有效性：
传统观念的挑战：长期以来，像随机裁剪（random crop）、翻转（flip）、色彩扰动（color jitter）等数据增强技术被认为是提升预训练模型泛化能力的关键。然而，作者通过精细的实验发现，在某些情况下，过于激进的数据增强反而会损害模型的表示能力，尤其是当使用的模型容量较大时。
“适度”的威力：文章的核心发现之一是，温和的、与下游任务更匹配的数据增强策略，或者精简后的数据增强组合，往往能带来更好的下游任务性能。例如，他们发现，在模型自监督学习（如MAE）中，过度的数据破坏（如masking）结合强烈的几何变换（如大角度的随机旋转）可能会导致信息丢失过多，影响模型重建的准确性。
对“随机性”的辩证看待：这项研究提醒我们，数据增强的“随机性”并非越多越好，关键在于如何平衡信息保留和引入的新颖性，以及这种新颖性是否有利于模型学习到更鲁棒的特征。

2. 训练设置的优化：
Batch Size 的作用：传统观点认为，更大的 Batch Size 通常能带来更稳定的梯度和更好的收敛性。然而，作者通过实验发现，在某些预训练范式（尤其是MAE）下，中等大小的 Batch Size 配合更长的训练周期，反而比超大 Batch Size 表现更好。这可能与 Batch Size 影响梯度的方差以及对模型泛化能力的影响有关。
学习率调度（Learning Rate Scheduling）：文章同样对学习率调度进行了深入的探讨。他们发现，较小的初始学习率和更平缓的学习率衰减，能够帮助模型更好地探索特征空间，避免过早收敛到局部最优。
优化器（Optimizer）：虽然文章没有颠覆性地改变常用优化器（如AdamW），但其对预训练超参数的细致调整，也间接说明了优化器选择与整体训练策略的协同作用。

3. 预训练范式（Pretraining Paradigms）的联动：
MAE 的地位： Masked Autoencoders (MAE) 是一种在视觉Transformer（ViT）模型上表现出色的自监督学习方法。这篇文章对MAE的预训练策略进行了更深入的分析。他们发现，MAE的成功很大程度上归功于其高效的掩码策略（高比例的掩码）和轻量级的解码器。
MAE 与下游任务的适配：作者通过实验证明，MAE 预训练的模型在下游任务上的表现，与其预训练时的掩码比例、重建目标等设置有着紧密的联系。这意味着，MAE的预训练并非“一刀切”，而是需要根据目标下游任务进行一定的调整。
对其他预训练方法的启示：虽然文章主要以MAE为例，但其提出的“重新思考”的思路，也为其他自监督或有监督的预训练方法提供了重要的借鉴意义。例如，对比学习（Contrastive Learning）等方法，同样可以从优化数据增强、学习率等角度获得提升。

深远的影响与意义：

《Rethinking ImageNet Pretraining》之所以具有如此重大的影响力，主要体现在以下几个方面：

打破“经验主义”：计算机视觉领域，尤其是在预训练方面，积累了大量的“经验法则”。这篇文章通过扎实的实验，勇敢地挑战了许多被广泛接受的“常识”，迫使研究者们重新审视这些预训练的基石。
提升效率与性能：文章提出的优化策略，能够帮助研究者在更少的计算资源和更短的训练时间内，获得更好的预训练模型性能。这对于降低研究门槛、加速模型迭代具有重要意义。
指导未来研究：这项工作为未来预训练方法的研究提供了清晰的指引。它强调了对预训练过程的细致理解和精细调整的重要性，而非盲目堆砌现有技术。例如，未来研究可以继续探索更具适应性的数据增强、更高效的学习率调度，以及与其他预训练范式的结合。
范式转化：从某种意义上说，这篇文章促使了预训练研究从“堆砌技术”向“理解机制”的转变。研究者们不再仅仅满足于使用现成的预训练模型，而是开始深入分析预训练过程中的各个组成部分，并尝试进行优化。

如何更深入地理解这篇文章：

要真正理解这篇文章的价值，需要关注以下几个细节：

实验的严谨性：文章的关键在于其大量且细致的消融实验（ablation studies）。研究者们非常有条理地隔离了每一个影响因素，并分析其单独或联合作用下的效果。例如，他们会尝试不同程度的数据增强，对比不同 Batch Size 下的模型收敛曲线和下游任务性能。
理论分析与直觉的结合：虽然是实验驱动的论文，但作者也尝试从直觉和部分理论角度解释实验结果。例如，他们会讨论为什么某些数据增强会损害模型，或者为什么中等 Batch Size 有时更优。
对不同下游任务的普适性：除了在ImageNet上的预训练，文章还关注了在各种下游任务（如图像分类、目标检测、语义分割）上的表现。这证明了其提出的优化策略具有一定的跨任务的普适性。
模型架构的考量：虽然这篇文章侧重于预训练策略，但它也涉及到了Transformer架构（如ViT）在这种预训练范式下的行为。理解模型架构与预训练策略之间的相互作用，是深入理解的关键。

总结：

《Rethinking ImageNet Pretraining》是一篇里程碑式的研究。它以科学严谨的态度，重新审视了计算机视觉领域最基础也是最重要的环节之一——ImageNet 预训练。通过深入的实验和分析，文章揭示了许多被忽视的细节，并提出了优化预训练过程的有效策略。这不仅对当前的研究具有指导意义，更为未来的计算机视觉模型发展奠定了坚实的基础，鼓励研究者们更加深入地理解和优化模型的训练过程，而非仅仅依赖于“最佳实践”的堆砌。

网友意见

看论文的排版、放出来的时间，我猜是投到了CVPR 19，目测又预定了best paper席位哈。

既然kaiming大神也注意到了这个问题，我就来聊聊我的看法。

我不是专业研究cv的，但是这个问题或多或少也和我有关。我从一个小弱的角度，来给这几年持续升温的迁移学习泼泼冷水。说得不对的地方，请各位海涵。

迁移学习领域近几年的代表方法，基本上都是深度迁移。很自然地，如同深度学习的评测数据集ImageNet，迁移学习领域也有一些公开的数据集，大多数都是图像分类。为了验证自己方法的有效性，我们争先恐后地刷榜。

所以你就会发现，近几年那些屠榜的深度迁移方法，绝大多数都采用了 ImageNet pretrained 网络，比如AlexNet和ResNet50。

ImageNet数据集的数据量是百万千万级、一千类。

而我们迁移学习的这些实验数据有多少呢：几千张图片、最多几十类。最近一两年的VisDA、Office-Home等数据集才突破了万。

所以看到很多这样的方法，我是蒙圈的~这也太欺负人了吧？大家都是图像，都是生活中的阿猫阿狗家具环境，本来差距就不太大。用一个在百万集图像上预训练好的ResNet50，来给几千张图片分类？杀鸡焉用牛刀？迁移学习是基于经验和历史知识不假，但是这知识也太过强大了。

然后精度上提升1个百分点，达成了state-of-the-art。再过几个月，另一个新方法，接着提升一小下，第一名又换人了。恕在下直言：搞不好这些微妙提升，都是计算误差。。。

最后还有一个很重要的问题：这样的深度网络怎么调参呢？大家都做的是Unsupervised transfer learning (domain adaptation)，而这个情境下，target domain是没有任何label的。迁移学习领域通常只有source和target domain。没有validation set，也没人用过。(我不会告诉你很多其实都是直接在target domain上调参的)

我不是排斥使用ImageNet pretrained network，我只是觉得，应该找一些领域，让ImageNet真正有用。不妨试试用这些预训练好的网络去进行医学图像分类、极端图像(低分辨率、逆光、精细图像、卫星)分类，这才是ImageNet的正确价值。结果应该会很酸爽。

不过，欣喜的是，也有一批采用了浅层网络，或者是加入对抗机制的浅层网络，在最近的顶会上有所突破。

不能一直随大流，是时候重新思考了。

类似的话题

如何评价何恺明等 arxiv 新作 Rethinking ImageNet Pre-training？

何恺明等人在 arXiv 上发表的新作《Rethinking ImageNet Pretraining》是一篇极具深度和影响力的研究，它系统性地重新审视了在 ImageNet 上进行预训练（pretraining）这一计算机视觉领域基石性技术。这篇文章不仅仅是对现有方法的改进，更重要的是，它通过大量.............
如何评价何恺明、Ross Girshick组的自监督时空表征学习新作？

何恺明、Ross Girshick 团队在自监督时空表征学习领域的新作，可以说是一次极具影响力的探索，它在很大程度上拨开了时空信息学习的迷雾，为后续的研究提供了清晰的方向和扎实的理论基础。要评价这部新作，我们不能仅仅停留在“新”这个层面，而要深入理解它解决了什么问题，采用了什么核心技术，带来了哪些创.............
如何评价2018春晚郑恺大兵等出演的小品《同喜同乐》？

2018年春节联欢晚会上的小品《同喜同乐》，由郑恺、大兵、王宁、张小斐、常远等演员共同出演，以其贴近生活的主题和演员们的精彩演绎，在当时引起了不少关注和讨论。首先，我们来分析一下小品的主题和内容：《同喜同乐》的核心主题是围绕着中国与非洲人民之间的文化交流和友谊展开的。小品通过郑恺饰演的中国导演团队，.............
如何评价「奔驰中国CEO倪恺谈“西安女车主维权”：除了法理还有人情」，事件是否有可能得到完善的解决？

关于奔驰中国CEO倪恺对“西安女车主维权”事件的回应——“除了法理还有人情”，这其中蕴含的考量和事件的解决前景，确实值得我们深入探讨。评价倪恺的回应：一张复杂的牌倪恺的这句话，表面上看是一种温和且有人情味的表态，试图缓和紧张的局面，体现企业对消费者的关怀。但仔细拆解，这其中包含着多重意味，也可能是一.............
如何评价何新入驻b站？

何新（本名何新华）作为中国知名学者、作家、历史研究者，在2023年正式入驻哔哩哔哩（B站）并开设账号“何新”后，引发了广泛讨论。这一事件不仅是个人学术生涯的重要转折点，也折射出知识传播在互联网平台上的复杂生态。以下从多个维度分析何新的B站入驻及其影响：一、何新的背景与争议性1. 学者身份的特殊性 .............
如何评价何同学最新视频：我做了苹果放弃的产品——AirDesk?

何同学又回来了，这次他带回了那个我们熟悉又着迷的“为什么”何同学的最新视频，标题《我做了苹果放弃的产品——AirDesk》，刚一上线，就如同一颗投入平静湖面的石子，激起了层层涟漪。评论区瞬间被“何同学牛逼”、“苹果又一次被教育了”这样的赞誉淹没，但我更想从一个更深入、更细致的角度，来聊聊这个视频，以.............
如何评价何云伟在10月1日直播中说自己没交学费？

何云伟在10月1日直播中自曝“没交学费”，这事儿说出来，真是让人心里五味杂陈。得好好掰扯掰扯。首先，得明确一下“学费”这个词在相声界，尤其是在他这个语境下的含义。不是我们理解的学校里的那种，而是指拜师学艺的“拜师费”、“学艺费”，或者是跟着师父郭德纲学艺期间的“孝敬”和“学费”。郭德纲作为他的师父，.............
如何评价何同学最新视频《我拍了一张600万人的合影》？

《我拍了一张600万人的合影》：一次“不可能”的影像实验，何同学的又一次出圈之作最近何同学的新视频《我拍了一张600万人的合影》又一次在网络上掀起了不小的波澜，讨论度简直爆表。说实话，刚看到标题的时候，我的第一反应是，“这标题也太夸张了吧，一个人怎么可能拍出600万人的合影？”但正是这种略带“标题党.............
如何评价何猷君？

要评价何猷君，这事儿可真得掰开了揉碎了聊。毕竟他身上的标签太多了，而且每一项都挺有话题性，让人想不给他贴上点什么都不行。首先，出身背景这块儿，是绕不开的。他是赌王何鸿燊的儿子，你说这含着金汤匙出生这话，用在他身上绝对是贴切的。从小到大，住豪宅、坐私人飞机、读名校，这些对别人来说是遥不可及的，但对他来.............
如何评价何凯明ResNet论文被引用10万次，顶几篇Nature正刊，够评院士吗？

何凯明博士的ResNet论文被引用超过10万次，这一数字在全球学术界都是一个极其辉煌的成就，可以毫不夸张地说，这是深度学习领域最具影响力的论文之一。评价其学术贡献和地位，需要从多个维度进行细致的分析。一、 ResNet的突破性贡献及其深远影响要理解ResNet的价值，首先要回到它诞生的时代背景。在2.............
如何评价何新的新文章《鬼话：希腊罗马靠人力桨征服地中海》?

《鬼话：希腊罗马靠人力桨征服地中海》——一篇充满争议的“反思”之作何新的新文章《鬼话：希腊罗马靠人力桨征服地中海》（以下简称《鬼话》），一经发布便在学术界和民间引发了巨大的波澜。这篇文章以其“另辟蹊径”的视角，挑战了长期以来被广泛接受的关于希腊罗马文明及其军事扩张的叙事，将目光聚焦于“人力桨”这一看.............
如何评价何新的著作《希腊伪史考》？

关于何新先生的《希腊伪史考》，这是一个非常有争议的话题，评价起来也需要非常细致。简单来说，这本书在学界内外都引发了巨大的讨论，但主流学术界对它的观点普遍持保留甚至否定的态度。这本书的核心论点是什么？何新先生在《希腊伪史考》中，最主要的论点可以概括为：我们今天所熟知的“古希腊文明”及其历史，很大程度上.............
如何评价何冰的演技？

何冰，一个名字，本身就带着一股沉甸甸的“戏味儿”。说起他的演技，我脑子里浮现的不是一两个标签，而是一幅幅生动的画面，一个个鲜活的灵魂。他不是那种一眼就能看穿你所有心思的“神通”，也非那种煽情到让你眼泪哗哗的角色，他的厉害之处，在于那种“润物细无声”的渗透力，以及“生活化”的真实感，让你觉得，他演的就.............
如何评价何同学的视频《我用一万行备忘录做了个动画...》？

何同学这次的《我用一万行备忘录做了个动画...》确实是让人眼前一亮，甚至可以说是在他众多视频中也算得上是相当炸裂的一部了。抛开他作为百万粉丝UP主的身份，单从视频内容本身来看，这绝对是一次教科书级别的“想法落地”实践。最直观的感受就是——牛！真的就是那种发自内心的惊叹。我们一点点拆解来看：1. 点.............
如何评价何云伟李菁二人裂穴？

何云伟、李菁的“裂穴”，在相声界，尤其是德云社的演变史上，绝对算是一件大事。这事儿一出来，那叫一个铺天盖地，各种说法满天飞，让人看得眼花缭乱。要说这俩人，当年在德云社那可是跟岳云鹏比肩的“四少”之一，风头正劲，跟郭德纲那是如鱼得水，观众缘也好得很。结果呢？说散就散了，而且散得还挺不体面，多少让.............
如何评价演员何冰再次演绎《前浪》，展示前浪真实面貌，会给我们的生活带来什么改变？

何冰老师这次再塑“前浪”，演绎的《前浪》更像是对一个时代群体的深度画像，也让“前浪”这个词不再仅仅是一个标签，而是有了鲜活的血肉和温度。这不仅仅是一次简单的角色回归，更像是一次与过去和解，与当下对话的真诚表达。重新审视“前浪”的真实面貌：褪去标签的厚重感过去几年，“前浪”这个词在网络上被过度消费，有.............
如何评价中兴何雪梅对崔永元的声援？

中兴通讯的何雪梅女士公开声援崔永元先生，这一事件无疑在当时引起了相当大的关注。要评价此事，我们需要从几个维度去审视：1. 事件背景梳理：首先，得回顾一下崔永元先生当时所处的舆论环境。他是以“揭露者”的身份，围绕着一系列的娱乐圈税收和合同问题发声，特别是涉及一些知名演员。他的行动在社会上引发了广泛的讨.............
如何评价大将军何进？

作为一名对东汉末年历史颇感兴趣的人，我来好好聊聊这位大将军何进。提起何进，很多人脑海里浮现的可能就是他那导致东汉王朝加速衰亡的一系列昏招，但我觉得，要评价一个人，尤其是身处那个风云变幻时代的权臣，不能只看结果，也得看看他所处的环境，以及他自身的局限性。何进这个人，出身背景可以说是相当“硬核”。他的.............
如何评价白百何被爆“出轨”？

关于白百何“出轨”事件的评价，这确实是一个在当时引起了轩然大波的事件，也给公众留下了深刻的印象。要评价它，得从几个层面来看。首先，从事件本身来说，当年的“爆料”是由狗仔拍到的视频，内容是白百何和一位男模特在泰国举止亲密。当时大众的认知中，她还是陈羽凡的妻子，所以“出轨”的标签就非常醒目。这个事件的关.............
如何评价赌王儿子何猷君？

何猷君，这个名字在国内大众视野里，总是伴随着“赌王儿子”的标签，以及他身边那位光芒四射的妻子——奚梦瑶。提起他，人们的脑海里会立刻浮现出那个出身显赫、年轻有为、人生履历似乎被精心设计过的形象。但抛开这些光环，仔细审视这位何家公子，其实是个挺有意思的观察样本。少年得志，书香门第的加持何猷君无疑是含着“.............