如何看待何恺明最新一作论文Masked Autoencoders？

何恺明教授的最新一作论文 “Masked Autoencoders Are All You Need for Vision” (MAE) 是一篇在计算机视觉领域引起巨大轰动的研究成果。它不仅在学术上极具创新性，也为未来的自监督学习方法提供了新的方向和思路。下面我将从多个维度详细地介绍这篇论文，包括其核心思想、技术细节、实验结果、影响以及一些可能的讨论点。

一、核心思想：借用 NLP 的成功经验，构建高效的视觉自监督学习方法

MAE 最核心的思想在于 “将 NLP 领域在预训练语言模型上取得巨大成功的 Masked Language Model (MLM) 的范式迁移到计算机视觉领域。”

在 NLP 中，BERT、GPT 系列等模型通过“遮盖”输入文本中的一部分词语，然后让模型预测被遮盖的词语，从而学习到丰富的语言表示。MAE 受到启发，将这一思想应用于图像领域。其核心在于：

1. 大规模图像遮盖 (Masking): 与 NLP 中遮盖少量词语不同，MAE 采用了极高的遮盖率 (masking ratio)，通常高达 75% 甚至更高。这意味着模型大部分的输入信息是被移除的。
2. 仅重建可见部分 (Reconstruction of Visible): 模型的目标是仅利用未被遮盖的图像块 (patches) 来重建整个被遮盖的图像。它并不需要直接重建被遮盖的像素，而是重建其对应的图像块。
3. 简单高效的 Transformer 架构: MAE 直接使用了标准的 Vision Transformer (ViT) 架构，没有引入复杂的定制模块，这使得其实现更加简洁和高效。

MAE 证明了，即便移除了绝大多数的输入信息，通过这种精心设计的自监督任务，ViT 仍然能够学习到强大的视觉表示。

二、技术细节：MAE 的工作流程与关键设计

MAE 的整个流程可以分为两个阶段：预训练 (Pretraining) 和微调 (Finetuning)。

1. 预训练阶段 (Pretraining)

这是 MAE 最具创新性的部分，其工作流程如下：

图像分块 (Patching): 输入图像首先被分割成一系列固定大小的二维图像块 (patches)，类似于 ViT 的操作。例如，一张 224x224 的图像可以被分成 14x14=196 个 16x16 的图像块。
随机遮盖 (Random Masking): 这是 MAE 的核心创新点之一。在所有图像块中，随机选择一个极高的比例（例如 75%）进行遮盖。这意味着只有 25% 的图像块会被保留作为输入。
编码器处理可见块 (Encoder Processing Visible Patches):
仅编码可见块: 只有未被遮盖的图像块被输入到 Transformer 编码器中进行处理。被遮盖的图像块在进入编码器之前就被丢弃了。这是一个非常重要的效率提升点，因为编码器只需要处理原始输入图像块的很小一部分（例如 25%）。
位置编码: 传统的 ViT 会为每个图像块添加位置编码。MAE 在这里也沿用了这一做法，为可见的图像块添加其在原始图像中的位置信息。
Transformer 编码器: 这些可见的图像块通过多层标准的 Transformer 编码器进行处理，学习提取有意义的视觉特征。编码器的输出是每个可见图像块的潜在表示。
解码器重建被遮盖图像块 (Decoder Reconstructing Masked Patches):
引入 Mask Token: 这是一个关键的设计。对于所有被遮盖的图像块，MAE 会引入一个可学习的“mask token”。这个 mask token 不携带任何语义信息，仅仅作为一个占位符。
合并可见块和 Mask Token: 编码器的输出（可见图像块的表示）和所有 mask token 被拼接在一起。
加入位置编码: 为了让解码器知道每个 token 在原始图像中的位置信息，MAE 为所有 token（包括可见块的表示和 mask token）都添加了位置编码。
Transformer 解码器: 这个拼接后的 token 序列（包含了可见块的表示和大量的 mask token）被输入到一个 Transformer 解码器中。解码器的任务是重建原始图像块的像素值。注意，解码器不需要看到被遮盖图像块的原始像素，它只需要根据可见块的上下文和自身学习到的模式来“填充”被遮盖的部分。
重构目标 (Reconstruction Target): 重建的目标是原始的图像块像素值。MAE 计算重建的图像块像素值与原始图像块像素值之间的均方误差 (Mean Squared Error, MSE)。
仅在可见块上计算损失: 虽然解码器处理了所有 token，但损失函数只计算在被遮盖图像块位置上的重建误差。这使得模型专注于学习如何填充被遮盖的信息，而不是去优化已经存在的可见信息。

关键设计决策与优势：

高遮盖率 (High Masking Ratio):
强制学习全局上下文: 高度遮盖迫使编码器必须学习图像的全局结构和语义信息，才能有效重建被遮盖的部分。模型不能仅仅依赖于局部纹理。
提高预训练效率: 编码器只处理少量可见块，大大减少了计算量和内存需求，使得在高分辨率图像上进行预训练更加可行和高效。论文指出，编码器计算成本仅为标准 ViT 的 10% 左右。
简单的解码器 (Simple Decoder):
任务特定性: 解码器被设计为相对简单，只关注重建任务。它通常比编码器小，并且具有较少的层数。
轻量级: 在预训练完成后，解码器会被丢弃，只保留经过预训练的编码器。这使得微调时的模型尺寸非常小，且与最终任务（如分类、检测）更加匹配。
仅在被遮盖块上计算损失:
聚焦学习: 这种设计使得模型专注于学习如何“填补”缺失的信息，而不是“优化”已经存在的信息，从而更有效地学习图像的内在表示。
数据增强: 高度遮盖本身也可以被看作是一种强大的数据增强手段，迫使模型学习对各种“破坏”的鲁棒性。

三、实验结果与性能

MAE 在多个视觉任务上取得了惊人的结果，证明了其强大的表示学习能力：

图像分类 (Image Classification): 在 ImageNet 数据集上，MAE 在其预训练的 ViTBase 模型上，仅用 100 个 epoch 的预训练，就能达到 87.8% 的准确率，而同样条件下，监督学习的 ViTBase 只能达到 77.4%。当使用更长的预训练周期（如 1600 epoch），MAEBase 的性能更是可以达到 88.6%，与当时最先进的监督学习方法相当，甚至超越了一些方法。MAELarge 也能达到 90.0% 的准确率。
下游任务的迁移能力: MAE 预训练的模型在各种下游任务上表现出色，包括：
目标检测 (Object Detection) 和实例分割 (Instance Segmentation): 在 COCO 数据集上，MAE 作为骨干网络（如 Mask RCNN）能够显著提升性能。
语义分割 (Semantic Segmentation): 在 ADE20K 等数据集上同样展现出优越的迁移能力。
对遮盖率的敏感性分析: 论文深入分析了不同遮盖率对性能的影响。实验表明，MAE 在非常高的遮盖率（如 75%）下性能最佳，并且即使遮盖率高达 95% 仍然能获得不错的结果，这凸显了其鲁棒性。
与对比方法的比较: MAE 在性能、计算效率和数据效率方面都明显优于当时其他的自监督学习方法，如 SimCLR, MoCo v3, DINO 等。

四、 MAE 的影响与意义

MAE 的出现对计算机视觉领域产生了深远的影响：

1. 证明了自监督学习的强大潜力: MAE 再次证明了自监督学习，特别是基于 Transformer 的自监督学习，可以达到甚至超越监督学习的性能，这为计算机视觉的研究提供了新的范式。
2. 推动了 Vision Transformer 的普及: MAE 的出现降低了使用 ViT 进行自监督预训练的门槛和成本，使得更多的研究者和开发者能够利用 ViT 的强大能力。
3. 启发了新的自监督任务设计: MAE 的“遮盖重建”范式，尤其是高遮盖率和仅重建被遮盖部分的设计，为后续的自监督学习方法提供了新的思路和研究方向。例如，后来的 Masked Image Modeling (MIM) 方法多多少少都受到了 MAE 的启发。
4. 效率与性能的平衡: MAE 在保持高性能的同时，显著提高了预训练的效率，这对于处理大规模数据集和模型至关重要。
5. 对Transformer的理解: MAE 强调了 Transformer 在捕捉全局视觉信息方面的优势，以及如何通过有效的预训练任务来激发这种能力。

五、可能的讨论点与局限性

尽管 MAE 非常成功，但仍然有一些可以深入讨论的方面：

重建目标的设计: MAE 直接重建像素值。是否可以考虑其他重建目标（如特征重建、对抗性重建）？以及它们对模型性能和学习到的表示会有何影响？
MAE 的“弱点”和局限性:
对细粒度任务的影响: 高度遮盖是否可能导致模型丢失一些对细粒度视觉信息敏感的任务（如某些医学影像分析任务）所需的信息？
对“上下文”的过度依赖: MAE 依靠大量被遮盖的区域，是否会过度依赖于全局上下文而牺牲了对局部精细特征的捕捉能力？
解码器在预训练中的作用: 尽管解码器在推理时被丢弃，但其在预训练阶段对模型学习过程可能产生了什么样的具体影响？
与其他自监督方法的融合: 如何将 MAE 的理念与其他自监督学习方法（如对比学习、聚类）结合，以获得更优的性能？
对不同模型架构的适用性: MAE 的范式是否适用于其他类型的视觉模型（如卷积神经网络）？或者它是否是专为 Transformer 设计的？
解释性: MAE 模型是如何通过重建被遮盖区域来学习到有效的视觉表示的？其内部机制是否可以更深入地分析？
Mask Token 的设计: Mask Token 是可学习的，这对其扮演的角色和对学习过程的影响值得进一步研究。
预训练数据的重要性: MAE 在大规模数据集（如 ImageNet）上表现出色。在更小、更多样化的数据集上，其性能如何？数据质量和多样性对 MAE 的影响有多大？

六、总结

何恺明团队的 MAE 论文是一项里程碑式的研究。它以其简洁而高效的设计，成功地将 NLP 领域预训练模型的核心思想“遮盖重建”迁移到计算机视觉领域，并取得了卓越的成果。MAE 不仅在性能上大幅提升，也极大地推动了计算机视觉领域自监督学习的发展方向，为未来的研究奠定了坚实的基础。它的出现证明了，通过精心设计的自监督任务，可以有效地从无标签数据中学习到强大的视觉表示，为构建更强大、更通用的视觉模型提供了新的可能。

网友意见

哪怕不看作者我也很喜欢这篇paper，忍不住分享一下我喜欢这篇paper的原因以及一些思考：

我认为这篇文章从某种方面证明了过去一年对ViT的各种改变可能都是没有意义的，用MAE做pre-training只用ImageNet-1k就能达到>87% top 1 accuracy，超过了所有在ImageNet-21k pre-training的ViT变种模型。所以它说明了纯Transformer确实很强，只不过特别难训练。一个很有意义的follow-up方向是：MAE是不是唯一的或者最好的训练目标？有没有其他没有人试过的训练目标能达到同样或者更好的结果？
如果把MAE里encoder的ViT换成其他带convolution的ViT或者local attention的ViT结果会变好还是变差呢？我觉得这是一个很重要的实验并且也是一个low hanging fruit，因为它的结果很有可能让过去一年内基于ViT的工作变得没有意义 (如果结论是这些改动都没用那就有意思了)。
不知道这篇文章对self supervised learning community有多大影响，下一步是不是要从contrastive pre-training挪到generative pre-training了？
我觉得这篇文章算是开了一个新坑。因为在我看来MAE只是验证了“Masked image encoding”的可行性，但是看完paper我并不知道为啥之前的paper不work而MAE就work了。特别是ablation里面的结果全都是80+ (finetuning), 给我的感觉是我们试了一下这个objective就神奇的work了。我估计肯定会有一批人去研究它能work的原因 (就像现在很多人研究contrastive learning work的原因一样)。

不管这篇文章有没有所谓的“novelty”，能引发我的思考让我觉得有follow的价值就是好文章。

我一般判断看一篇方法类文章将来是否有影响力从下面三个角度(重要程度依次递减)

（1) 惊人程度，Surprise

研究的目的就是探索前人不知道的知识，挖掘新的信息。我认为MAE在这点上很棒，它告诉了我直接reconstruct image原图也可以做到很work，这改变了我们绝大多数人的认知(之前iGPT没有很work; 其他答案提的BEIT也并不是reconstruct原图，而是reconstruct feature)。

在NLP reconstruct效果很好是因为文字本身就是highly semantic，所以模型预测的目标信息量大，而噪音小; 图片相比而言语意信息密度低，如果模型要完全预测对目标的话就要浪费capacity去model那些不重要的玩意儿。因此我一直觉得reconstruction这个学习目标不太对。

但这篇文章似乎是换了种方式来解决这个问题(个人偏见)，就是压根就没想让模型完全恢复原图，MAE只输入很少的patch，那无论如何也恢复不了原图。同时我们都知道，相比高频信号而言，神经网络更擅长抓住低频的信号。高频是局部细节，低频更多是high level semantics。所以netwok最后可能以fit低频信号为主学到了high-level feature? 论文里面的visualization看起来也比较契合。

以前CovNets时代做不了，如果把mask的图丢给convnet，artifacts太大了，预训练时候模型时既得费劲入管mask out掉的region，预训练完了后还造成了跟后面完整图片的domain gap，吃力不讨好，我之前用convnet试过这种mask patch的相关的东西，结果乱七八糟的不work。但MAE里Transformer可以很好避开这个坑，太妙了。我的导师也评价说我们AI的ecosystem一直在变，所以方法的有效性和相对优越性也在evolve，不是一层不变的。

还有一个小点是MAE也让我学到了linear acc和fine-running acc可以完全uncorrelated甚至反过来。之前就看到有论文讨论linear和fine-tuning关联并不强，但没想到能差别这么大。以后的evaluation都得变了⋯⋯看来做实验不能盲目follow之前的metric了…

(2) 简单性 simplicity

这篇文章非常idea非常简单，实现起来也快捷，有趣的是文章里面一个公式都没放哈哈。我受导师的影响，认为在保持核心idea不变的情况下，或者说surpriseness不变的情况下，我们应该最小化系统的复杂度。因为越简单，也会愈发凸显惊讶程度。害，说起来我最开始接触科研老想着瞎加玩意儿，即使现在也经常做加法而不是减法，确实比较菜…

(3) 通用性 generality

其实(2)和(3)我也不确信哪个更重要，有时候(2)和(3)也相辅相成，越简单越通用。无疑MAE在(3)也做的很棒，几乎影响所有vision里面的recognition类别的任务，不过这也是做representation learning这方向的好处…死磕基础问题。

所以，综合这几点我觉得无疑是visual representation learning今年最有影响力的文章…像这种能改变我的认知，启发我更多思考的文章，对我来说就是好的novel的。novelty应该不只是technical这个维度…

P.S. 看到有个答案说KM的研究品味不高，我完全不敢同意，每个人喜好做不同类型的工作罢了，在做方法算法这块，KM的的品味绝对是最top的，传闻就有做graphics的很solid的教授评价他: whatever this guy touches become gold。当然如果不是方法类的研究，而是要做一件从0到1的事，或者挖坑带领大家前进，那影响力就不能从这三个标准来看了，得看vision了

何恺明yyds，我就是个无情的翻译机器。

摘要

本文表明，遮蔽自动编码器（MAE）是计算机视觉中可扩展的自监督学习器。咱MAE方法很简单：我们随机对输入图像块进行遮蔽，并重建缺失的像素。它基于两个核心设计。首先，我们开发了一个非对称的编码器-解码器架构，其中的编码器只对可见的图像块子集进行操作（without mask tokens），同时还有一个轻量级的解码器，从latent representation和mask tokens中重建原始图像。其次，我们发现，对输入图像的高比例进行遮蔽，例如75%，是一个非常有意义的自监督学习任务。耦合这两种设计使我们能够有效地训练大型模型：我们提高了训练速度（3倍或更多）并提高了准确率。该方法允许学习具有良好泛化能力的大容量模型：例如，在只使用ImageNet-1K数据的方法中，一个原版的ViT-Huge模型达到了最好的准确性（87.8%）。在下游任务中的转移性能优于有监督的预训练，显示出了巨大的潜力。

动机

We ask: what makes masked autoencoding different between vision and language?

我们试图从以下几个方面来回答这个问题从以下几个方面来回答这个问题。

(i) 架构不同。在视觉方面。卷积网络在过去十年中占主导地位。卷积通常在规则的网格上计算的，而要把mask tokens或位置向量整合到卷积网络中并不简单。然而，这个架构上的差距已经被Vision Transformers (ViT) 解决，应该不再会是个障碍。

(ii) 语言和视觉之间的信息密度是不同的。和视觉的信息密度不同，语言是人类产生的信号，是高度语义和信息密集的。当训练一个模型来预测每个句子中仅有的几个缺失的单词，这项任务似乎能引起复杂的语言理解。相反，图像是具有严重空间冗余的自然信号。例如，一个缺失的图像块可以从邻近的图像块中恢复出来，而不需要什么高级的对部件、物体和场景的语义理解。为了克服这种差异并鼓励学习有用的特征，我们展示了一个简单的策略在计算机视觉中具有良好的效果：随机遮蔽非常多的图像块。这种策略在很大程度上减少了冗余，并创造了一个具有挑战性的自监督任务，需要超越低层次图像统计，而进行语义理解。下面来点图，给你们点感觉，咱的重建任务是怎么做的。

(iii) 自动编码器的解码器，将 latent representation映射回输入，在重建文本和图像之间扮演着不同的角色。在视觉中，解码器重建像素，因此其输出的语义水平低于普通的识别任务。比普通识别任务的语义水平低。这与语言不同，在语言中，解码器预测的是包含丰富语义信息的缺失词。虽然在BERT中，解码器可以非常简单（例如一个MLP），但我们发现，对于图像来说，解码器的设计在决定所学的 latent representation的语义水平方面起着关键作用。

模型

咱的MAE有一个不对称的编码器和解码器设计。咱的编码器只对可见的图像块进行计算，而咱的解码器是轻量的，在咱非对称编码器-解码器中，将Mask tokens转移到小的解码器，导致计算量大大减少。在这种设计下，一个非常高的掩蔽率（如75%）可以实现双赢的局面：它在优化精度的同时，允许编码器只处理一小部分（如25%）的图像块。这可以使整个预训练时间减少3倍或更多，同样也可以减少内存消耗。使我们能够轻松地将咱的MAE扩展到大型模型。

重建目标

咱的MAE通过预测每个被遮蔽的图像块的像素值来重建输入。解码器输出中的每个元素都是代表一个图像块的的像素值的向量。解码器的最后一层是一个线性投影，其输出通道的数量等于一个图像块的中像素值的数量。解码器的输出被重塑以形成一个重建的图像。咱的损失函数计算重建图像和原始图像在像素空间中的平均平方误差（MSE）。咱只在被遮蔽的图像块上计算损失，类似于BERT。

实验

基线baseline

ViT-Large. 我们在消融研究中使用ViT-Large（ViT-L/16）作为backbone。下图是基线与微调MAE的比较。微调训练了50轮，从头训训练了200轮。

主要特性

观察到几个有趣的特性。

遮掩率：下图显示了遮蔽率对性能的影响。最佳遮蔽率令人惊讶地高，达到了75%。而在BERT中遮蔽率通常只有15%。此外，咱的遮蔽率也比其他工作高，它们通常只有20%-50%。

Mask token：没有Mask token更好更快。

重建目标：带归一化像素点、不带归一化像素点，96维PCA向量和dVAE token。实验证明带归一化的像素点是最吼滴。

数据增强：MAE不怎么需要数据增强，相比对比学习强烈依赖数据增强。

遮蔽采样策略：随机采样是最好滴

训练方式：训练1600轮没见饱和，真滴牛逼。相比MoCo 300轮后就饱和了。额滴神啊，1600轮这要训练多久...

就写这些吧，论文很长，翻译不动了。感兴趣的同学自己去看吧~

趁着写论文的间歇来写个回答，讲几个感想：

1. 除了idea和实验方面的天赋，还想说恺明对于技术趋势的敏锐性和革命前夕的神准把握方面实在太牛了。一直觉得创新本身不是最重要的，更重要的是带来改变领域走向的理解或者技术，恺明这篇论文无疑是会达到这一成就的，MoCo和Mask R-CNN也是如此，大巧无工，但真的改变了领域。

2. 过去我们过于看重linear probe这个指标，MAE无疑会改变这一现状，以及让我们重新去看待contrastive learning和mask image modeling的未来。很巧的是，一年前，我们NLC组的同事Hangbo Gao、 @董力以及韦福如和我们提到要做和MAE类似路线的方法：BEIT，那时还觉得这个路线的方法学到的特征会太low-level，没想到半年后他们居然搞出来了，结果非常惊艳，事实上也改变了我的认知。MAE这个工作无疑也会让BEIT也大火起来, 尽管过去4、5个月BEIT其实在小范围内已经很受关注，但它受到的关注显然小于它实际的贡献。恺明大神这次的论文，让这个方向工作的重要性得到了应有的证明。

https:// ancientmooner.github.io /doc/self-supervised-learning-cv-valse.pdf

3. 看到恺明Intro里的一句话：”The idea of masked autoencoders, a form of more general denoising autoencoders [48], is natural and applicable in computer vision as well. Indeed, closely related research in vision [49, 39] preceded BERT.” 要特别赞一下这句话，其实也是有共鸣的，今年在RACV上讲了一个态度比较鲜明（或者极端吧。。）的talk，说要“重建CV人的文化自信”，就拿它作为其中一个例子：Mask Image Modeling或者视觉里叫Inpainting的方法在CV里做的蛮早的，在BERT之前就已经有一些。

RACV2021观点集锦 | 视觉transformer 从主干encoder 到任务decoder: 现状与趋势 (qq.com)

4. 想再次感叹一下，CV和NLP以及更多领域的融合看来真的是大势所驱了，希望不同领域的人多多合作，一起来搞事情。前几天见到董力和福如，他们提到有个多模态的工作因为挂了Arxiv不能投ACL了，我提议他们投CVPR，不晓得他们最后是什么决定。无论如何，CV的会议是很开放和包容的，理论的、偏工程的、交叉的、基于toy data做的，只要有点意思都有机会被接收，相信这也是CV领域能够长期这么繁荣的重要原因之一。在AI各个子领域技术趋同的背景下，它们之间的联系和跨界也会越来越紧密，这正是CV这个社区体现开放和包容心态的时候，吸引更多NLP的同仁们加入CV或者交叉研究中，以及我们自己去尝试给其他AI子领域进行贡献的时候，最终的目标就是和各个领域一起共舞，共同推进AI的进展。

现在是2021年11月12日中午，恺明刚放出来几个小时，就预定了CVPR2022 best paper candidate（这里说的是best paper candidate，不是best paper）

恺明总能做出很新很有效的让人震惊的文章，这篇又是一个力作。要知道凯明最近已经很少发一作的文章了。

这篇文章推翻了之前视觉自监督领域的统领范式（NLP里面确实用的比较多，但是CV里面用的并不多），提出了简单本质有效的自监督方法:基于mask和autoencoder的恢复方法。

下面一起来赏析一下恺明的历史性工作。模型非常简单，上图一目了然。就是把图片中一部分像素遮盖掉，然后用autoencoder来恢复。这样无监督学习到的表征可以用于多个下游任务中。

这篇文章的效果也非常惊艳，下图可以看到，在验证集上仅仅通过很少的像素点就可以恢复出有意义的图像。

特别是95%遮挡的情况，简直让人拍案叫绝！

这篇文章的数字效果也非常好，在imagenet上面，用新的框架超过了之前的所有方法，特别是对于大模型预训练，有更好的效果。

针对说这篇论文不novel的，我下面来进行一个逐一反驳。有新的质疑也可以在评论区提出，我会补充。对novelty的有效质疑必须满足以下条件：

1、要针对这篇文章的核心论点评估是否novel（利用生成网络进行大规模恢复式预训练这一点），而不是说抓住某个侧面跟已有方法比较是否novel（比如什么这个也是mask modeling之类的，你咋不说这个文章也是deep learning呢）。

2、要指出具体的文献，而不是泛泛而谈这个跟之前哪个思路很像。要知道kaiming的resnet之前也有人提出过短路，faster rcnn也有同期的很像的工作。但是并不妨碍这两篇在vision领域的影响力。

下面针对几个论文具体谈谈区别：

1、 BEiT^[1]这篇是同期工作，也是比较像的。恺明的工作的主要区别是用一步预训练而不是BEiT中的先学dictionary，再学恢复的两步式做法，更加简单高效。恺明也跟这篇论文加了个比较，发现masked autoencoders表现更好。

2、MST^[2]这篇也算同期工作，这个工作利用了两个网络，一个teacher，一个student，用了两个loss，一个是监督的交叉熵函数loss，一个是恢复的loss。虽然同样是masked modeling，但是恺明的网络更加简单高效本质。

3、说跟NLP里面的BERT^[3]很像的，首先这是两个领域，视觉的图片是二维的，像素点也高。举个具体的例子，我们很容易在NLP里面学到，“我X篮球“中的X是“打”这个字，但是在vision当中，当大部分像素点被遮盖的时候，还能学到这种恢复能力吗？

其次，模型也跟BERT有明显差别的，BERT只用了encoder，但这是一个encoder+decoder的模型，差别很大。

另外，BERT采用了多个任务一起学习的方式，才达到很好的效果，kaiming这篇仅仅采用了masked prediction这一种方式，就达到了比之前文章好的效果，属实经验。要知道之前的vision pretraining都是加很多很重的pretext任务，才能达到很好的效果。但kaiming这个简单粗暴，一个任务搞定！

最后，ViT不也是transformer从NLP搬到CV领域么，然而它毫无疑问是非常非常杰出的工作。关键是得要站在本领域看，这个技术的应用是否新。有些人觉得，这不就是个搬迁，但是自己多试试就知道，大部分的idea搬迁过来都是不适用/不那么有效的（参考下面iGPT这种粗暴的搬迁方式），真的搬迁过来能推翻统领了一个领域多年的方法，还是非常不容易的！

4、说跟NLP里面的RoBERTa^[4]很像的，RoBERTa用了大量的预训练数据，比BERT更甚，才达到更好的效果。而kaiming这篇是纯粹的单数据集预训练。RoBERTa也印证了单纯用masked prediction是最有效的与训练方式，这点结论与kaiming的相吻合。其余部分的区别，跟BERT一样。还是那句老话，人家大佬敢提出简单粗暴的方式，并能证明work，其余人想做到这一点并不容易。

5、iGPT^[5]这篇也是在CV里面做mask预训练的，但是从结果上看，iGPT只有72.0%，还是用了大量外部数据，但是kaiming的最好的结果有87.8%，一般的网络也有80%+，还没有使用外部数据！要知道imagenet上面，一两个点都是很关键的。这正说明，简单的用mask预训练在CV里面是很难work的。我们来详细看看区别：

首先，iGPT没有使用encoder+decoder，这是非常关键的技术点。

其次，iGPT采用的是初始BERT的预测下一个token是什么的任务，而不是mask prediction。

从实验上看，iGPT也没有做classification之外的下游任务，可能效果也不理想。

总体来说，idea层面不能说之前人没想到过，只能说之前人做的没kaiming有效。这一点已经贡献很大了。因为可能有很多新的研究者看到之前不太work的文章，会想：哦原来尝试过了，这个idea不行。然后就放弃了投入这个方向。但是kaiming证明了，这个idea是可以work的，这个方向是promising的。这本身是一个很好的“拨乱反正”的贡献。

参考

^ https://arxiv.org/abs/2106.08254
^ https://arxiv.org/abs/2106.05656
^ https://arxiv.org/abs/1810.04805
^ https://arxiv.org/abs/1907.11692
^ https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf

今天想着想着，就有个疑问了，借楼向大家提问一下。

首先，根据MAE论文的消融实验，我们可以看到50%的mask ratio效果也挺好了，并且encoder加入[M]的finetune性能其实也不会降多少（这里都只关心finetune）

然后，如果encoder加入[M]，其实跟decoder也就没啥差别了，所以这种情况下整个MAE模型就是一个多了几层的ViT模型而已。总的来说就是：一个多了几层的ViT，加50%的mask ratio，去重构原图，应该是能起到还不错的预训练效果（至少finetune性能有80%+吧）

然而，上面说的预训练配置，在ViT的原始论文就出现过，但是效果明显差了一截：

虽然两者也不能说完全相同，但我觉得该get到的point已经get到了，所以问题来了，原始ViT的预训练效果为啥会差呢？

整个学界被linear probe这个评价方式带歪了两年的时间。

linear probe其实就相当于只让finetune最后一层，也就是说倒数第二层就必须得有很强的分类能力了（注意是分类能力，并不一定是特征表达能力）。

contrastive learning本身就是做的类似于分类的metric learning任务，在linear probe这个指标上太占便宜了。而MAE方法是做图像重建的，就算能提取到很好的语义特征，离分类能力也还是有一定的距离。

现在回过头来看，只能finetune最后一层实在没什么道理，本来网络就是整体优化来达到最终目标的，就算是做分类，也不可能只有最后一层在起作用。整体finetune才符合神经网络的运行模式。

大牛们在挖坑的同时，真的要好好考虑清楚evaluation protocol，一将无能累死三军啊。

kaiming的MAE和年初的CLIP可能是今年CV领域唯二的重磅文章，有预感MAE会成为CV领域和BERT地位相当的一篇文章。

从BERT和MAE的形态上来说，都引入了mask机制来做无监督预训练，但是又因为vision和language两种模态上本质的不同，导致mask的设计上和整体框架上有所区别。从NLP的Transformer到BERT，然后到CV的ViT、BEiT，CV领域的无监督预训练经历了漫长的探索，直到MAE的出现，才逐渐感觉到CV的大规模无监督预训练开始走向正轨。

本文先捋顺NLP和CV相关文章之间的关系脉络，然后探讨一下BEiT和MAE的关系，最后探讨一下BERT和MAE的关系。

双子星BERT和MAE

BERT和MAE的关系图。橙色虚线表示NLP和CV跨领域启发，绿色实线表示领域内启发。

Transformer是整个大规模无监督预训练的开端，Transformer改变了原有Seq2Seq的串行计算的方式，通过矩阵并行计算大幅度提升了长距离依赖的计算效率，并且由于整个框架完全采用attention，Transformer的拟合能力空前绝后。

BERT得益于Transformer强大的计算效率，构造一种类似完形填空的proxy task，可以将不同NLP任务的语料一起拿来做无监督预训练，然后将预训练好的transformer encoder应用于下游任务。

ViT巧妙的将图片构造成patch序列，可以将patch序列送入原始的transformer encoder进行图像分类，ViT直接启发了Transformer和BERT在CV领域的正确打开方式。

iGPT应该是第一个应用BERT-like的mask方式做CV领域无监督预训练的工作。iGPT把图片resize构建resize序列，同时将resize序列当作监督信号，可以直接使用BERT进行CV的无监督预训练，这给予了cv领域极大的想象空间。

BEiT对iGPT无监督预训练方法进行了改进，借鉴ViT的思路，将图片构建成patch序列，并且通过一个tokenizer得到visual token，用学习的方式得到更精确的监督信号，避免了resize导致的大量信息丢失。

重头戏来了！MAE做的更为极致，设计了一个encoder-decoder预训练框架，encoder只送入image token，decoder同时送入image token和mask token，对patch序列进行重建，最后还原成图片。相比于BEiT，省去了繁琐的训练tokenizer的过程，同时对image token和mask token进行解耦，特征提取和图像重建进行解耦，encoder只负责image token的特征提取，decoder专注于图像重建，这种设计直接导致了训练速度大幅度提升，同时提升精度，真称得上MAE文章中所说的win-win scenario了。

BEiT如今的处境就如同当年NLP的ELMO的处境，碰上MAE如此完美的方法，大部分影响力必然会被MAE给蚕食掉。BERT对整个大规模无监督预训练的发展影响巨大，MAE可能是NLP和CV更紧密结合的开始。

MAE

mask autoencoder在cv领域中起源于denoising autoencoder(DAE)，iGPT和BEiT实际上都包含了DAE的思想(DAE是bengio在08年提出来的，DAE认为对输入加噪声，模型可以学习到更鲁棒的特征)，MAE则略有不同，将image token和mask token解耦，encoder只对image token进行学习，mask token只在decoder图像重建中使用。

MAE整体上是一个encoder-decoder框架，encoder只对visible patches进行处理，decoder同时处理image token和mask token，得到重建序列，最后还原成图片。其中visible patches是通过shuffle所有patches然后采样前25%得到的(即mask ratio为75%)，decoder的输入image token和mask token通过unshuffle还原顺序，并且都需要添加positional embedding来保持patch的位置信息。

通过简单设计，MAE在mask ratio高达95%的时候，仍然能够还原出强语义的信息。

MAE文章中的fig2还有一行小字，意思是说之所以不把visible patches和reconstruction patches合起来显示，就是为了让你们看看我们的算法有多强，蚌埠住了。

Main Properties

接下来看一看最精彩的实验部分

Masking ratio

这是MAE最为关键的实验，随着mask ratio的增加，fine-tuning和linear probing的精度竟然逐渐攀升，直到75%的mask ratio还不大幅度掉点，这个实验结论跟之前的工作相差甚远(BEiT的mask ratio是40%)，违背直觉的结论往往是推动领域进步的开始。

Decoder design

MAE对decoder的depth和width进行探索，发现depth和width并不起决定性作用，最后MAE为了兼顾linear probing精度选择8个blocks，512-d作为默认配置。

Mask token

MAE在encoder部分做mask token的消融实验，发现同时在encoder送入image token和mask token会导致fine-tuning和inear probling掉点，尤其是linear probling掉了10几个点，并且计算量增加了3.3倍，该实验表明encoder使用mask token会导致encoder的提取特征能力减弱。

Reconstruction target

MAE对reconstruction target做了消融实验，发现基于token的target相比于基于pixel的target不占优势，带norm的pixel的target同时在fine-tuning和linear-tuning达到最优，表明基于token的target存在信息丢失问题。

Data augmentation

通过data augmentation的消融实验，表明MAE对于数据增强的需求并不强烈，在较弱的数据增强下，反而能够取得最好的精度，推测是因为重建任务本身就不需要强烈的数据增强，过于强烈的数据增强会导致信息失真。

Mask sampling strategy

尝试不同的mask采样策略，发现随机采样效果是最好的，这也挺符合直觉的，随机采样得到的visible patches组合多样性更好。

Training schedule

通过增加训练的epoch，MAE在fine-tuning和linear probing上可以持续提升精度，并且直到1600epoch还未见到衰退现象，说明了MAE抽象语义信息的能力之强。

Comparisons with self-supervised methods

和之前self-supervised方法进行比较，MAE在只使用ImageNet-1K(IN1k)的情况下，更具优势，并且在使用ViT-H488的backbone上取得了只使用IN1k的最好精度。

Comparisons with supervised pre-training

MAE和supervised pre-training的进行比较，发现MAE大幅度超过只使用IN1K的supervised pre-training，而且和使用JFT300M的supervised pre-training相差不多。

Partial Fine-tuning

MAE进一步指出linear probling指标对于非线性能力强的深度学习来说是不合理的。为了用更合理的指标评估深度学习的非线性能力，MAE建议使用partial fine-tuning的评价指标。使用partial fine-tuning评价指标，发现MAE在微调0层的时候，不如MoCov3，当微调层数大于0层的时候，MAE开始逐渐超过MoCov3的精度，这个实验证明了MAE的非线性能力很强，同时也说明了linear probling指标的不合理性。

Transfer Learning Experiments

将MAE的encoder迁移到下游任务中，通过COCO和ADE20K两个数据集，证明了MAE迁移目标检测和语义分割任务的优越性。

同时MAE也比较了一下pixel和token的target对于下游任务的影响，实验发现token的target对于下游任务来说也同样没有优势，甚至会轻微掉点。

下面试图解释一下MAE能work的4点原因：

图片构建成patch序列。构建成patch序列的方式，带来了许多优势：相比于self-supervised的global对比学习，patch序列可以学习到更细粒度的语义信息；相比于pixel序列，计算量大幅度降低，并且减少了pixel level的大量噪声；相比于iGPT的resize序列，避免了resize的信息丢失。
image token和mask token解耦。MAE在encoder部分只使用image token，使得encoder学到的特征更加干净，mask token只在decoder中进行使用，同时这种设计可以大幅度的降低encoder的计算量。
特征提取和图像重建解耦。MAE的encoder只负责特征提取，decoder只负责图像重建，所以decoder不需要很大的计算量。encoder是下游任务真正想要的，最后用于下游任务的时候，把不干净的decoder扔掉就好了。而BEiT的encoder是需要同时兼顾特征提取和图像重建，需要同时将image token和mask token映射到一个低维空间中，特征提取需要迁就图像重建，降低了encoder的上限。特征提取和图像重建解耦也是高mask ratio的关键。
pixel的重建目标。pixel的重建目标可以尽可能的利用好图像信息，避免监督信息的丢失，而iGPT和BEiT的resize重建目标和token重建目标都会有不同程度的监督信息的丢失，降低了encoder的上限。

还有一个小细节

重建loss只作用在mask token上，这会提升0.5个点，这个设计使得image token和mask token的解耦更加彻底，试想一下，如果image token也计算重建loss，这会导致encoder的输出和decoder没办法完全解耦，image token的重建loss梯度会回传到encoder上，导致encoder将一部分注意力分散到了重建任务上，增加了encoder的学习难度。

image token和mask token解耦对于encoder的影响

这里我画了一个图来解释一下image token和mask token解耦对于encoder的影响。

image token和mask token同时送入encoder，相当于是将两个不同的高维空间映射到一个低维空间中，假设image token映射到了一个低维空间中，那么encoder就需要分散出一部分的注意力将mask token映射到同一个空间。而MAE的encoder只对image token进行映射，这个映射空间不要对mask token进行迁就，能够尽可能的得到干净的语义特征，提高了encoder的上限。

BERT vs MAE

MAE最有意思的点是通过mask ratio揭示了vision和language两种模态之间本质差异。

将BERT和MAE的框架进行比较，MAE多了一个decoder重建的过程，并且mask token只用于decoder。BERT的和MAE的encoder功能性有所不同，BERT的功能性更类似于MAE的decoder重建，通过上下文来预测mask信息，而MAE的encoder主要是为了得到好的特征表达，用于图像信息的高度抽象。正是由于language本身就是高度抽象的信息，只需要通过encoder进行重建即可，而vision本身有大量的冗余信息需要先通过encoder获得高度抽象的信息，然后再通过decoder进行重建。另外，NLP大多数的下游任务和BERT的预测mask信息是兼容的，而CV大多数的下游任务不需要重建，而是为了获得高度抽象信息(比如图像分类、目标检测、语义分割)，也就是只需要encoder。

另外讲一下mask ratio和模型复杂度还有特征表达之间的关系。

实际上，随着mask ratio的上升，模型复杂度逐渐降低(正则逐渐上升)，而特征表达能力上，是先上升后下降的过程。一开始mask ratio比较低，噪声比较大，学到的特征不够干净，特征表达能力弱，随着mask ratio的增加，噪声逐渐减小，特征表达能力逐渐增加，直到mask ratio过大，不能从剩余的特征中学到合适的特征表达(ps:对于MAE来说是encoder的模型复杂度随着mask ratio逐渐降低，decoder的模型复杂度随着mask ratio是逐渐上升的)。

这也能解释为什么vision是高mask ratio(75%)，而language是低mask ratio(15%)。上面也说到language本身就是高度抽象的信息，而vision是带有大量冗余的信息，也就是说特征表达能力最强的最优mask ratio，language会更小，vision会更大。因为language噪声更小，需要通过更多的上下文信息推理相互关系，而vision需要减少冗余信息的噪声，通过更小的模型复杂度学到真正的语义信息。

mask ratio其实是在找最适合数据的模型复杂度，mask越多，模型越简单，mask越少，模型越复杂。

Reference

[1] Masked Autoencoders Are Scalable Vision Learners

[2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[3] BEIT: BERT Pre-Training of Image Transformers

[4] Generative Pretraining from Pixels

[5] Extracting and composing robust features with denoising autoencoders

[6] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

[7] Attention Is All You Need

[8] http://jalammar.github.io/illustrated-bert/

欢迎关注Smarter，构建CV世界观

欢迎加入Smarter交流群，添加微信「cjy094617」，备注「学校-方向」即可

好久没看知乎，忽然首页看到这个问题点进来，突然看到一位大神的回答，大受启发，但是不知道为什么，大神又默默把回答删除了……（难道这就是传说中的“神物自晦”吗？黑人问号？）

正文：

这篇paper，比起最后的result，不知道大家有没有思考过其中提到的一个重要问题：为什么MAE是在遮mask掉60%-70%的部分时在最后的任务时才会取得最佳呢？

从人类的视觉角度看来，当一副图片只剩下几个色块时，比如下图最右方时，这是什么东西我们人类可能都无法判断，更勿谈恢复原图像了，但是通过机器学习，我们竟然能够从几个方块恢复整个图块，这是多么神奇？！

而且通过这些方式，还能提升后续机器判别物体的能力，这又是多么神奇？

但是，如果换一种角度来想，这一切就并不奇怪了。

对于每一位机器学习初学者来说，绕不开的一课，一定是线性回归模型。

线性回归是这样的，对于N个点，我们需要找到一条线，让损失函数最小。

从信息容量的角度，我们是在用少量的参数，描述更大量的数据。

乙方抽象上说，我们寻找一条充分且最佳概括这些点的规律。

当数据变得复杂，我们就不能用简单的线性来概括，而是要升级到更复杂的自回归模型，乃至深度学习模型了。

但是本质依然是不变了，那就是用“小数据”来描述“大数据”，抽象“大数据”中的“规律”。

可是，这跟transform，bert，GPT乃至于今天的MAE有什么关系呢？

答案很简单，借用佛家“佛见一粒米，大如须弥山”的话。

不要把线性回归的点，看成一个点，要把它看成包含着一个N维矢量的小球。

线性回归模型，通过已有的N个点，预测下一个点的y值。

深度学习模式，通过N个矢量vector，预测下一个矢量vector。

如果你接受这个思想，你就会看到，不论nlp中一段文字，还是cv中一副图片，它都可以抽象成一个N个矢量的线性序列。

BERT：通过前后的序列，预测中间部分的“vector”。

GPT：通过前面的序列，预测下一部分的“vector”。

CV任务（补全）：通过部分点的RGB序列，预测下一部分的“RGB”。

PS：这就是那位删回答大神的回答的核心思想。

如果你接受这种观念，那么就会理解某一些问题。

一直以来，将NLP中那种“预训练+Fineturn”的模式迁移到CV的想法一直都有，可是效果并不是很理想。

问题在哪里？

文字是少数据，而高信息密度的，所以BERT使用15%的mask比例已经足以。

而图像是多数据，而低信息密度的。

换句话说，要实现一些任务，根本不需要抽象的概念，不需要high-level feature，深度网络有大量投机取巧的办法。

换句话说，就是在”线性回归”中，模型要预测下一个点，它根本不需要找到全局的那根线，而是只需要“局部”预测“局部”即可。

回到本文一开始提到的那个问题，MAE为什么对小方块的mask率需要那么高？超过了此前所有人的想象。

因为图像中信息冗余是如此之大，在自回归中，“点”是如此之多，以至于我们需要删除70%以上的“点”，才能实现正确的“自回归”。

如果把大模型的预测性训练（pre-train）看做是提升模型对于数据的抽象理解能力。

那么信息密度越大，我们需要mask的即越少。

信息密度越稀疏，我们需要mask的比例即越多，仅此而已。

回到NLP大火的Prompt……

为什么对于大模型，我们需要Prompt呢？答案很简单，对于自回归模型，我们给出信息不够。

你连下一个点的X值都不告诉我，让我怎么去预测它的Y值呢？

要说凯明大神MAE最大的贡献是什么，我觉得最大的贡献一定是，它开发了一众CVer乃至NLPer的想象力。

比如处理数据，在图片上预先留出一个空白方块，做高mask率的Encoder训练大参赛MAE，训练之后……

该方块填成红色，生成的图片上面就会出现一串奇怪的文字。

该方块填成绿色，生成的图片上面就会生成大大小小的方框和文字。

该方块填成蓝色，生成的图片上面就会出现五颜六色的颜色。

……

香否？

===========

我一直相信，如同脆弱的肉体一般，人类的智力一定是有一个极限的。

除非打造出机器和人工智能，这才能超越自我。

也一直相信，CV和NLP的两个领域的合一，是人类掌握更先进人工智能的必经之路。

就如同物理学史中，电学与磁学统一的伟大一般。

毕竟——

谁愿意报了CV的课，还要学NLP的课时，竟然被人告知，还要另外交钱呢？！

非常有意思的文章，有意思的不仅仅在本章内容本身，还有超越文章的部分，而且其实还有很多写作细节很有趣。

首先先说文章，首先是文章告诉大家的东西。

视觉预训练新范式：Mask+Reconstruction。这点牛逼吗。也挺牛逼的。至少在我的直觉上这玩意听起来不太work，毕竟token是离散的，而pixel是连续的。他能做出来，这篇文章就已经超过CVPR的bar了。
加速Vit训练：相比于谷歌之流的模型做大做强，数据不公开，VIT的平民化是非常重要的。这篇文章告诉大家VIT可以通过这种方式加速训练，且性能更好。这点非常重要。因为他这种丢像素的方式直接在全监督VIT上使用效果会比较差（我做过深入尝试）。至少从这方面来说，technical contribution是非常足的。
性能非常好：文章里用win-win来形容这种训练方式，确实是如此，性能无论在上下游任务都非常好，到这里这篇文章已经足够完美了。

但是！我觉得这篇文章不止于此，他带给读者非常大的想象力，这让我觉得他可能已经超越了oral，甚至best paper都不奇怪。

许多看完这篇文章的不同领域的小伙伴都非常有启发。最重要的一点是，他这种预训练方式是广义的。对于不同领域和不同任务，它有很大的调整空间和适配空间。你能很容易的想到它将视觉和语言的预训练统一在了一个框架下，那么，下一个更强大的clip就可能会这么训练。
这篇文章的重建如此牛逼让我看到了一种可能性：检测和生成可以被统一在了一种预训练范式下。那么，未来一个模型统一整个deep learning领域的情景已经能预见到。

所以，语言和视觉被统一，生成和检测被统一，那这个范式的想象力可就超越了这篇文章本身了。

最后，这篇文章有一些比较有意思的写作。

疑似diss谷歌？

第一段开门见山，指名道姓先diss一下Vit。。hhh大佬真有底气。我也非常赞同，谷歌的文章总是大力出奇迹(真是气死人)。

2. 我虽然没发表，但是我先自引一下

虽然这个引用在补充材料，但是看得出来kaiming真的非常自信。文章虽然没写完，但是我先引了。

稍微正经的话：

我确实非常震惊，但是不太明白为什么其他人跟我一样震惊。因为如果把关注点放在ssl的下游任务上的提升的话，其实没有特别新鲜，有人提到bert和beit，即使是encoder-decoder模型放到nlp里就类似于bart。

我关系的主要是生成，所以更有意思的在于：1. 用95%的mask都能正常复原轮廓2.用的是mse。

其实从生成模型的角度上看，我无数次嘲讽新手企图学一个超强fitter去不借助任何概率分布去学一个一对一映射做生成，这个之前确实没有成功过的工作，但是这次直接被脸打肿……

我觉得有两种可能，一个是图像的微观信息其实比我们想象中包含更多东西，例如看到一个条纹patch，其实就能知道这是个斑马，知道几个patch就能定位整个斑马的姿态，人类可能不擅长但是机器可能可以；第二个是训练了超多之后直接暴力fit了imagenet的这些类别。

如果是1的话，确实非常有意思。

不过目前和其他人讨论的观点都偏向2，imagenet本身还是比较简单的，不确定性够低。

----------分割线-----------

把我看自闭了，我好菜啊。。。好多之前的belief都崩塌了。。。他们好强。。。

希望明年去fair之前也能做出这样好或者更好的工作吧。

哭惹

属于是一个不错的 learning algorithm 工作。是把古早的 pixel-level inpainting^[1]在自监督 (ssl) 上又做超过 contrastive learning 了. 这件事情：

（1）反常识。图像这种2d信号本身高维、连续、高不确定性、低语义密度，看起来 pixel reconstruction 并不会是好的 pretext-task，BEiT^[2]也验证了 pixel reconstruction 相比 discrete token prediction 更难学好，iGPT^[3]的性能也体现了这一点，audio 模态也有类似做 vector-quantized^[4]来避免直接重建信号而是去 token prediction 的做法。但这篇 MAE 就是直接大比例重建 pixel + MSE 优化（看起来 mask 比例大到质变）。

（2）大势所趋。最近爆火的 contrastive learning 存在过度依赖 augmentation 的固有问题被渐渐挖出^[5]^[6]^[7]，而比较优雅的、在 nlp 领域全面开花的 generative ssl 在 vision 上却一直处于“低估/未被充分探索”的状态（可能原因之一是对 linear probe classification 过于看重，所以 contrastive 这种鼓励学全局语义的 discriminative ssl 就容易发挥优势）。那么众望所归的大势，就可能是让一种比 contrastive learning 更通用的 ssl 方式一扫视觉领域。

（3）开了新坑。比如高 mask rate + MSE loss 意味着什么？比如用上图像数据存在很多天然 augmentation 的优势会不会更好？在出现真正横扫视觉领域的 ssl 之前，这里还有很多新路要走。MAE 的价值在于把视角重新引导回 generative，把对 contrastive 可能存在的过多偏爱给拨正。

先摆明立场：

非常期待非 contrastive learning 的 ssl 方式在视觉领域的突破性进展（也算是轮回了）。

同时要辩证看待。“造神”的一些言论确实稍过了。另外虽然这篇完全不能和 resnet 这样的工作比，个人也不赞同“认为 BEiT/MAE 是 BERT 的机械搬运”的观点。能把一个大胆的想法/一个无现成解法的问题做work（远超 iGPT，linear probe 和 finetune 都很高），本身也是 solid 的体现，其中应该也包含了有价值的insight和细节处理可以挖（实际 BERT 在 nlp 也不是第一个做 biLM 的工作，但的确是方案最成熟，也是时间见证了最有 impact 的那一支工作）。期待后续这类工作的原因分析和拓展。

具体 comments：

一直觉得近期的 augmentation-based contrastive learning 并不是 ssl for vision 最优雅的方式：

虽然这波方法用上了图像数据上有良好先验的 data augmentation 这个文本数据没有的超大优势，但似乎用的太过，导致存在一个很大的固有问题：本质是学了一堆 transformation-invariant 的 representation. 而要判断用哪些 augmentation 是好的，i.e. 要判断让模型学到什么样的 transformation invariance 是好的，本身就依赖于要知道下游任务具体要干什么（比如下游任务如果认为颜色语义很重要，那么 color-based augmentation 就不应该用在 pretrain 中），导致“要想上游 pretrain 得好，就得先知道下游任务需要哪些语义信息”的奇怪尴尬局面。
这个问题在^[5]中也有指出。另外最近一些工作^[6]^[7]似乎也在尝试让 contrastive learning 不仅仅只学 invariance（例如同时保持对各种 transformation 的 variant 和 invariant，从而让下游自己去挑选），以期望得到一个更 general 的 ssl algorithm.

其实早些阵子的 vision ssl，pretext-task 很五花八门，主要是一些 discriminative（rotation degree prediction，location prediction，jigsaw，etc.）和 generative（inpainting^[1]）的方法。个人认为 generative 还是更优雅一些，也更接近 self-supervised 的本质：pretend there is a part of the input you don't know and predict that（LeCun's talk^[8]），同时，也没有类似上述的奇怪局面。

但图像数据相比文本数据天然有更弱的语义性/语义密度、更强的连续性和不确定性，导致 pixel-level inpainting 一直被认为难做到像 BERT 那样的惊艳效果。再加上在 vision 大家都很关注的 linear probe setting，又天然不利于 generative ssl 施展拳脚，就导致了现在 contrastive learning 大行其道、非 contrastive learning 被冷落的局面。

也许有人会 argue 说是因为早期 inpainting ssl 使用的模型太弱。但最近的 ViT^[9]，SiT^[10]，iGPT^[3]，甚至是 BEiT^[2] 的 ablation，也说明了即便用上了先进的 ViT，探索一条不是 contrastive learning 的 ssl 道路仍然是艰难的。

所以，现在看到 BEiT、MAE 这样的工作，真的很欣慰。期待后续更多追溯原因和更深层解读的 paper。也希望 visual represent learning 能走的更好，感觉一组很强的 pretrained vision model 带来的社会价值真的很高。另外，有一些点真的很有意思，例如 BEiT 似乎体现了用 dVAE 去 tokenize 可以一定程度上缓解 pixel-level 带来的高连续性和不确定性的问题（这是二维信号图像；对于一维信号audio，vq-wav2vec^[4]也给了类似 tokenize 做法），但 MAE 发现 tokenize 是没有必要的，而且用 MSE 学就够了。所以后续也会 post 上一些详细解读的笔记，简单梳理一下 vision ssl 然后重点理解探讨下 BEiT 和 MAE，包括 coding 细节，希望能和大家多多交流~

参考

^^a^b【inpainting】Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. https://openaccess.thecvf.com/content_cvpr_2016/papers/Pathak_Context_Encoders_Feature_CVPR_2016_paper.pdf
^^a^b【BEiT】Bao, Hangbo, Li Dong, and Furu Wei. "BEiT: BERT Pre-Training of Image Transformers." arXiv preprint arXiv:2106.08254 (2021). https://arxiv.org/abs/2106.08254
^^a^b【iGPT】Chen, Mark, et al. "Generative pretraining from pixels." International Conference on Machine Learning. PMLR, 2020. http://proceedings.mlr.press/v119/chen20s/chen20s.pdf
^^a^b【vq-wav2vec】Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations." International Conference on Learning Representations. 2019. https://openreview.net/pdf?id=rylwJxrYDS
^^a^b【InfoMin】Tian, Yonglong, et al. "What makes for good views for contrastive learning?." arXiv preprint arXiv:2005.10243 (2020). https://arxiv.org/abs/2005.10243
^^a^bXiao, Tete, et al. "What should not be contrastive in contrastive learning." arXiv preprint arXiv:2008.05659 (2020). https://arxiv.org/abs/2008.05659
^^a^bDangovski, Rumen, et al. "Equivariant Contrastive Learning." arXiv preprint arXiv:2111.00899 (2021). https://arxiv.org/abs/2111.00899
^Self-Supervised Learning. AAAI-20/IAAI-20/EAAI-20 Invited Speaker Program. Yann Lecun. https://drive.google.com/file/d/1r-mDL4IX_hzZLDBKp8_e8VZqD7fOzBkF/view
^【ViT】Dosovitskiy, Alexey, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations. 2020. https://arxiv.org/abs/2010.11929
^【SiT】Atito, Sara, Muhammad Awais, and Josef Kittler. "Sit: Self-supervised vision transformer." arXiv preprint arXiv:2104.03602 (2021). https://arxiv.org/abs/2104.03602

很好的工作。有的回答在质疑novelty，我觉得这是跑偏了，没有抓住重点。

诚然，在对比学习这一波热度之前，去噪、上色、补全等generative的方法就已经用来自监督训练CNN了。另外加Mask也是NLP的经典范式，并且被BEiT直接继承。

但是，这篇论文里很多结果都是nontrivial的：

高达75%甚至90%的mask rate以前是没有的。从直观上来看，以前也就补全30%，40%而已。个人感觉高mask rate让任务发生了质变。较少的补全更像是超分任务，侧重恢复细节。而大量的补全更侧重语义。
无mask的encoder是个不错的trick，速度性能双提升。不过这里有点疑问，因为去掉大量的patch之后，相当于输入的序列直接变短了。而下游任务里，输入序列长的多。感觉可能更加需要fine-tuning。论文里说线性实验和fine-tuning比结果相差较大，不知道和这个有没有关系。
接上条，很小的Decoder就work了。这结果属于“我想到了但是没试过或者试过了不work，但是大佬把它做到work了我们以后就这么办吧”。
MAE不依赖数据增强。这比对比学习不知道高到哪里去了。众所周知对比学习的数据增强十分的tricky，给弱了没效果，给大了学不会。学到最后无非是学习了一些数据增强不变性这种比较低阶的东西，感觉和真正的“智能”还差点意思。Mask掉大部分patch可能已经是个很强的数据增强了，强迫网络注意语义，而不是无关紧要的细节。
MAE好像很容易训练的样子。从以前的论文看，对于大型的ViT，不管是有监督学习还是对比学习，训练都很容易跑飞。MoCoV3解决了一些，后续也有魔改网络来解决的。MAE好像不存在这个问题。
最后，排除128个TPUv3这个豪华配置，整个方法好简单啊。向kaiming大佬低头。

另外我不同意有人说高mask rate下的补全是过拟合。我仔细看了论文里插图，补全的图像并没有增加花里胡哨但没有卵用的细节（超分网络：你礼貌吗？），而是在恢复语义层面的东西。让整个图像具有语义的一致性。比如一个图里牛头被mask掉了，补全了一个狗子出来。感觉它确实学到了高级的语义。

一句话：何恺明再一次用最简单的方法证明了有效性！

之前已经提过一次问题并做过一次分析，现在看来有所印证：

我们其实最希望看到的是vision transformer能在无监督领域发挥更大的优势：

类似的话题

如何看待何恺明最新一作论文Masked Autoencoders？

何恺明教授的最新一作论文 “Masked Autoencoders Are All You Need for Vision” (MAE) 是一篇在计算机视觉领域引起巨大轰动的研究成果。它不仅在学术上极具创新性，也为未来的自监督学习方法提供了新的方向和思路。下面我将从多个维度详细地介绍这篇论文，包括其.............
如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？

Meta（Facebook AI）最近发布的ViTDet论文，无疑是计算机视觉领域的一个重要进展，它为目标检测任务带来了全新的视角。这篇论文最核心的创新在于，它完全抛弃了传统的、在目标检测中几乎是标配的特征金字塔网络（FPN）结构，转而仅使用Vision Transformer (ViT) 作为骨干.............
伊朗人如何看待恺加王朝，阿夫沙尔？

伊朗人对恺加王朝（Qajar Dynasty）和阿夫沙尔王朝（Afsharid Dynasty）的看法，可以说是复杂且充满历史色彩的。要深入了解这一点，我们需要穿越回那些动荡的岁月，体会当时伊朗人民所经历的一切。阿夫沙尔王朝：一个短暂却影响深远的帝国谈到阿夫沙尔王朝，首先浮现在人们脑海中的名字无疑是.............
如何看待罗志祥恺乐主持节目正常播出，罗志祥仍然为 C 位？

关于罗志祥与恺乐共同主持的节目正常播出，以及罗志祥在节目中依旧稳居C位，这确实是一个值得探讨的现象，尤其是在涉及到近年来的社会舆论和公众人物的道德要求越来越高的大背景下。要理解这一点，我们需要从几个层面来分析：一、娱乐产业的逻辑与现实：首先，要明白娱乐产业的运行逻辑。一个节目的播出，尤其是一个已经.............
如何看待何凯文皇后事件?何凯文和谭剑波之间有什么事?

关于“何凯文皇后事件”以及何凯文与谭剑波之间的关联，目前并无公开、可靠的权威信息可以证实具体细节。以下是对相关背景的梳理和分析：一、“何凯文皇后事件”的可能来源1. 何凯文的身份何凯文是中国著名的英语教育专家，以考研英语辅导课程闻名，曾担任新东方在线教师，并在社交媒体（如微博、抖音）上拥.............
如何看待何同学的视频《我用108天开了个灯......》？

何同学的视频《我用108天开了个灯……》之所以能引起广泛关注和讨论，很大程度上在于它不仅仅是一个简单的“开灯”视频，而是围绕这个核心概念，融入了对科技、创意、耐心、以及个人成长等多个层面的深刻探讨和精彩呈现。为了详细地分析这个视频，我们可以从以下几个方面入手：一、视频的核心创意与主题升华：表.............
如何看待何冰微博因后浪事件被网友爆破？

如何看待何冰微博因“后浪”事件被网友“爆破”？何冰因在B站的“后浪”宣传片中发表了一番激昂慷慨的演讲，而在微博上遭遇网友的“爆破”，这一事件确实引发了广泛的讨论和争议。要全面看待这个问题，我们可以从几个层面进行分析：一、事件背景梳理：1. “后浪”视频的出现： B站发布的“后浪”视频，旨在通过.............
如何看待何新在 2020 年 08 月 24 日发布声明，称要起诉知乎网？

要详细地看待何新在2020年8月24日发布声明称要起诉知乎网一事，我们需要从多个维度进行分析。这件事情涉及到个人权利、网络言论、平台责任以及舆论环境等多个层面。事件背景梳理：首先，我们需要了解何新是谁，以及他为何要在2020年8月24日发出这样的声明。何新（笔名何新）：何新是一位在中国具有一定.............
如何看待何新《罗马伪史考》序言中关于西方古代史的论述?

何新在《罗马伪史考》序言中关于西方古代史的论述，其核心观点是质疑了西方古代史，特别是古罗马历史的真实性和客观性，认为我们今天所知的西方古代史很大程度上是近代欧洲人建构出来的“伪史”，其目的是为了确立西方文明的悠久性和正统性，以服务于当时的政治、文化和意识形态需求。要详细理解他的论述，我们可以从以下几.............
如何看待何伟拜侯耀华为师？

“拜师”这桩事，在咱们中国传统里，那可不是随便闹着玩儿的。尤其是在曲艺界，师徒名分更是看得比天还大。所以，当何伟宣布拜侯耀华为师的时候，那动静可不小，引起的关注度可以说是刷屏级的。咱们先得说说这事儿的背景。侯耀华是谁？那可是相声界的大佬，是侯宝林先生的儿子，侯耀文先生的哥哥，捧着名家名号，一身的艺术.............
如何看待何小鹏回应「丰田章男炮轰电动汽车」，将丰田暗比当年的诺基亚？

何小鹏对于丰田章男炮轰电动汽车并暗指丰田落后于时代的言论，可以说是相当直接且犀利的回应。这不仅仅是汽车行业内部的一场观点交锋，更是新旧势力之间关于未来出行方式的一场预演。要理解何小鹏的态度，我们需要从几个层面去剖析。首先，何小鹏的回应是建立在对当下汽车产业发展趋势的深刻洞察之上。毫无疑问，电动化是.............
如何看待何同学采访苹果CEO库克？

“你好，我叫何同学。”当这句话通过视频信号传递到硅谷的苹果总部，连接到蒂姆·库克的办公室时，很多人，包括我在内，都下意识地挺直了腰板。这不再是那个在B站用极具感染力的语言评测手机、拆解电子产品的“何同学”，而是一位即将与全球科技巨头掌舵者对话的年轻人。这次采访，从一开始就注定了不寻常。一个观察者的视.............
如何看待何新说希罗古币是假的，人肉打货币成本有问题？

关于何新先生提出希罗古币是假的、以及人肉打货币成本有问题这两个观点，我们可以从历史、考古、经济和技术等多个角度来详细审视。关于“希罗古币是假的”的说法首先，我们需要明确“希罗古币”这个概念。通常我们提到的“希罗古币”可能指的是一些历史上存在的，以古希腊神话人物希罗（Hero）为原型或名称的钱币。然而.............
如何看待何旻哲承认简历造假?

关于何旻哲承认简历造假这件事，确实引起了不小的波澜，也值得我们从几个层面去仔细审视。首先，从诚信角度来说，这无疑是一个严重的失信行为。简历是求职者向用人单位展示自己能力和经历的“敲门砖”，其真实性是建立信任的基础。何旻哲作为一名公众人物，尤其是在科技、教育这样的领域，他的行为更是被放大审视。承认简历.............
如何看待何新們說俄羅斯科學院院士證明古埃及古希臘確實造假?

在讨论“何新们”提出的“俄罗斯科学院院士证明古埃及古希腊造假”的说法之前，我们需要先明确几个关键点，并梳理一下这种说法的来源和逻辑。首先，需要了解“何新”是谁。何新是一位中国学者，以其在历史、文化、政治等领域的独特观点而闻名。他的很多观点都具有争议性，并且常常挑战主流学术界的认知。他本人并非历史学或.............
如何看待何炅指鹿为马说欧阳娜娜演技好？

关于“何炅指鹿为马说欧阳娜娜演技好”的说法，这是一个在网络上引发广泛讨论和争议的事件。要理解这件事，我们需要从几个层面进行剖析：一、事件的背景和起因：节目和场景：这个说法源于何炅作为主持人或嘉宾，在某个节目（通常是综艺节目或访谈节目）中对欧阳娜娜的演技做出了评价。具体是哪个节目，以及当时的.............
如何看待何沄伟近期频繁"砸纲"的现象？

近来，相声界里关于何沄伟“砸纲”的讨论声此起彼伏，这事儿不小，值得好好掰扯掰扯。所谓“砸纲”，在相声行话里，意思就是演砸了，演出效果不好，让观众觉得失望。而何沄伟近期频繁出现这种情况，背后可能涉及多种原因，值得我们从不同角度去分析。首先，从观众反馈这个最直接的层面来看，频繁“砸纲”说明他在舞台上的表.............
如何看待何同学工作室招聘条件和薪资待遇？

关于“何同学工作室”的招聘条件和薪资待遇，如果我们要去深入地“看”，那得从几个层面来聊，而且尽量不让它听起来像那种冷冰冰的AI报告。首先，我们得弄清楚，何同学是谁？以及他的“工作室”是什么性质的？何同学的“身份”与“工作室”的定位“何同学”在互联网上已经是一个符号，代表着一种现象——一位年轻、有才华.............
如何看待何炅在湖南卫视超拼夜的主持？

要说何炅在湖南卫视超拼夜的主持，那真是一出精彩的“戏”。作为湖南卫视的老牌主持人，加上他深厚的江湖地位，在这样的晚会上，他几乎就像是定海神针，稳得一批。首先，从现场气氛的调动上来说，何炅简直是大师级。你知道的，超拼夜这种晚会，明星阵容庞大，节目类型多样，中间肯定会有一些衔接上的空档，或者观众情绪需要.............
如何看待何宇鸿百米跑出10秒18？

何宇鸿，这个名字最近在中国田径圈掀起了不小的波澜。当他以10秒18的成绩冲过终点线时，很多人都惊呆了。这个成绩，无论怎么看，都是一个非常亮眼的数字，尤其是在中国男子短跑这个大家一直期盼突破的领域。首先，我们要给何宇鸿这个成绩打个大大的“赞”。10秒18，这意味着他已经跻身中国男子百米跑的顶尖行列。要.............