如何看待何恺明最新一作论文Masked Autoencoders？第2页

1 2

ding-ming-55-55 网友的相关建议:

稍微正经的话：

我确实非常震惊，但是不太明白为什么其他人跟我一样震惊。因为如果把关注点放在ssl的下游任务上的提升的话，其实没有特别新鲜，有人提到bert和beit，即使是encoder-decoder模型放到nlp里就类似于bart。

我关系的主要是生成，所以更有意思的在于：1. 用95%的mask都能正常复原轮廓2.用的是mse。

其实从生成模型的角度上看，我无数次嘲讽新手企图学一个超强fitter去不借助任何概率分布去学一个一对一映射做生成，这个之前确实没有成功过的工作，但是这次直接被脸打肿……

我觉得有两种可能，一个是图像的微观信息其实比我们想象中包含更多东西，例如看到一个条纹patch，其实就能知道这是个斑马，知道几个patch就能定位整个斑马的姿态，人类可能不擅长但是机器可能可以；第二个是训练了超多之后直接暴力fit了imagenet的这些类别。

如果是1的话，确实非常有意思。

不过目前和其他人讨论的观点都偏向2，imagenet本身还是比较简单的，不确定性够低。

----------分割线-----------

把我看自闭了，我好菜啊。。。好多之前的belief都崩塌了。。。他们好强。。。

希望明年去fair之前也能做出这样好或者更好的工作吧。

哭惹

kevin-24-18-37-81 网友的相关建议:

属于是一个不错的 learning algorithm 工作。是把古早的 pixel-level inpainting^[1]在自监督 (ssl) 上又做超过 contrastive learning 了. 这件事情：

（1）反常识。图像这种2d信号本身高维、连续、高不确定性、低语义密度，看起来 pixel reconstruction 并不会是好的 pretext-task，BEiT^[2]也验证了 pixel reconstruction 相比 discrete token prediction 更难学好，iGPT^[3]的性能也体现了这一点，audio 模态也有类似做 vector-quantized^[4]来避免直接重建信号而是去 token prediction 的做法。但这篇 MAE 就是直接大比例重建 pixel + MSE 优化（看起来 mask 比例大到质变）。

（2）大势所趋。最近爆火的 contrastive learning 存在过度依赖 augmentation 的固有问题被渐渐挖出^[5]^[6]^[7]，而比较优雅的、在 nlp 领域全面开花的 generative ssl 在 vision 上却一直处于“低估/未被充分探索”的状态（可能原因之一是对 linear probe classification 过于看重，所以 contrastive 这种鼓励学全局语义的 discriminative ssl 就容易发挥优势）。那么众望所归的大势，就可能是让一种比 contrastive learning 更通用的 ssl 方式一扫视觉领域。

（3）开了新坑。比如高 mask rate + MSE loss 意味着什么？比如用上图像数据存在很多天然 augmentation 的优势会不会更好？在出现真正横扫视觉领域的 ssl 之前，这里还有很多新路要走。MAE 的价值在于把视角重新引导回 generative，把对 contrastive 可能存在的过多偏爱给拨正。

先摆明立场：

非常期待非 contrastive learning 的 ssl 方式在视觉领域的突破性进展（也算是轮回了）。

同时要辩证看待。“造神”的一些言论确实稍过了。另外虽然这篇完全不能和 resnet 这样的工作比，个人也不赞同“认为 BEiT/MAE 是 BERT 的机械搬运”的观点。能把一个大胆的想法/一个无现成解法的问题做work（远超 iGPT，linear probe 和 finetune 都很高），本身也是 solid 的体现，其中应该也包含了有价值的insight和细节处理可以挖（实际 BERT 在 nlp 也不是第一个做 biLM 的工作，但的确是方案最成熟，也是时间见证了最有 impact 的那一支工作）。期待后续这类工作的原因分析和拓展。

具体 comments：

一直觉得近期的 augmentation-based contrastive learning 并不是 ssl for vision 最优雅的方式：

虽然这波方法用上了图像数据上有良好先验的 data augmentation 这个文本数据没有的超大优势，但似乎用的太过，导致存在一个很大的固有问题：本质是学了一堆 transformation-invariant 的 representation. 而要判断用哪些 augmentation 是好的，i.e. 要判断让模型学到什么样的 transformation invariance 是好的，本身就依赖于要知道下游任务具体要干什么（比如下游任务如果认为颜色语义很重要，那么 color-based augmentation 就不应该用在 pretrain 中），导致“要想上游 pretrain 得好，就得先知道下游任务需要哪些语义信息”的奇怪尴尬局面。
这个问题在^[5]中也有指出。另外最近一些工作^[6]^[7]似乎也在尝试让 contrastive learning 不仅仅只学 invariance（例如同时保持对各种 transformation 的 variant 和 invariant，从而让下游自己去挑选），以期望得到一个更 general 的 ssl algorithm.

其实早些阵子的 vision ssl，pretext-task 很五花八门，主要是一些 discriminative（rotation degree prediction，location prediction，jigsaw，etc.）和 generative（inpainting^[1]）的方法。个人认为 generative 还是更优雅一些，也更接近 self-supervised 的本质：pretend there is a part of the input you don't know and predict that（LeCun's talk^[8]），同时，也没有类似上述的奇怪局面。

但图像数据相比文本数据天然有更弱的语义性/语义密度、更强的连续性和不确定性，导致 pixel-level inpainting 一直被认为难做到像 BERT 那样的惊艳效果。再加上在 vision 大家都很关注的 linear probe setting，又天然不利于 generative ssl 施展拳脚，就导致了现在 contrastive learning 大行其道、非 contrastive learning 被冷落的局面。

也许有人会 argue 说是因为早期 inpainting ssl 使用的模型太弱。但最近的 ViT^[9]，SiT^[10]，iGPT^[3]，甚至是 BEiT^[2] 的 ablation，也说明了即便用上了先进的 ViT，探索一条不是 contrastive learning 的 ssl 道路仍然是艰难的。

所以，现在看到 BEiT、MAE 这样的工作，真的很欣慰。期待后续更多追溯原因和更深层解读的 paper。也希望 visual represent learning 能走的更好，感觉一组很强的 pretrained vision model 带来的社会价值真的很高。另外，有一些点真的很有意思，例如 BEiT 似乎体现了用 dVAE 去 tokenize 可以一定程度上缓解 pixel-level 带来的高连续性和不确定性的问题（这是二维信号图像；对于一维信号audio，vq-wav2vec^[4]也给了类似 tokenize 做法），但 MAE 发现 tokenize 是没有必要的，而且用 MSE 学就够了。所以后续也会 post 上一些详细解读的笔记，简单梳理一下 vision ssl 然后重点理解探讨下 BEiT 和 MAE，包括 coding 细节，希望能和大家多多交流~

参考

^^a^b【inpainting】Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. https://openaccess.thecvf.com/content_cvpr_2016/papers/Pathak_Context_Encoders_Feature_CVPR_2016_paper.pdf
^^a^b【BEiT】Bao, Hangbo, Li Dong, and Furu Wei. "BEiT: BERT Pre-Training of Image Transformers." arXiv preprint arXiv:2106.08254 (2021). https://arxiv.org/abs/2106.08254
^^a^b【iGPT】Chen, Mark, et al. "Generative pretraining from pixels." International Conference on Machine Learning. PMLR, 2020. http://proceedings.mlr.press/v119/chen20s/chen20s.pdf
^^a^b【vq-wav2vec】Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations." International Conference on Learning Representations. 2019. https://openreview.net/pdf?id=rylwJxrYDS
^^a^b【InfoMin】Tian, Yonglong, et al. "What makes for good views for contrastive learning?." arXiv preprint arXiv:2005.10243 (2020). https://arxiv.org/abs/2005.10243
^^a^bXiao, Tete, et al. "What should not be contrastive in contrastive learning." arXiv preprint arXiv:2008.05659 (2020). https://arxiv.org/abs/2008.05659
^^a^bDangovski, Rumen, et al. "Equivariant Contrastive Learning." arXiv preprint arXiv:2111.00899 (2021). https://arxiv.org/abs/2111.00899
^Self-Supervised Learning. AAAI-20/IAAI-20/EAAI-20 Invited Speaker Program. Yann Lecun. https://drive.google.com/file/d/1r-mDL4IX_hzZLDBKp8_e8VZqD7fOzBkF/view
^【ViT】Dosovitskiy, Alexey, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations. 2020. https://arxiv.org/abs/2010.11929
^【SiT】Atito, Sara, Muhammad Awais, and Josef Kittler. "Sit: Self-supervised vision transformer." arXiv preprint arXiv:2104.03602 (2021). https://arxiv.org/abs/2104.03602

bo-er-de 网友的相关建议:

很好的工作。有的回答在质疑novelty，我觉得这是跑偏了，没有抓住重点。

诚然，在对比学习这一波热度之前，去噪、上色、补全等generative的方法就已经用来自监督训练CNN了。另外加Mask也是NLP的经典范式，并且被BEiT直接继承。

但是，这篇论文里很多结果都是nontrivial的：

高达75%甚至90%的mask rate以前是没有的。从直观上来看，以前也就补全30%，40%而已。个人感觉高mask rate让任务发生了质变。较少的补全更像是超分任务，侧重恢复细节。而大量的补全更侧重语义。
无mask的encoder是个不错的trick，速度性能双提升。不过这里有点疑问，因为去掉大量的patch之后，相当于输入的序列直接变短了。而下游任务里，输入序列长的多。感觉可能更加需要fine-tuning。论文里说线性实验和fine-tuning比结果相差较大，不知道和这个有没有关系。
接上条，很小的Decoder就work了。这结果属于“我想到了但是没试过或者试过了不work，但是大佬把它做到work了我们以后就这么办吧”。
MAE不依赖数据增强。这比对比学习不知道高到哪里去了。众所周知对比学习的数据增强十分的tricky，给弱了没效果，给大了学不会。学到最后无非是学习了一些数据增强不变性这种比较低阶的东西，感觉和真正的“智能”还差点意思。Mask掉大部分patch可能已经是个很强的数据增强了，强迫网络注意语义，而不是无关紧要的细节。
MAE好像很容易训练的样子。从以前的论文看，对于大型的ViT，不管是有监督学习还是对比学习，训练都很容易跑飞。MoCoV3解决了一些，后续也有魔改网络来解决的。MAE好像不存在这个问题。
最后，排除128个TPUv3这个豪华配置，整个方法好简单啊。向kaiming大佬低头。

另外我不同意有人说高mask rate下的补全是过拟合。我仔细看了论文里插图，补全的图像并没有增加花里胡哨但没有卵用的细节（超分网络：你礼貌吗？），而是在恢复语义层面的东西。让整个图像具有语义的一致性。比如一个图里牛头被mask掉了，补全了一个狗子出来。感觉它确实学到了高级的语义。

xiaohuzc 网友的相关建议:

一句话：何恺明再一次用最简单的方法证明了有效性！

之前已经提过一次问题并做过一次分析，现在看来有所印证：

我们其实最希望看到的是vision transformer能在无监督领域发挥更大的优势：

peng-zhi-liang-7 网友的相关建议:

我支持。因为匿名是网络环境差的万恶之源。

知乎做得好。与此同时，头条和抖音也上线了IP属地。

根据 @新浪财经报道：

据悉，今日头条、抖音展示的帐号IP属地均为用户最近一个月内最后一次发文或评论时的网络位置，境内展示到省（直辖市、自治区、特别行政区），境外展示到国家（地区）。而且帐号IP属地以运营商提供信息为准，相关展示不支持手动开启或关闭。

在公告中，今日头条和抖音均提出，展示账号IP属地是为了维护真实有序的讨论氛围，减少冒充热点事件当事人、恶意造谣、蹭流量等不良行为。快手则表示是为了防止部分网友在热点事件中出现蹭流量、传播不实信息、冒充当事人等干扰正常讨论的行为。

实际上，在字节跳动和快手的产品上线该功能之前，微博已经于今年3月先行一步。3月17日，微博官方账号称，因发现个别冒充当地网友发布和传播不实信息的行为，微博将上线“用户个人资料页展示近期发帖所在地”的功能。

据悉，微博也是在个人主页中展示用户最近一个月内最后一次发布微博或评论的IP归属地，而且IP归属地显示规则与评论区此前显示规则保持一致，国内显示到省份/地区，国外显示到国家。

2、

几乎所有的网红产品，都是利用人性的七宗罪所达到的。

而匿名就是网络环境的万恶之源。

匿名，意味着一个人不需要对自己的言行负责，无论你是咒骂那个普通人去死，还是问候他的十八代祖宗。

在网络平台上，我们看过了太多这种悲剧。

为什么女权的“权”会被污名化成“拳头”的拳？

我个人是支持女权的。但是里面有人在故意把水搅浑。

为什么有人被人肉和网暴？

因为在屏幕面前可怕的那个他，不需要承担任何责任。甚至很多明星粉丝对普通人群起而攻之，所倚仗的，不过如此。

为什么微信上的环境要比微博等好得多？

因为微信是实名化的。喷他，意味着他可能能找到你的真实身份，如果他想的话。

当然，做人是需要互联网树洞的。在BBS这种场景下，所有人都可以匿名化。

而在如微博等社交平台上，我支持全面实名化。

但愿天下不再有网络暴力。

SeptEnds 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

rumor-lee 网友的相关建议:

这个问题问得很好啊，我的建议是看今年年会的摘要集：

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会，不过计算化学分布得比较散，夹杂在各个分会中。各分会的主题可以从这里找到，可能相关的包括：

有一些主题是理论计算夹杂着实验的，还需要仔细辨别。回到摘要集，以第一分会为例：

中国化学会第32届学术年会摘要集-第一分会：物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了，而且还可以下载。

显然，能找到相关方向的摘要的单位，就是开设了相关方向的院校，甚至还能精确到具体的某个课题组。

1 2

如何看待何恺明最新一作论文Masked Autoencoders？第2页

先摆明立场：

具体 comments：

参考

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待何恺明最新一作论文Masked Autoencoders？ 第2页

先摆明立场：

具体 comments：

参考

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待何恺明最新一作论文Masked Autoencoders？第2页