如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？第1页

xie-ling-xi 网友的相关建议:

利益相关：做过且正在做自监督学习相关研究，认识本文的一作，并且讨论过近期发展趋势。

一句话评价：MaskFeat提供了一条新的线索，让我们能够审视手工特征在生成式模型中的作用。

但是，从整体看今年这波自监督学习的工作（包括但不限于BEIT、iBOT、MAE、SimMIM、PeCo、SaGe、MaskFeat），我感受到的迷茫比希望要更多一些。

下面简单解释一下我的观点。限于个人水平，很多看法并不全面，还请轻喷。

自监督学习，本质上就是要解决一个问题：新知识从哪里来？过去几年，业界经历了基于几何的学习方法（包括预测patch相对位置、预测图像旋转角度等）、基于对比的学习方法（包括instance discrimination、feature prediction等）后，终于开始回归最本源的，基于生成的学习方法。然而，在基于生成的学习中，我们必然面临一个核心问题：如何判断生成图像的质量？

这个问题，我曾经在之前的文章https://arxiv.org/abs/2105.13978中讨论过，文章大意可参见上面的知乎链接。我的观点是：解决图像质量判断问题，等价于解决新知识从哪里来的问题，也就等价于自监督学习本身。在我们用各种方式扰乱输入的情况下（包括我一直倡议的对图像信号做压缩），像素级评测恢复效果显然不是最佳方案。相信这个道理大家都懂，但是大家是如何做的呢？看看近期的工作：

MAE、SimMIM：直接用像素评判；
BEIT、PeCo：使用一个离线预训练的tokenizer：这个tokenizer和VQ-VAE挂钩，而VQ-VAE的目标是恢复像素——因此几乎可以认为，这种tokenizer的作用和像素级恢复是相当的；
iBOT：将上述tokenizer改为在线训练，利用类似于teacher-student的方式做监督——我很喜欢它无需引入离线预训练的性质，虽然它的训练效率要低一些；
SaGe：使用一个离线BYOL预训练的网络来抽特征；
MaskFeat：使用手工的HOG特征——这是2005年的CVPR paper，新人们有多少能第一时间反应出HOG是啥玩意儿的？

然后重点来了：根据我们的研判，上述几种方法的效果，其实没有很本质的差别。这波工作只所以能够达到看似很高的性能，关键在于vision transformer的应用，以及它和masked image modeling任务的绝妙配合。当然，一组组优秀的参数也是功不可没的。

这意味着什么呢？视觉自监督领域做了这么些年，从最早的生成式学习出发，绕了一圈，又回到生成式学习。到头来，我们发现像素级特征跟各种手工特征、tokenizer、甚至离线预训练网络得到的特征，在作为判断生成图像质量方面，没有本质区别。也就是说，自监督也许只是把模型和参数调得更适合下游任务，但在“新知识从哪里来”这个问题上，并没有任何实质进展。

诚然，大家可以说：视觉自监督不需要学习任何知识，只需要拟合给定数据集的分布，使得下游微调更方便即可。可我总觉得，这不应该是自监督所追求的唯一目标。

道阻且长！

donglixp 网友的相关建议:

为了使生成式自监督预训练发挥作用，BEiT( https://arxiv.org/pdf/2106.08254.pdf)中提供的一个insight是"pixel-level recovery task tends to waste modeling capability on pre-training short-range dependencies and high-frequency details"，具体到每个工作，大家的解决办法都不太一样：

BEiT: 使用dVAE tokenizer构造bottleneck，将pixel-level details学在tokenzier参数中 ("BEiT overcomes the above issue by predicting discrete visual tokens, which summarizes the details to high-level abstractions.")
MAE: 1) 增加了decoder部分用来记忆pixel-level details；2) encoder部分去除了[M]，把masked patch信息推到decoder中；3) per-patch-norm 归一化掉细节信息，鼓励学习semantic content
PeCo: 在BEiT tokenizer中加入perceptual loss (在style transfer里面充当content loss)，鼓励visual tokens保留semantic content，抑制具体的纹理、style等信息
iBOT: 框架上类似BEiT+DINO，其中DINO部分得到的online tokenizer，通过data augmentation抑制细节信息的学习
MaskFeat: 利用人工构造的HOG features作为学习目标，消除细节信息

基于BEiT中提出的masked image modeling (MIM)预训练任务，可以发现目前的绝大多数工作都是从上面说的这个insight去提升自监督效果。问题中的提到的MaskFeat验证了人工构造的HOG特征，也可以起到很好的效果。希望未来有更形式化的工作，去指引大家创新。

如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？的其他答案点击这里

前一个讨论

2021 年，深度学习方面取得了哪些关键性进展？

下一个讨论

为什么Transformer适合做多模态任务？

如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？第1页