百科问答小站 logo
百科问答小站 font logo



如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法? 第1页

  

user avatar   xie-ling-xi 网友的相关建议: 
      

利益相关:做过且正在做自监督学习相关研究,认识本文的一作,并且讨论过近期发展趋势。

一句话评价:MaskFeat提供了一条新的线索,让我们能够审视手工特征在生成式模型中的作用。

但是,从整体看今年这波自监督学习的工作(包括但不限于BEIT、iBOT、MAE、SimMIM、PeCo、SaGe、MaskFeat),我感受到的迷茫比希望要更多一些。

下面简单解释一下我的观点。限于个人水平,很多看法并不全面,还请轻喷。

自监督学习,本质上就是要解决一个问题:新知识从哪里来?过去几年,业界经历了基于几何的学习方法(包括预测patch相对位置、预测图像旋转角度等)、基于对比的学习方法(包括instance discrimination、feature prediction等)后,终于开始回归最本源的,基于生成的学习方法。然而,在基于生成的学习中,我们必然面临一个核心问题:如何判断生成图像的质量?

这个问题,我曾经在之前的文章arxiv.org/abs/2105.1397中讨论过,文章大意可参见上面的知乎链接。我的观点是:解决图像质量判断问题,等价于解决新知识从哪里来的问题,也就等价于自监督学习本身。在我们用各种方式扰乱输入的情况下(包括我一直倡议的对图像信号做压缩),像素级评测恢复效果显然不是最佳方案。相信这个道理大家都懂,但是大家是如何做的呢?看看近期的工作:

  • MAE、SimMIM:直接用像素评判;
  • BEIT、PeCo:使用一个离线预训练的tokenizer:这个tokenizer和VQ-VAE挂钩,而VQ-VAE的目标是恢复像素——因此几乎可以认为,这种tokenizer的作用和像素级恢复是相当的;
  • iBOT:将上述tokenizer改为在线训练,利用类似于teacher-student的方式做监督——我很喜欢它无需引入离线预训练的性质,虽然它的训练效率要低一些;
  • SaGe:使用一个离线BYOL预训练的网络来抽特征;
  • MaskFeat:使用手工的HOG特征——这是2005年的CVPR paper,新人们有多少能第一时间反应出HOG是啥玩意儿的?

然后重点来了:根据我们的研判,上述几种方法的效果,其实没有很本质的差别。这波工作只所以能够达到看似很高的性能,关键在于vision transformer的应用,以及它和masked image modeling任务的绝妙配合。当然,一组组优秀的参数也是功不可没的。

这意味着什么呢?视觉自监督领域做了这么些年,从最早的生成式学习出发,绕了一圈,又回到生成式学习。到头来,我们发现像素级特征跟各种手工特征、tokenizer、甚至离线预训练网络得到的特征,在作为判断生成图像质量方面,没有本质区别。也就是说,自监督也许只是把模型和参数调得更适合下游任务,但在“新知识从哪里来”这个问题上,并没有任何实质进展。

诚然,大家可以说:视觉自监督不需要学习任何知识,只需要拟合给定数据集的分布,使得下游微调更方便即可。可我总觉得,这不应该是自监督所追求的唯一目标。

道阻且长!


user avatar   donglixp 网友的相关建议: 
      

为了使生成式自监督预训练发挥作用,BEiT( arxiv.org/pdf/2106.0825)中提供的一个insight是"pixel-level recovery task tends to waste modeling capability on pre-training short-range dependencies and high-frequency details",具体到每个工作,大家的解决办法都不太一样:

  • BEiT: 使用dVAE tokenizer构造bottleneck,将pixel-level details学在tokenzier参数中 ("BEiT overcomes the above issue by predicting discrete visual tokens, which summarizes the details to high-level abstractions.")
  • MAE: 1) 增加了decoder部分用来记忆pixel-level details;2) encoder部分去除了[M],把masked patch信息推到decoder中;3) per-patch-norm 归一化掉细节信息,鼓励学习semantic content
  • PeCo: 在BEiT tokenizer中加入perceptual loss (在style transfer里面充当content loss),鼓励visual tokens保留semantic content,抑制具体的纹理、style等信息
  • iBOT: 框架上类似BEiT+DINO,其中DINO部分得到的online tokenizer,通过data augmentation抑制细节信息的学习
  • MaskFeat: 利用人工构造的HOG features作为学习目标,消除细节信息

基于BEiT中提出的masked image modeling (MIM)预训练任务,可以发现目前的绝大多数工作都是从上面说的这个insight去提升自监督效果。问题中的提到的MaskFeat验证了人工构造的HOG特征,也可以起到很好的效果。希望未来有更形式化的工作,去指引大家创新。




  

相关话题

  中国工程院院士邬贺铨称未来拍电影不用花钱请小鲜肉,用技术就可以画出来。这真的可以实现吗?难度有多大? 
  学习两年多,感觉SLAM太难了,大家对此有什么想法? 
  如何评价 Kaiming He 在 ICCV 2017 上拿下双 Best 的 paper? 
  中国首个虚拟学生华智冰加入清华大学,其背后有哪些值得关注的技术亮点? 
  如何比较Keras, TensorLayer, TFLearn ? 
  如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响? 
  人工智能相关的岗位薪酬状况如何? 
  人类大脑的聪慧程度以 IQ 为标准,那么人工智能的水平用什么指标来衡量呢? 
  如果人工智能迎来下一个寒冬,你认为会是卡在什么问题上? 
  现代人工神经网络是不是一个死胡同?这个技术是不是骗人的? 

前一个讨论
2021 年,深度学习方面取得了哪些关键性进展?
下一个讨论
为什么Transformer适合做多模态任务?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利