百科问答小站 logo
百科问答小站 font logo



如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法? 第1页

  

user avatar   xie-ling-xi 网友的相关建议: 
      

利益相关:做过且正在做自监督学习相关研究,认识本文的一作,并且讨论过近期发展趋势。

一句话评价:MaskFeat提供了一条新的线索,让我们能够审视手工特征在生成式模型中的作用。

但是,从整体看今年这波自监督学习的工作(包括但不限于BEIT、iBOT、MAE、SimMIM、PeCo、SaGe、MaskFeat),我感受到的迷茫比希望要更多一些。

下面简单解释一下我的观点。限于个人水平,很多看法并不全面,还请轻喷。

自监督学习,本质上就是要解决一个问题:新知识从哪里来?过去几年,业界经历了基于几何的学习方法(包括预测patch相对位置、预测图像旋转角度等)、基于对比的学习方法(包括instance discrimination、feature prediction等)后,终于开始回归最本源的,基于生成的学习方法。然而,在基于生成的学习中,我们必然面临一个核心问题:如何判断生成图像的质量?

这个问题,我曾经在之前的文章arxiv.org/abs/2105.1397中讨论过,文章大意可参见上面的知乎链接。我的观点是:解决图像质量判断问题,等价于解决新知识从哪里来的问题,也就等价于自监督学习本身。在我们用各种方式扰乱输入的情况下(包括我一直倡议的对图像信号做压缩),像素级评测恢复效果显然不是最佳方案。相信这个道理大家都懂,但是大家是如何做的呢?看看近期的工作:

  • MAE、SimMIM:直接用像素评判;
  • BEIT、PeCo:使用一个离线预训练的tokenizer:这个tokenizer和VQ-VAE挂钩,而VQ-VAE的目标是恢复像素——因此几乎可以认为,这种tokenizer的作用和像素级恢复是相当的;
  • iBOT:将上述tokenizer改为在线训练,利用类似于teacher-student的方式做监督——我很喜欢它无需引入离线预训练的性质,虽然它的训练效率要低一些;
  • SaGe:使用一个离线BYOL预训练的网络来抽特征;
  • MaskFeat:使用手工的HOG特征——这是2005年的CVPR paper,新人们有多少能第一时间反应出HOG是啥玩意儿的?

然后重点来了:根据我们的研判,上述几种方法的效果,其实没有很本质的差别。这波工作只所以能够达到看似很高的性能,关键在于vision transformer的应用,以及它和masked image modeling任务的绝妙配合。当然,一组组优秀的参数也是功不可没的。

这意味着什么呢?视觉自监督领域做了这么些年,从最早的生成式学习出发,绕了一圈,又回到生成式学习。到头来,我们发现像素级特征跟各种手工特征、tokenizer、甚至离线预训练网络得到的特征,在作为判断生成图像质量方面,没有本质区别。也就是说,自监督也许只是把模型和参数调得更适合下游任务,但在“新知识从哪里来”这个问题上,并没有任何实质进展。

诚然,大家可以说:视觉自监督不需要学习任何知识,只需要拟合给定数据集的分布,使得下游微调更方便即可。可我总觉得,这不应该是自监督所追求的唯一目标。

道阻且长!


user avatar   donglixp 网友的相关建议: 
      

为了使生成式自监督预训练发挥作用,BEiT( arxiv.org/pdf/2106.0825)中提供的一个insight是"pixel-level recovery task tends to waste modeling capability on pre-training short-range dependencies and high-frequency details",具体到每个工作,大家的解决办法都不太一样:

  • BEiT: 使用dVAE tokenizer构造bottleneck,将pixel-level details学在tokenzier参数中 ("BEiT overcomes the above issue by predicting discrete visual tokens, which summarizes the details to high-level abstractions.")
  • MAE: 1) 增加了decoder部分用来记忆pixel-level details;2) encoder部分去除了[M],把masked patch信息推到decoder中;3) per-patch-norm 归一化掉细节信息,鼓励学习semantic content
  • PeCo: 在BEiT tokenizer中加入perceptual loss (在style transfer里面充当content loss),鼓励visual tokens保留semantic content,抑制具体的纹理、style等信息
  • iBOT: 框架上类似BEiT+DINO,其中DINO部分得到的online tokenizer,通过data augmentation抑制细节信息的学习
  • MaskFeat: 利用人工构造的HOG features作为学习目标,消除细节信息

基于BEiT中提出的masked image modeling (MIM)预训练任务,可以发现目前的绝大多数工作都是从上面说的这个insight去提升自监督效果。问题中的提到的MaskFeat验证了人工构造的HOG特征,也可以起到很好的效果。希望未来有更形式化的工作,去指引大家创新。




  

相关话题

  华为年薪百万的应届博士到底有多厉害? 
  如何看待李国杰院士在科学网发文称,国内 AI 研究「顶不了天、落不了地」,该想想了? 
  智能科技,会让孩子的创造力下降吗? 
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」? 
  如何看待人工智能用于配音? 
  人工智能可以为人类找寻他们心目中的另一半吗? 
  人工智能是当前最好的计算机专业吗? 
  无人驾驶运营维护,自动驾驶运营维护,无人驾驶科技公司落地,逐渐走向现实,落地后的运营维护怎么办? 
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」? 
  AMD的CPU是否适合搭建深度学习主机? 

前一个讨论
2021 年,深度学习方面取得了哪些关键性进展?
下一个讨论
为什么Transformer适合做多模态任务?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利