百科问答小站 logo
百科问答小站 font logo



视觉Transformer如何优雅地避开位置编码? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

self-attention本身是对tokens的顺序是不敏感的,所以如果没有位置编码,那么transformer就只能依靠patches之间的纯语义来建模,这就相当于模型自己要学会“拼图”,或者类似一个“词袋模型”。从ViT的实验看,去掉position embedding后,性能会下降3个点以上,对结果还是影响比较大的。另外图像任务比如分割和检测大部分都是可变输入的,固定的PE对此并不友好,需要finetune。

目前的研究如CPVT和CvT可以在transformer引入卷积来隐式地编码位置信息,这就避免了直接使用PE,从结果上看,效果也和采用PE类似。

另外MoCo v3中也提到了PE的问题,发现去掉PE,对ViT进行无监督训练,性能下降只有不到2%。He神更倾向认为就算加了PE,可能模型也没有充分利用好位置信息。这个问题还需要进一步研究。


我个人认为文本和图像还是差异比较大的,图像毕竟属于一个高维连续空间。PE可能对文本建模影响比较大,但是对图像可能影响没那么大。ViT模型完全只依靠一堆无序的patches就能够学习得足够好。




  

相关话题

  图像检索(CBIR)中,topK precision怎么算? 
  有没有一些图像处理新手可以练习的项目? 
  2022 年初,你认为哪项成果代表了现在人工智能的最高水平? 
  目前,人工智能语音在说中文时的语气感觉上还比较机械,怎样使人工智能语音的语气更自然一些? 
  人工智能从业者有哪些「职业护城河」? 
  为什么yolov5从零开始训练(不在ImageNet上预训练)能够达到如此高的性能? 
  2021 年人工智能、大数据技术与机器人工程蝉联最热专业前三,体现了哪些趋势?未来前景如何? 
  如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者? 
  未来想研究达芬奇手术机器人(智能医学或精准医学方向),需要学习哪些专业知识? 
  2017 年 11 月百度与小米的全面战略合作有哪些亮点?可能会产生哪些影响? 

前一个讨论
你们当初是因为什么选择生化环材专业的?
下一个讨论
本科化学的大佬们可以晒一下现在在做的工作吗?





© 2025-03-28 - tinynew.org. All Rights Reserved.
© 2025-03-28 - tinynew.org. 保留所有权利