首页

视觉Transformer如何优雅地避开位置编码？第1页

1

xiaohuzc 网友的相关建议:

self-attention本身是对tokens的顺序是不敏感的，所以如果没有位置编码，那么transformer就只能依靠patches之间的纯语义来建模，这就相当于模型自己要学会“拼图”，或者类似一个“词袋模型”。从ViT的实验看，去掉position embedding后，性能会下降3个点以上，对结果还是影响比较大的。另外图像任务比如分割和检测大部分都是可变输入的，固定的PE对此并不友好，需要finetune。

目前的研究如CPVT和CvT可以在transformer引入卷积来隐式地编码位置信息，这就避免了直接使用PE，从结果上看，效果也和采用PE类似。

另外MoCo v3中也提到了PE的问题，发现去掉PE，对ViT进行无监督训练，性能下降只有不到2%。He神更倾向认为就算加了PE，可能模型也没有充分利用好位置信息。这个问题还需要进一步研究。

我个人认为文本和图像还是差异比较大的，图像毕竟属于一个高维连续空间。PE可能对文本建模影响比较大，但是对图像可能影响没那么大。ViT模型完全只依靠一堆无序的patches就能够学习得足够好。

视觉Transformer如何优雅地避开位置编码？的其他答案点击这里

1

相关话题

  人类有哪些能力，是 AI 无法拥有的？
  如何看待「腾讯首席探索官」网大为发起拍摄纪录片《零水日》，你觉得还有哪些问题值得关注？
  有什么算法能对一个长短不一的时间序列进行分类预测?
  Facebook 的人工智能实验室 (FAIR) 有哪些厉害的大牛和技术积累？
  为什么有些学数学的看不惯甚至鄙视 Deep Learning？
  如何评价马斯克称激光雷达是一个诱人的局部最大值？
  神经网络，人工智能这块怎么入门？
  人工智能 CV 岗位是不是现在供严重大于需？
  如何看待由 AI 绘制的漫画《Phaedo》？
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？

前一个讨论

你们当初是因为什么选择生化环材专业的？

下一个讨论

本科化学的大佬们可以晒一下现在在做的工作吗？

相关的话题

  计算机视觉中video understanding领域有什么研究方向和比较重要的成果？
  什么是相位？如何更加形象直观地理解相位？
  是否有算法可以去除电影中的马赛克？
  注意力机制是如何学习到模型所应注意的区域的？
  这样是不是就可以把人类的所有图像内容穷举出来了?
  如何看待FAIR提出的8-bit optimizer：效果和32-bit optimizer相当？
  scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?
  常用的机器学习算法比较？
  从虚拟偶像到 AI 学生，数字人概念还能火多久？
  应届硕士毕业生如何拿到知名互联网公司算法岗（机器学习、数据挖掘、深度学习） offer？
  能否用AI控制枪械，实现自动寻找目标、瞄准、击发？
  2021 年人工智能、大数据技术与机器人工程蝉联最热专业前三，体现了哪些趋势？未来前景如何？
  如何评价李飞飞和李佳加盟谷歌？
  人工智能会让未来的广告变成什么样子？
  人工智能会是泡沫吗？
  以目前 AI 的能力，可以在各行各业替代哪些方面的工作内容？
  为什么最近几年 FPGA 变得越发受大家重视了？
  微软小冰测颜值是否比较准？为什么？
  未来想研究达芬奇手术机器人（智能医学或精准医学方向），需要学习哪些专业知识？
  有人说「真正的人工智能至少还要几百年才能实现」，真的是这样吗？
  如何评价硅谷 AI 人才 7 位薪酬时代开启，甲骨文 600 万美元年薪挖 AI 专家？
  机器视觉为什么不用手机的镜头，而要用那么大的工业相机？
  超人工智能可能会出现吗？
  如何评价 Exploring Simple Siamese Learning?
  如果人工智能迎来下一个寒冬，你认为会是卡在什么问题上？
  如何看待大热的人工智能机器人 Sophia？
  如何评价AWS的图神经网络框架DGL？
  给男友配置一个适合做深度学习的电脑要多少钱？
  为什么最近几年 FPGA 变得越发受大家重视了？
  哪些人工智能领域已经或者未来1-2年会实现盈利？

© 2025-05-30 - tinynew.org. All Rights Reserved.
© 2025-05-30 - tinynew.org. 保留所有权利