首页

视觉Transformer如何优雅地避开位置编码？第1页

1

xiaohuzc 网友的相关建议:

self-attention本身是对tokens的顺序是不敏感的，所以如果没有位置编码，那么transformer就只能依靠patches之间的纯语义来建模，这就相当于模型自己要学会“拼图”，或者类似一个“词袋模型”。从ViT的实验看，去掉position embedding后，性能会下降3个点以上，对结果还是影响比较大的。另外图像任务比如分割和检测大部分都是可变输入的，固定的PE对此并不友好，需要finetune。

目前的研究如CPVT和CvT可以在transformer引入卷积来隐式地编码位置信息，这就避免了直接使用PE，从结果上看，效果也和采用PE类似。

另外MoCo v3中也提到了PE的问题，发现去掉PE，对ViT进行无监督训练，性能下降只有不到2%。He神更倾向认为就算加了PE，可能模型也没有充分利用好位置信息。这个问题还需要进一步研究。

我个人认为文本和图像还是差异比较大的，图像毕竟属于一个高维连续空间。PE可能对文本建模影响比较大，但是对图像可能影响没那么大。ViT模型完全只依靠一堆无序的patches就能够学习得足够好。

视觉Transformer如何优雅地避开位置编码？的其他答案点击这里

1

相关话题

  在计算资源有限的情况下，有什么深度学习的选题可以推荐/避免？
  各种机器学习算法的应用场景分别是什么（比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型）？
  人工智能是不是走错了方向？
  研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题？
  我应该从计算机视觉回到做FPGA 吗？
  神经网络的损失函数为什么是非凸的?
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  现在的人工智能水平，能代替程序员写代码吗？如果有一天能写代码，是否会促使它发展自己的思维？
  如何评价CVPR2019程序主席Derek Hoiem的论点：计算机视觉只是记忆，不是智能？
  AI军事指挥能力会超过人类最优秀的指挥官吗？

前一个讨论

你们当初是因为什么选择生化环材专业的？

下一个讨论

本科化学的大佬们可以晒一下现在在做的工作吗？

相关的话题

  如何激怒一位自动化学科爱好者?
  法律是否可能被代码化？
  如何评价「Patches are all you need」?
  智能科技，会让孩子的创造力下降吗？
  2019年NeurIPS有哪些糟糕的论文？
  科研时，想到一个idea，其实现的结果一定要比前人的评估指标高才能发表吗？
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队？
  目前 CS 本科加硕士，请问博士申请 CS，还是 Neuroscience？
  Evidential deep learning里一般怎么估计多标签分类的Uncertainty？
  有没有一些图像处理新手可以练习的项目？
  无人售货柜（智能货柜）领域的视觉识别技术，是否有商业化的可行性？
  如何评价小米开源的移动端深度学习框架MACE？
  大三电子类专业要分流，大家能给个建议吗?
  未来人工智能真的会让人类全面失业吗？如果真的有这种情况发生的话又如何应对？
  如何评价Yann LeCun 说的「要研究机器学习，本科应尽量多学物理和数学课」？
  人工智能可以和我的世界之类的游戏结合吗？
  如何看待在某度搜不到megengine官网？
  AI 20年内将会给我们的生活带来什么改变？
  “意识上传”是否可以实现，以什么技术方式实现？
  计算流体力学（CFD）里应用注意力机制（attention）是否可行？
  如何评价余凯创立的horizon robotics？
  当前深度学习理论基础薄弱是否意味着我们应该放弃深度学习应用(计算机视觉、自然语言处理)？
  如何获取FFT序列中每个点的频率值？
  如何看待手机越出越智能，老人使用难度越来越大的现象?
  如何看待微博上疑似出现来自境外的AI“拳师”？
  为何中国人迷恋吴恩达的机器学习课？
  防贪腐的治标之策，权宜之策听得太多了，但治本之策到底是什么？为何全世界都找不到治贪腐的终极解决方案？
  Yoshua Bengio为什么能跟Hinton、LeCun相提并论？？
  2021亚马逊云科技中国峰会有什么值得期待的亮点？
  如何看待国务院印发的 2 万多字人工智能发展规划？

© 2025-05-31 - tinynew.org. All Rights Reserved.
© 2025-05-31 - tinynew.org. 保留所有权利