首页

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 第1页

1

tylin98 网友的相关建议:

谢 @乎不知邀，很好的问题！在Transformer中引入位置表示，正是由于self-attention是一个permutation equivariant的操作。而在decoder端的self-attention并不是permutation equivariant的（参见论文https://arxiv.org/abs/1908.11775 的Proposition 1）。正如你所说，mask的引入实质上是一种变相的位置表示，从这个角度来看，它的功能和绝对位置表示是有重叠的。当然能否去掉位置表示，我觉得是任务相关的，我知道有两篇论文有（实验性地）讨论过在语言建模（纯decoder结构）任务上去掉位置编码的情况：

1、这篇论文的实验表明去掉vanilla Transformer的position encoding反而能在语言建模上提升性能。

2、这篇Schmidhuber组的作品，实验部分也表明在语言建模中去掉位置表示效果要更好（见Table 3）：

当然，我觉得这种结论还是得辩证地看，因为这两篇似乎都仅仅将位置编码加在输入端，这早已被认为不是一个很好的实践，因为显然经过几层attention模块以后这种位置表示的内容就会慢慢丢失。因此一些工作是明确将绝对位置表示加在每一层的，例如Al-Rfou et al., 2018，以及Universal Transformers 等等。欢迎讨论。

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 的其他答案点击这里

1

相关话题

  word2vec 相比之前的 Word Embedding 方法好在什么地方？
  目前有哪些比较成功的人工智能应用？
  transformer 为什么使用 layer normalization，而不是其他的归一化方法？
  主动学习（Active Learning）近几年的研究有哪些进展，现在有哪些代表性成果？
  如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？
  如何看待周志华等人的新书《机器学习理论导引》？
  消融实验是什么？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  马上计算机研一，想问一下机器学习、深度学习…大家都是怎么入门的？
  为什么Transformer要用LayerNorm？

前一个讨论

为什么历史上很多伟人对女性有偏见，如叔本华，孔子，是由于女性本身的生理上问题还是性格上的劣性？

下一个讨论

35 岁以上的 IT 开发工作者都去哪里了？

相关的话题

  为什么现在有这么多人工智能无用论？
  视觉Transformer如何优雅地避开位置编码？
  面试官如何判断面试者的机器学习水平？
  如何看待李沐老师提出的「用随机梯度下降来优化人生」？
  结合深度学习的图像修复怎么实现？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  Batch normalization和Instance normalization的对比？
  如何理解深度学习源码里经常出现的logits？
  为什么读论文最好打印出来读？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  如何理解深度学习源码里经常出现的logits？
  深度学习到底是「实验科学」还是「理论科学」？能否称为「算法」？
  如何评价贾扬清离职 Facebook？
  2020到2021年小样本学习取得重大进展了吗？
  如何评价哈工大的左旺孟老师？
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  神经网络中，bias有什么用，为什么要设置bias，当加权和大于某值时，激活才有意义？
  现在的BERT等语言模型，最快训练要多久？
  如何理解Inductive bias？
  如何评价PyTorch 0.4.0？
  给男友配置一个适合做深度学习的电脑要多少钱？
  为什么Transformer适合做多模态任务？
  2020年，多标签学习（multi-label）有了哪些新的进展？
  为什么计算注意力机制的时候不加偏置项？
  谷歌翻译原理是什么，从语言A到B，中间是否要翻译成中介语言C（如英语）？
  能分享你收藏的国外AI talk, seminar平台或网站吗？
  如何理解 inductive learning 与 transductive learning?
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  2019年NeurIPS有哪些糟糕的论文？
  AlphaGo 与李世石的对战会推动人类的极限还是机器学习的进步和觉醒？

© 2025-05-28 - tinynew.org. All Rights Reserved.
© 2025-05-28 - tinynew.org. 保留所有权利