首页

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 第1页

1

tylin98 网友的相关建议:

谢 @乎不知邀，很好的问题！在Transformer中引入位置表示，正是由于self-attention是一个permutation equivariant的操作。而在decoder端的self-attention并不是permutation equivariant的（参见论文https://arxiv.org/abs/1908.11775 的Proposition 1）。正如你所说，mask的引入实质上是一种变相的位置表示，从这个角度来看，它的功能和绝对位置表示是有重叠的。当然能否去掉位置表示，我觉得是任务相关的，我知道有两篇论文有（实验性地）讨论过在语言建模（纯decoder结构）任务上去掉位置编码的情况：

1、这篇论文的实验表明去掉vanilla Transformer的position encoding反而能在语言建模上提升性能。

2、这篇Schmidhuber组的作品，实验部分也表明在语言建模中去掉位置表示效果要更好（见Table 3）：

当然，我觉得这种结论还是得辩证地看，因为这两篇似乎都仅仅将位置编码加在输入端，这早已被认为不是一个很好的实践，因为显然经过几层attention模块以后这种位置表示的内容就会慢慢丢失。因此一些工作是明确将绝对位置表示加在每一层的，例如Al-Rfou et al., 2018，以及Universal Transformers 等等。欢迎讨论。

Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗? 的其他答案点击这里

1

相关话题

  transformer中的Q,K,V到底是什么？
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  如何理解空洞卷积（dilated convolution）？
  算法岗位真的需要顶会才能入场吗？
  为啥gan里面几乎不用pooling？
  现在的BERT等语言模型，最快训练要多久？
  目标检测中的mAP是什么含义？
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？
  如何看待多模态transformer，是否会成为多模态领域的主流？
  如何评价最新的Octave Convolution？

前一个讨论

为什么历史上很多伟人对女性有偏见，如叔本华，孔子，是由于女性本身的生理上问题还是性格上的劣性？

下一个讨论

35 岁以上的 IT 开发工作者都去哪里了？

相关的话题

  ICLR 2021 有什么值得关注的投稿？
  石头和塑料袋对于计算机传感器的差别在于什么？为什么无人驾驶系统会依然存在对周围环境的误判？
  深度学习图像处理什么时候用到GPU？
  对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？
  如何看待 TI7 上与 Dendi solo 的 OpenAI？
  如何评价「Patches are all you need」?
  有没有什么可以节省大量时间的 Deep Learning 效率神器？
  Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗?
  ICLR 2018 有什么值得关注的亮点？
  机器学习，深度神经网络等方法是否是正确的方向？
  新智元提问：如何看待李飞飞高徒Karpathy加入特斯拉，主管人工智能部门？
  如何评价哈工大的左旺孟老师？
  为什么nlp没有像cv四小龙一样的创业公司？
  应届硕士毕业生如何拿到知名互联网公司算法岗（机器学习、数据挖掘、深度学习） offer？
  下一代 AI 框架长什么样？
  为什么都说神经网络是个黑箱？
  目前 AI 在疾病的诊断和治疗上，有哪些成功的应用？
  CVPR 2019 有哪些值得关注的亮点？
  实验室一块GPU都没有怎么做深度学习？
  如何评价微软提出的无监督视觉模型BEiT：ImageNet达到88.6，ADE20K达到57.0？
  单bert可以用来做文本相似度计算任务吗？
  如何看待NVIDIA 即将开源的DLA？
  有监督和无监督学习都各有哪些有名的算法和深度学习？
  对于神经网络，硕士博士不需要弄明白原理，只需要应用，是这样吗？
  NLP 中 prompt learning 有哪些可能的天生缺陷？目前有什么样的方法来解决这样的缺陷？
  如何评价「Patches are all you need」?
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？
  Transformer是如何处理可变长度数据的？
  如何评价 2018 年度图灵奖颁发给三位深度学习之父？
  为什么Transformer要用LayerNorm？

© 2025-05-08 - tinynew.org. All Rights Reserved.
© 2025-05-08 - tinynew.org. 保留所有权利