首页

为什么计算注意力机制的时候不加偏置项？第1页

1

mlxue-xi 网友的相关建议:

1）注意力机制是需要计算目标item和序列中每一个item的，指数形式下增加bias，没有意义。

2）softmax权重分配存在赢者通吃，极其容易饱和，增加bias将加剧现象。所以在推荐中常常改为sigmoid函数，让权重平滑。

3）其次，增加参数，增大学习难度。

并非所有的设计都要遵循大众设计，遵循公式，要思考这样的因子可以不加吗，不加会不会更好，是不是原来的就也不需要加，加了为啥好，为啥不好。今天还看到了一篇论文在序列中加了零向量，那么在目标与序列完全无关的时候，模型attened到这个零向量即可，不会强制关注这个序列，不会引入额外的噪声。很巧妙的设计思路，当然这样的设计思路是来源于业务的理解，不是所有的业务都需要这样处理。因此，学会在合适的场景做合适的设计修改，往往产生不错的return。

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么计算注意力机制的时候不加偏置项？的其他答案点击这里

1

相关话题

  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？
  如何评价 BERT 模型？
  基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？
  为什么很少人用FFT加速CNN卷积层的运算？
  机器学习中有哪些形式简单却很巧妙的idea？
  Batch normalization和Instance normalization的对比？
  工作之后，顶会还重要吗？
  深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
  有哪些可以自学机器学习、深度学习、人工智能的网站？
  2021年深度学习在哪些应用上有实质进展？

前一个讨论

云南滇中新区发布「聚才计划」，最高给予 600 万元补助，这透露出哪些有价值的信息点？

下一个讨论

男方家境不好真的不能嫁嘛？?

相关的话题

  如何理解Inductive bias？
  是不是对于任意 n×n 大小的围棋棋盘，人类都赢不了 AlphaGo Zero 了？
  OpenCV已经将图像处理(识别)的算法写成函数了,那我们还有必要去学习这些算法不?
  为什么我用相同的模型，数据，超参，随机种子，在两台服务器会得到不同的结果？
  算法工程师是否应该持续读论文？
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  自学深度学习是怎样一种体验？
  什么是大模型？超大模型？Foundation Model？
  深度学习在生物信息领域有什么应用？
  实验室一块GPU都没有怎么做深度学习？
  深度学习在生物信息领域有什么应用？
  深度学习如何入门？
  如何评价 Kaiming He 在 ICCV 2017 上拿下双 Best 的 paper？
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  当前深度学习理论基础薄弱是否意味着我们应该放弃深度学习应用(计算机视觉、自然语言处理)？
  如何评价旷视开源的YOLOX，效果超过YOLOv5?
  什么是狄利克雷分布？狄利克雷过程又是什么？
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面?
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  硕士方向，选择迁移学习还是自然语言处理？
  2021 年，深度学习方面取得了哪些关键性进展？
  注意力机制是如何学习到模型所应注意的区域的？
  为什么现在很多人不看好商汤科技？
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲？
  如何评价Yann LeCun宣称『他已经做好放弃概率论的准备』？
  深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
  有没有什么可以节省大量时间的 Deep Learning 效率神器？
  如何评价CUHK以及Yuanjun Xiong提出的Trajectory Convolution？
  如何评价 DeepMind 公司？

© 2025-03-11 - tinynew.org. All Rights Reserved.
© 2025-03-11 - tinynew.org. 保留所有权利