首页

为什么计算注意力机制的时候不加偏置项？第1页

1

mlxue-xi 网友的相关建议:

1）注意力机制是需要计算目标item和序列中每一个item的，指数形式下增加bias，没有意义。

2）softmax权重分配存在赢者通吃，极其容易饱和，增加bias将加剧现象。所以在推荐中常常改为sigmoid函数，让权重平滑。

3）其次，增加参数，增大学习难度。

并非所有的设计都要遵循大众设计，遵循公式，要思考这样的因子可以不加吗，不加会不会更好，是不是原来的就也不需要加，加了为啥好，为啥不好。今天还看到了一篇论文在序列中加了零向量，那么在目标与序列完全无关的时候，模型attened到这个零向量即可，不会强制关注这个序列，不会引入额外的噪声。很巧妙的设计思路，当然这样的设计思路是来源于业务的理解，不是所有的业务都需要这样处理。因此，学会在合适的场景做合适的设计修改，往往产生不错的return。

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么计算注意力机制的时候不加偏置项？的其他答案点击这里

1

相关话题

  如何评价最近火热的对比学习，会引领预训练模型新的范式嘛?
  为什么CV能做到让一幅人脸图动了笑了，而NLP的text-style-transfer进展貌似一般？
  如何比较Keras, TensorLayer, TFLearn ？
  现大二，准备做大学生创新创业项目计划，目前定的方向是深度学习+畜牧业／养殖业，有什么建议给我们吗？
  如何判断两个Deep Learning 数据集的数据分布是否一致？
  如何判断两个Deep Learning 数据集的数据分布是否一致？
  如何评价 2015 版的 Magi 搜索引擎？
  为什么要压缩模型，而不是直接训练一个小的CNN？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  深度学习方面还有什么Open Problem?

前一个讨论

云南滇中新区发布「聚才计划」，最高给予 600 万元补助，这透露出哪些有价值的信息点？

下一个讨论

男方家境不好真的不能嫁嘛？?

相关的话题

  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  如何看待swin transformer成为ICCV2021的 best paper？
  如何看待2021年秋招算法岗灰飞烟灭？
  学习两年多，感觉SLAM太难了，大家对此有什么想法？
  行人轨迹预测有哪些有效的方法和普遍的base方法？或者public dataset?
  2021年，作为算法工程师的你们会在CV业务落地上用Transformer吗？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  如何理解 Graph Convolutional Network（GCN）？
  transformer 为什么使用 layer normalization，而不是其他的归一化方法？
  多模态训练，怎么解决不同模态之间差异的问题？
  2022 年人工智能领域的发展趋势是什么？你都有哪些期待？
  在五到十年内，人工智能能复原成人影片中的被马赛克部分吗？
  为什么学习深度学习感觉无法入门？
  如果学习从零开始学习Pytorch,有优秀的开源项目可以推荐吗？
  深度学习的多个loss如何平衡？
  如何理解attention中的Q,K,V？
  深度学习图像处理什么时候用到GPU？
  如何看待 ICLR2021 的拒稿被评为 ACL2021 的 Best Paper?
  如何评价 DeepMind 的新工作 AlphaCode?
  2021 年，深度学习方面取得了哪些关键性进展？
  GAN（对抗生成网络）可以被用于哪些（商业或潜在商业）实际问题？
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？
  深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  深度学习做股票预测靠谱吗？
  如何比较Keras, TensorLayer, TFLearn ？
  为什么现在不看好 CV 方向了呢?
  硕士方向，选择迁移学习还是自然语言处理？
  2021 年，深度学习方面取得了哪些关键性进展？
  实验室只有1080的显卡，老师还想让发深度学习论文，也不给配置好的显卡怎么办？

© 2025-05-25 - tinynew.org. All Rights Reserved.
© 2025-05-25 - tinynew.org. 保留所有权利