首页

为什么有的 Vision Transformer 中的 key 不需要 bias ？第1页

1

donglixp 网友的相关建议:

加和不加从结果上是等价的，BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

为什么有的 Vision Transformer 中的 key 不需要 bias ？的其他答案点击这里

1

相关话题

  在中小学阶段设置人工智能相关课程对于培养人工智能人才具有哪些意义？如何推进会比较有效？
  为什么手机核心数目提升的比计算机快?
  ICLR 2019 有什么值得关注的亮点？
  如何看待 2019 年 12 月 10 日召开的 OPPO 未来科技大会，有哪些值得关注的信息？
  哪些经历让你体会到，科学技术真的提升了我们生活的幸福感？
  可以自学Python吗？
  大学专业没有选择计算机是不是意味着这辈子完了，人生已经走到头了？
  微软有没有可能为Linux系统开发桌面环境？
  有哪些未来人工智能的职位适合经济专业？
  Linux下有什么真正断电可靠的文件系统？

前一个讨论

为什么Transformer适合做多模态任务？

下一个讨论

20 年前的今天，中国正式加入世贸组织，20 年来为我们带来了哪些变化？

相关的话题

  Linux该如何入门？
  你曾经都被哪些黑科技「电」到？
  如何评价caffe作者贾扬清加入Facebook?
  自学编程的难度如何？
  计算机中，假设键盘同时按下两个键，会优先生效哪一个？
  腾讯面试题，如何寻找一个数组里面唯一不重复的元素?要求时间复杂度o（n）和空间复杂度o（1）?
  2019 年 8 月 9-11 日召开的华为开发者大会（HDC.2019）上有哪些值得关注的信息？
  上帝可能造出一个他搬不动的石头吗？
  学习机器学习有哪些好工具推荐？
  图片上训的模型，怎么迁移视频上呢？
  现在人工智能的某些学派，是不是跟中医有些像？
  碳纳米管会代替传统硅材料成为更优质的计算机电子元件材料吗，现在大规模应用的阻碍是什么？
  在中小学阶段设置人工智能相关课程对于培养人工智能人才具有哪些意义？如何推进会比较有效？
  如何评价微软的人工智能部门成立仅 1 年，现在有 8000 多员工？
  AlphaGo 与李世石的第四局比赛中有哪些值得关注之处？
  买鼠标键盘要不要看电流电压和电脑是否匹配？
  「贪心算法」的算法思路是什么，它存在什么缺陷？
  AI 真的很危险吗？
  如何看待 AI 方向 PhD 申请竞争过于激烈的现象？
  如何看待微博里机器人发布女权言论的现象？
  为什么别选计算机专业？
  为什么SSD能够使成熟的操作系统的体验获得如此多的提升？
  如何评价游戏主机PS3？
  如何看待人工智能中医（大数据及人工智能支持的中国传统经验医学）？
  将来医院哪个科室医生最容易/不容易被人工智能取代？
  非计算机专业学生怎么走上计算机技术之路？
  国外名校计算机女博士生的生活是怎样的？
  深度学习做股票预测靠谱吗？
  靠 AI 来实行计划经济可行吗？
  当我们在电脑按下ctrl+c，剪切板储存了哪些信息？

© 2025-06-24 - tinynew.org. All Rights Reserved.
© 2025-06-24 - tinynew.org. 保留所有权利