百科问答小站 logo
百科问答小站 font logo



为什么有的 Vision Transformer 中的 key 不需要 bias ? 第1页

  

user avatar   donglixp 网友的相关建议: 
      

加和不加从结果上是等价的,BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如何评价DeepMind新提出的MuZero算法? 
  为什么计算机分盘都是从C开始到F? 
  如何看待「经验只是法律大数据遗漏的碎片」这句话? 
  为什么物理科普读物读起来津津有味,计算机科普却很枯燥且很少见? 
  如何去构建一家属于【我们自己】的公司(超级合作社)? 
  因果推断会是下一个AI热潮吗? 
  请问机器学习中的预测与决策的区别是什么,他们的界限在哪里呢? 
  腾讯自己也做芯片,为什么还投资AI/DPU等初创公司?他们之间会不会成为下一个华为和寒武纪? 
  自动捡网球机器人方案? 
  特斯拉 AI 日推出人工智能训练计算机 DOJO 芯片,有哪些技术亮点?使用场景是怎样的? 

前一个讨论
为什么Transformer适合做多模态任务?
下一个讨论
20 年前的今天,中国正式加入世贸组织,20 年来为我们带来了哪些变化?





© 2025-02-22 - tinynew.org. All Rights Reserved.
© 2025-02-22 - tinynew.org. 保留所有权利