百科问答小站 logo
百科问答小站 font logo



为什么有的 Vision Transformer 中的 key 不需要 bias ? 第1页

  

user avatar   donglixp 网友的相关建议: 
      

加和不加从结果上是等价的,BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  大厂是如何只用一个公网IP对外提供服务的? 
  为什么程序员会有代码能跑就不要动的观点? 
  计算机windows7操作系统到底是属于多用户还是单用户? 
  普通一本计算机类大一新生如何在今后make a difference? 
  如何看待 2019 年麻省理工选出的全球十大突破性技术,你觉得其中哪个技术会在 5 年内产生巨大影响? 
  这样的AI是真的吗? 
  一篇化生环材Nature大子刊和一名985毕业程序员一年工作产出相比,哪个更重要? 
  如何看待上海交大建成全国最强超算,碾压哈佛、剑桥等名校? 
  如何系统地自学 Python? 
  如何评价中国首个量子计算机操作系统「本源司南」,具有怎样的意义?对哪些领域有利好? 

前一个讨论
为什么Transformer适合做多模态任务?
下一个讨论
20 年前的今天,中国正式加入世贸组织,20 年来为我们带来了哪些变化?





© 2025-06-01 - tinynew.org. All Rights Reserved.
© 2025-06-01 - tinynew.org. 保留所有权利