为什么有的 Vision Transformer 中的 key 不需要 bias ？

在 Vision Transformer (ViT) 的一些实现中，你会发现 QKV（Query, Key, Value）矩阵中的 Key（K）矩阵通常是没有偏置项（bias）的。这背后有一些设计上的考量，虽然在其他模型中或者其他场景下，Key 矩阵加上偏置项也并不少见。要理解这一点，咱们得从 Transformer 的核心机制——自注意力（SelfAttention）说起。

回顾一下自注意力机制

Transformer 的核心是自注意力机制，它允许模型在处理序列数据时，为序列中的每个元素计算与其他所有元素的相关性得分。在 ViT 中，这些“元素”就是图像被切分成的小块，也就是 patches。

对于每一个 patch，它会生成三个向量：

Query (Q)：代表当前 patch “在寻找”什么信息。
Key (K)：代表当前 patch “拥有”什么信息。
Value (V)：代表当前 patch “实际包含”的信息内容。

这些 Q, K, V 向量是通过将输入的 patch 嵌入（patch embedding）分别乘以三个独立的权重矩阵（$W_Q, W_K, W_V$）得到的：

$Q = X W_Q$
$K = X W_K$
$V = X W_V$

其中，$X$ 是输入 patch 嵌入的矩阵。

然后，注意力分数是通过计算 Q 和 K 的点积来获得的：

$Scores = Q K^T$

这个分数衡量了 Query 和 Key 之间的匹配程度。分数越高，表示对应的 patch 之间关联性越强。

接下来，这些分数会被缩放（通常除以 $sqrt{d_k}$，其中 $d_k$ 是 Key 向量的维度），然后通过 Softmax 函数转换为注意力权重（weights）：

$Weights = Softmax(frac{Q K^T}{sqrt{d_k}})$

最后，加权求和 Value 向量，得到输出：

$Output = Weights V$

为什么 Key 可以没有偏置项？

现在回到问题本身：为什么 Key 矩阵（$W_K$）常常不加偏置项？

1. 线性变换的本质：
在自注意力机制中，Q, K, V 的计算 $X W$ 是一个纯粹的线性变换。这意味着它只负责将输入空间的向量映射到另一个空间，并且保持原点不变（即，如果输入是零向量，输出也是零向量）。
偏置项（$b$）的引入，即 $X W + b$，会使得这个线性变换成为一个“仿射变换”（affine transformation）。它不仅进行线性映射，还会将原点平移。

2. 与 Q 的交互：
注意力分数的核心是 $Q K^T$ 的点积。如果我们给 K 加上一个偏置项 $b_K$，那么计算就变成了 $(Q W_Q) (X W_K + b_K)^T$。
这里的关键在于，Q 是由 $X W_Q$ 得到的。如果 Q 和 K 都加上了各自的偏置项，那么 $Q cdot K^T$ 的计算会变得复杂，而且偏置项会如何影响最终的注意力权重，不如没有偏置项时那么直观。
反过来想，如果 Q 有偏置项 $b_Q$，K 有偏置项 $b_K$，那么 $Q cdot K^T = (X W_Q + b_Q) (X W_K + b_K)^T$。这个 $(X W_Q + b_Q) (X W_K)^T + (X W_Q + b_Q) b_K^T$ 形式，尤其是后面的 $b_Q b_K^T$ 项，可能会引入一些额外的、不是直接由输入数据 $X$ 派生出来的“自由度”。

3. 信息冗余与参数效率：
一个核心的论点是，偏置项引入的平移可能会被其他部分的参数吸收或模拟。
在 Transformer 的多头注意力（MultiHead Attention）中，有多个并行的注意力头。每个头都有自己独立的 $W_Q, W_K, W_V$ 矩阵。
如果一个注意力头中的 Key 矩阵没有偏置项，它就只能学习输入数据的线性组合。
考虑这种情况：如果存在某个“理想”的偏置项 $b_K$，它对 Key 向量进行了一次平移，使得 Q 与 K 的点积在某个方向上得分更高。理论上，如果其他头的参数能够学习到一种方式，使得输入数据经过 $W_Q, W_K$ 变换后，即便没有偏置项，也能在 Q 与 K 的点积中产生相似的区分度，那么就没有必要引入这个额外的偏置项。
更进一步的解释：即使没有 $b_K$，Q 和 K 仍然是通过乘以权重矩阵 $W_Q$ 和 $W_K$ 得到的。这些权重矩阵本身就拥有强大的表达能力，可以将输入投影到复杂的特征空间。如果某个特定位置（或者特定的 patch 组合）需要在计算注意力时“提升”或“抑制”其 Key 的表示，这个信息理论上可以通过调整 $W_K$ 本身来实现。例如，如果希望某个维度上的 Key 值普遍变大，可以直接调整 $W_K$ 对应的行（或者说，对应于那个维度上 Q 向量的某个分量），让它与输入相乘后产生一个更大的值。
参数效率：移除偏置项直接减少了参数量。虽然对于一个 Key 矩阵来说，偏置项的参数量不多（等于 Key 向量的维度），但在整个模型中，尤其是在大型 ViT 中，参数量的节约累积起来也是有意义的。而且，更少的参数也意味着更少的过拟合风险。

4. 研究和实践中的观察：
在许多 Transformer 的经典论文和实现中（包括一些早期的 ViT 工作），人们发现移除 Key 和 Value 矩阵的偏置项，对模型的性能影响不大，甚至在某些情况下能带来微小的提升。这使得“无偏置 Key”成为了一个常见的工程实践。
这是经验主义的体现。研究者们通过实验发现，在很多任务上，模型能够通过调整 $W_K$ 来补偿缺少 $b_K$ 的能力。

5. Value 矩阵的偏置：
你可能会问，为什么 Value (V) 矩阵有时也可能被设计成无偏置？
Value 矩阵的偏置与 Key 矩阵的偏置在逻辑上是相似的：它们都是对原始 Value 向量进行一次平移。如果移除 $b_V$，表示 Value 的“基线”信息不会因为偏置项而改变。
不过，在实践中，Value 矩阵是否带偏置，或者 QKV 三者是否有偏置，并非铁板一块。有些实现中，QKV 三个矩阵都可能带偏置，有些则只有 Q 带偏置，或者 QKV 都不带偏置。这取决于具体的模型架构设计、训练目标以及实验效果。

总结一下“为什么 Key 不需要 bias”的几个关键点：

参数学习能力：权重矩阵 $W_K$ 本身就足够强大，能够通过线性变换来调整 Key 的表示，模拟偏置项可能带来的效果。
信息冗余：在多头注意力结构中，不同头的参数可以互相协作，弥补单个头中缺少偏置项造成的“信息损失”。
参数效率：减少参数量，降低过拟合风险。
实践经验：大量的实验表明，在很多场景下，移除 Key 偏置项对模型性能影响甚微，甚至可能更好。

值得注意的是，这并非一个绝对的规则。如果你在某个特定的 Vision Transformer 实现或研究中看到了 Key 矩阵带有偏置项，那也是完全可能的。模型的设计往往是权衡（tradeoffs）的结果，而“偏置项的有无”只是其中的一个细节。但理解上面这些原因，可以帮助你把握为什么“无偏置 Key”是一种常见的、有其合理性的设计选择。

网友意见

加和不加从结果上是等价的，BEiT在实现中去掉是为了fp16训练过程中数值稳定。

Both (i.e., with or without key.bias) are equivalent in terms of calculation results. They are canceled by the softmax function.

Softmax(q,k) = exp(q.weight * key.weight + q.bias * key.weight + q.weight * key.bias + q.bias * key.bias) / Z

Because the query is the same over all the keys, so the term (q.weight * key.bias + q.bias * key.bias) remains the same across all the keys, which in turn can be cancelled without affecting the softmax results.

exp(a)/(exp(a)+ exp(b)) == exp(a+C)/(exp(a+C)+ exp(b+C))

类似的话题

为什么有的 Vision Transformer 中的 key 不需要 bias ？

在 Vision Transformer (ViT) 的一些实现中，你会发现 QKV（Query, Key, Value）矩阵中的 Key（K）矩阵通常是没有偏置项（bias）的。这背后有一些设计上的考量，虽然在其他模型中或者其他场景下，Key 矩阵加上偏置项也并不少见。要理解这一点，咱们得从 Tr.............
为什么有的青千回国后，发的文章质量下降很快？

关于“青千”（即“青年千人计划”）回国后发表的学术文章质量下降的问题，这一现象确实存在，但其成因复杂，涉及多方面因素。以下从多个角度详细分析：一、学术环境与资源差异1. 科研资源与合作机会减少在国外，青千通常能依托国际一流实验室、合作网络和资金支持，进行长期、深入的研究。回国后，可能面.............
为什么有的研究生导师喜欢问学生家境？是想了解什么？

研究生导师询问学生的家境背景，这一行为可能源于多种动机，既涉及教育管理的现实需求，也包含师生关系中的复杂考量。以下从多个维度展开详细分析：一、经济支持与资源分配的隐性考量1. 奖学金与助学金资格审核部分高校或科研项目存在针对经济困难学生的专项资助（如国家助学金、勤工俭学岗位），导师可能需.............
为什么有的电源插座非常难插进去？

电源插座插进去困难的原因有很多，这些原因可能涉及插座本身的设计、插头的设计、材料、制造工艺，甚至是安装或使用环境。下面我将尽量详细地阐述这些原因：一、插头与插座接触点的设计和公差问题：这是最常见的原因之一。插孔的尺寸公差：插孔过小或过窄：即使是合格的插座，其插孔的尺寸也需要在.............
为什么有的人好像什么都知道但现实中却一事无成？

“什么都知道”的人在现实中“一事无成”的现象，其实是一个非常普遍且值得深入探讨的社会现象。这背后隐藏着多种复杂的原因，并非简单归咎于个人能力不足。下面我将从多个角度详细阐述，希望能帮助您更全面地理解这一现象：一、信息获取与知识理解的鸿沟：信息过载与碎片化：现代社会信息爆炸，互联网、社交媒体.............
为什么有的男性经常嘲笑女博士?

关于“为什么有的男性经常嘲笑女博士？”这个问题，背后可能涉及多种复杂的社会文化、心理以及个体层面的原因。要详细阐述，我们可以从以下几个方面来分析：一、社会文化与刻板印象的根深蒂固性别角色刻板印象的延续：传统社会对性别的期望往往将男性与理性、事业、智力等联系在一起，而将女性与感性、家庭、照顾.............
为什么有的地区被殖民之后走向了繁荣，而有的地区则依旧贫穷？

一个地区在殖民化后走向繁荣还是贫困，是一个极其复杂且多层次的问题，它受到殖民者自身的动机、殖民策略、殖民地自身的资源禀赋、社会结构以及全球经济格局等多种因素的综合影响。没有一个简单的普适性答案，但我们可以从以下几个关键角度来详细探讨：一、殖民者的动机和殖民模式：这是影响殖民地命运的最根本因素之一。不.............
为什么有的人（比如部分 PhD 等高学历者）会对家庭主妇有不屑的情绪？

这是一个复杂且敏感的话题，涉及到社会价值观念、个人经历、以及对“成功”定义的认知偏差。对于为什么一部分高学历者，特别是博士等群体，可能会对家庭主妇产生不屑情绪，我们可以从以下几个方面进行详细阐述：1. 社会文化中对“贡献”的定义和价值判断的倾斜：以经济产出为导向的价值体系：在许多社会文化中，.............
为什么有的人成功学书籍看得比较多，不仅没起到多少励志的作用，反而带来了很多负面的影响？

很多人在追求成功和自我提升的道路上，会翻阅大量的成功学书籍。然而，令人沮丧的是，有些人不仅没有从中获得预期的励志效果，反而可能产生一系列负面影响。这其中的原因错综复杂，我们可以从多个层面来剖析。一、成功学书籍本身的局限性与误导过于简化和片面化：许多成功学书籍倾向于将复杂的成功过程进行过度简化.............
为什么有的大哲学家、思想家选择了孤独一生不涉足婚姻？

许多伟大的哲学家和思想家选择孤独一生，不涉足婚姻，这是一个复杂而引人入胜的现象，其背后原因多种多样，既有他们个人性格、生活追求的因素，也有时代背景、哲学思想的体现。要深入理解这一点，我们需要从多个层面进行剖析：一、核心驱动力：对真理和精神世界的极致追求这是最根本的原因。许多伟大的思想家将生命中最宝.............
为什么有的galgame有无修版，有的就没有？

Galgame（美少女游戏）是否存在“无修版”这个问题，其背后涉及游戏分级制度、内容审查、发行策略以及玩家社群的复杂互动。下面我将详细解释这个问题。核心原因：游戏分级制度和审查机制: 这是最根本的原因。不同国家和地区对成人内容（尤其是性描写的尺度）有不同的法律法规和审查标准。发行商的策略.............
为什么有的人年纪轻轻就没了上进心和欲望，躲在舒适区只想安逸地生存？

为什么有些人年纪轻轻就没了上进心和欲望，躲在舒适区只想安逸地生存？这是一个复杂的问题，涉及到个体心理、社会环境、人生经历等多方面因素。我们可以从以下几个角度来详细探讨：一、心理层面：习得性无助 (Learned Helplessness)：这是非常核心的一个原因。当个体在过去反复尝试努力，但.............
为什么有的人羡慕韩国人那种被美国驻军，但是生活水平高的状态?

人们羡慕韩国人那种被美国驻军但生活水平高的状态，这是一个复杂的问题，背后涉及多重历史、政治、经济和社会因素。要详细地解释这一点，我们可以从以下几个方面展开：1. 安全的保障与经济发展的协同效应：强大的军事保护伞：朝鲜战争结束后，韩国与美国签订了《韩美共同防御条约》，美国在韩国驻军，提供了一个.............
为什么有的人天天混日子还能上985？

“天天混日子还能上985”这个说法，虽然听起来有些令人难以置信，但背后可能隐藏着多种复杂的原因，而且“混日子”的定义本身也可能存在误解。让我们从不同角度来详细分析一下：一、对“混日子”的理解差异：首先，我们需要明确“混日子”在不同人眼中的含义可能大相径庭。表面上的“混日子”：低调.............
为什么有的论文放出训练好的模型和测试脚本，但不开源训练代码？

论文放出训练好的模型（pretrained models）和测试脚本（testing scripts）却不公开训练代码（training code）的现象，在学术界和研究领域并不少见，背后原因通常是多方面的，并且往往是出于一种复杂的权衡和考量。下面我将详细阐述这些原因：核心原因：保护核心技术和研究优.............
为什么有的中国人喜欢吃（而且能够买得到）动物的内脏、头部和筋？

中国人对动物内脏、头部和筋的喜爱和消费，是一个非常独特且源远流长的饮食文化现象，其背后有多方面的因素在起作用，可以从以下几个角度进行详细阐述：一、历史与文化传承：节约与物尽其用：在过去相当长的一段时期，中国社会（尤其是在相对贫困的农村地区）农业和畜牧业是主要经济来源。动物的每个部分都有其价.............
为什么有的父母在外人面前喜欢贬低自己的孩子？

有些父母在别人面前贬低自己的孩子，这种行为虽然令人费解，但背后往往隐藏着复杂的原因，涉及心理、社会以及家庭动态等多个层面。我们可以从以下几个角度来详细分析：一、心理层面：掩饰自身的焦虑和不安：有些父母可能对自己的教育方式、孩子的成长发展存在焦虑和不安。通过贬低孩子，他们可能试图通过“未雨绸.............
为什么有的女人觉得自己能打过男人？

女性认为自己能打过男性，这是一个相当复杂且多维度的话题，其根源可能来自多个层面，包括个体经历、社会观念、心理因素，甚至是误解或夸大。下面我将尝试从不同角度进行详细阐述：一、个体经历与技能提升1. 武术与搏击训练的普及：个人技能的优势：随着现代社会对女性身体素质和自我保护意识的重视.............
为什么有的小学语文课文故事不是真的？

小学生语文课文中的故事“不是真的”，其实是一个比较复杂的概念，需要从几个层面来理解。简单来说，大部分我们现在接触到的语文课文里的故事，并非是基于历史真实事件的精确记录，而是经过改编、创作，或者本身就是虚构的文学作品。这背后有多种原因，主要可以归结为以下几点：一、教学目标与教育目的的需要小学语文.............
为什么有的人可以做到面对抱着孩子的女人，甚至有人提醒都还坐着不让座？

“为什么有的人可以做到面对抱着孩子的女人，甚至有人提醒都还坐着不让座？”这个问题触及了人性、社会规范、个人处境以及道德判断等多个层面，其背后原因可能非常复杂，并非简单的道德谴责就能解释。下面我将尝试从不同角度详细剖析可能的原因：一、个人处境与身体状况的考量：身体不适或疲劳：隐疾.............