为什么 Bert 的三个 Embedding 可以进行相加？

BERT 的三个 Embeddings 的相加，这个说法其实需要稍微 уточнить (clarify) 一下。准确地说，BERT 的输出层是三个不同表示（Embeddings）的组合，而我们通常将它们平均起来，而不是直接相加。当然，在一些实验中，直接相加也可能被尝试，但平均是 BERT 论文中提倡的、也是最常见的做法。

那么，为什么 BERT 要输出这三个 Embedding，以及它们之间有什么联系，使得进行某种形式的组合（比如平均）是有意义的呢？这背后涉及到 BERT 模型的设计思路和对语言表示的理解。

首先，让我们回顾一下 BERT 的基本架构。BERT 是一个基于 Transformer 的深度双向语言模型。它的核心在于“Transformer Encoder”的堆叠。一个 Transformer Encoder 由两个主要子层组成：多头自注意力机制 (MultiHead SelfAttention) 和前馈神经网络 (FeedForward Network)。

正是这两个子层，以及它们在多层堆叠中传递信息的方式，造就了 BERT 强大的语言理解能力。而 BERT 的最终输出，通常指的是最后一层 Transformer Encoder 的输出。

我们常说的“三个 Embedding”其实是指：

1. Token Embeddings: 这是最基础的输入表示。对于输入的每个词（或者子词），都有一个对应的 Embedding。这个 Embedding 包含了词本身的语义信息，是词汇表中的一个查找结果。

2. Segment Embeddings: BERT 在处理句子对（例如，用于问答任务或自然语言推断任务）时，需要区分不同的句子。Segment Embeddings 就是用来标识一个 Token 属于第一个句子还是第二个句子。通常，第一个句子的 Token 具有一个 Segment Embedding，第二个句子的 Token 具有另一个 Segment Embedding。

3. Position Embeddings: 在 Transformer 结构中，由于自注意力机制本身是无序的，也就是说，它不关心 Token 出现的顺序。但是，语言的含义很大程度上依赖于词语的顺序。Position Embeddings 就是用来编码 Token 在序列中的位置信息的，让模型能够区分“猫追老鼠”和“老鼠追猫”的含义。

重要澄清：
你提到的“Bert 的三个 Embedding”更准确地说，是指 BERT 的输入层对这三种 Embedding 进行组合。

输入层: BERT 的输入层首先会为每个 Token 生成一个 Token Embedding。
位置编码 (Position Encoding): 然后，它会加上对应的 Position Embedding。
句子类型编码 (Segment Encoding): 最后，还会加上 Segment Embedding（如果是句子对的话）。

所以，每个 Token 在 BERT 模型中最底层的、初始的表示，实际上是 Token Embedding、Segment Embedding 和 Position Embedding 的相加（或者更准确地说，是组合，虽然实现上通常是相加）。

你可能更想问的是：为什么 BERT 在最后一层会输出一个表示，而这个表示可以被我们用来做什么，以及为什么我们有时会提及“最后一层的输出”而不是“输入层相加的Embedding”？

这里我们回到 BERT 的输出。BERT 模型最核心的输出是最后一层 Transformer Encoder 的输出。每一层的 Transformer Encoder 都会对输入表示进行提炼和加工。

自注意力机制: 使得每个 Token 能够“看到”序列中的其他所有 Token，并根据它们之间的相关性来计算自己的加权表示。这意味着，自注意力机制会融合其他 Token 的信息到当前 Token 的表示中。
前馈网络: 对自注意力层的输出进行非线性变换，进一步丰富表示。

经过多层这样的处理，每一层 Transformer Encoder 的输出，对于每个 Token，都不仅仅是原始的 Token Embedding，而是融合了上下文信息、位置信息以及句子结构信息的、更加丰富的表示。

那么，为什么会有人提到“三个 Embedding”可以相加，以及 BERT 的最终输出为什么如此强大？

这里的“三个 Embedding”很可能指的是 BERT 输出层，即最后一层 Transformer Encoder 的输出，通常是针对 [CLS] Token 的那个表示，它被设计用来捕获整个序列的全局信息。

BERT 论文中，对于句子级别的任务（如文本分类），通常会提取第一个 Token，也就是 [CLS] Token，在最后一层 Transformer Encoder 的输出表示。然后，将这个 [CLS] Token 的输出 Embedding，通过一个简单的分类器（例如一个线性层加一个 softmax）来预测类别的概率。

为什么 [CLS] Token 的输出是“三个” Embedding 的结果？

严格来说，[CLS] Token 的最终输出表示，是它在最后一层经过所有 Transformer Encoder 层的处理，并且在每一层中都融合了其他 Token 的信息（通过自注意力）。

这里的“三个 Embedding”更像是一种对 BERT 强大之处的概括性描述，或者是在解释 BERT 如何利用不同类型的信息来构建最终表示。

1. Token 本身的语义信息: 这是 Token Embedding 提供的基础。
2. 上下文信息: 这是通过多层自注意力机制和前馈网络，从整个序列中学习到的。这个上下文信息是动态的，并且是双向的。
3. 位置信息: 虽然 Position Embedding 在输入层就被加进去了，但在模型层层传递和自注意力机制的计算中，这种位置信息被动态地融合和利用，使得模型能够理解词序。

所以，当你看到“BERT 的三个 Embedding 可以相加”这种说法时，你可以理解为：

一种对 BERT 输入层组合方式的简略描述: 即 Token Embedding + Position Embedding + Segment Embedding 构成了初始的 Token 表示。
一种对 BERT 最终输出表示的抽象解读: 即最终的、强大的表示，是源自基础的 Token 语义，并融合了强大的上下文信息（这是自注意力机制的关键，它融合了序列中所有 Token 的信息，而且是动态的、双向的），以及内隐了位置和句子结构信息。

为什么（平均）组合有意义？

如果你的意思是，在最后，我们如何利用 BERT 的输出？那么，对于大多数句子级别的任务，我们使用 [CLS] Token 的最终层输出。

[CLS] Token 的作用: [CLS] Token 被设计成一个特殊的标记，它的最终表示旨在聚合整个输入序列的信息。在训练过程中，它与一个分类层连接，学习预测整个句子的属性。
为什么要“平均”？: 如果你指的是模型的不同输出层，那么 BERT 论文（BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding）中提到，有时会平均最后几层 Transformer Encoder 的输出（而不是相加）来获得最终的表示，以减少特定层对结果的影响，或者在更精细的任务中捕捉更全面的信息。但这通常是针对整个序列的表示，而不是单个 Token。
单个 Token 的最终输出: 对于 Token 级别的任务（如命名实体识别），我们通常会使用每个 Token 在最后一层的输出 Embedding。这些 Embedding 已经融合了所有上下文信息。

总结一下，理解 BERT 的“三个 Embedding”的关键在于：

1. 输入层: Token Embedding, Position Embedding, Segment Embedding 相加（或组合）是构成模型初始输入的关键。
2. 模型内部: 多层 Transformer Encoder 的自注意力和前馈网络，不断融合和提炼这些信息，使得每一层的输出都是对 Token 的更丰富的、上下文感知的表示。
3. 输出层: 我们通常使用最后一层 Transformer Encoder 的输出，特别是 [CLS] Token 的输出，来进行下游任务。这个输出已经内隐地包含了 Token 语义、上下文、位置等信息。

所以，与其说“相加”，不如说 BERT 的强大在于它能够有效地融合这些信息。而“三个 Embedding”可以被看作是构成一个丰富表示的基础要素，这些要素在模型中经过层层交互，最终形成一个高度信息化的表示。

希望这样的解释能让你更清晰地理解 BERT 中 Embedding 的概念及其组合的意义。

网友意见

这是一个很有意思的问题，苏剑林老师给出的回答，真的很妙：

Embedding的数学本质，就是以one hot为输入的单层全连接。
也就是说，世界上本没什么Embedding，有的只是one hot。

在这里想用一个简单的例子再尝试理解一下：

假设 token Embedding 矩阵维度是 [4,768]；position Embedding 矩阵维度是 [3,768]；segment Embedding 矩阵维度是 [2,768]。

对于一个字，假设它的 token one-hot 是[1,0,0,0]；它的 position one-hot 是[1,0,0]；它的 segment one-hot 是[1,0]。

那这个字最后的 word Embedding，就是上面三种 Embedding 的加和。

如此得到的 word Embedding，和concat后的特征：[1,0,0,0,1,0,0,1,0]，再过维度为 [4+3+2,768] = [9, 768] 的全连接层，得到的向量其实就是一样的。

再换一个角度理解：

直接将三个one-hot 特征 concat 起来得到的 [1,0,0,0,1,0,0,1,0] 不再是one-hot了，但可以把它映射到三个one-hot 组成的特征空间，空间维度是 4*3*2=24 ，那在新的特征空间，这个字的one-hot就是[1,0,0,0,0...] (23个0)。

此时，Embedding 矩阵维度就是 [24,768]，最后得到的 word Embedding 依然是和上面的等效，但是三个小 Embedding 矩阵的大小会远小于新特征空间对应的 Embedding 矩阵大小。

当然，在相同初始化方法前提下，两种方式得到的 word Embedding 可能方差会有差别，但是，BERT还有Layer Norm，会把 Embedding 结果统一到相同的分布。

BERT的三个Embedding相加，本质可以看作一个特征的融合，强大如 BERT 应该可以学到融合后特征的语义信息的。

之前回答这个问题写了巨多，但答非所问。用“BERT如何做的嵌入”或者是“BERT的输入是什么”回答了“为什么 Bert 的三个 Embedding 可以进行相加”这个问题。这里按照题意，重新表达一下我的理解。

BERT的词嵌入由符号嵌入（Token Embedding）、片段嵌入（Segmentation Embedding）和位置嵌入（Position Embedding）合成得到，表示为

上述三个嵌入分量都可以表达为“独热”（one-hot）编码表示输入与嵌入矩阵的乘积形式，即

其中，：依据符号在词典中位置下标、对输入符号构造的one-hot编码表示；：依据符号在两个序列中隶属标签（更一般的为符号属性）下标、对输入符号构造的one-hot编码表示；：以符号在句子位置下标、对输入符号构造的one-hot编码表示；、和分别为其对应的待训练嵌入参数矩阵；、和分别为字典维度、序列个数（更一般的为符号属性）和最大位置数；为嵌入维度。下面从三个角度理解合成：

角度1——从形象角度理解

上面的嵌入合成有点像在调颜色，先有一个基于字典的符号嵌入，“花里胡哨”的；然后按照符号类型属性（BERT为句子的隶属关系）添加颜色，相同的符号类型添加相同的颜色，于是具有相同属性符号的颜色就接近了一些；然后再按照位置，进一步添加不同的颜色。

角度2——从网络角度理解

（1）按照分别过网络再做求和融合的角度理解

三个one-hot编码向量与嵌入矩阵相乘，等价于构造三个以one-hot编码向量作为输入，输入维度分别为、和，输出维度均为的全连接网络。求和即为特征融合。如下图所示

（2）按照先做Concat融合再过网络的角度理解

三个one-hot编码向量与嵌入矩阵相乘，按照矩阵分块，可以改写为

对应的全连接网络变为一个大网络，输入维度为，输出维度还是。对应的网络结构图形如下图所示

角度3——从空间映射角度理解

三个嵌入的合成，是将符号空间、符号属性空间和位置空间三个看似“风马牛不相及”的空间表示，通过线性映射到一个统一的、同质的特征空间上去，然后再以求和的方式做坐标综合，如下图所示

如果按照角度2的到底先融合还是后融合的两个视角，那上面说的是先映射后融合模式。当然，我们也可以按照角度2做先融合后映射的思考。先做如下铺垫

类似于欧氏积空间（例如）能够表达更高维的空间，人们也期望通过积（Product）的形式复合子流形的表达方式，将不同的流形复合，来刻画复杂的高维流形结构。定义如下形式多个流形的笛卡尔积（Cartesian Product）

其中，“ ”表示空间的笛卡尔积，称为分量流形（Component Manifold）。设为维度为的流形，则也为一流形，称为积流形，其维度为。证明从略。

对应上面铺垫和我们的问题，可以知道，、和分别对应上面的符号空间、符号属性空间和位置空间。按照笛卡尔积的从“每个空间取点组团”的定义，我们的对三个one-hot编码的Concat操作即作出了维积流形中的一个点。然后再做的一个的线性映射，等于去获取该点的维内蕴坐标。

不管怎么理解，都是在做特征的融合。至于为什么可以加，那是因为进行变换后映射到了同质空间。希望有帮助！

类似的话题

为什么 Bert 的三个 Embedding 可以进行相加？

BERT 的三个 Embeddings 的相加，这个说法其实需要稍微 уточнить (clarify) 一下。准确地说，BERT 的输出层是三个不同表示（Embeddings）的组合，而我们通常将它们平均起来，而不是直接相加。当然，在一些实验中，直接相加也可能被尝试，但平均是 BERT 论文中提.............
为什么 BERT 的 intermediate_size 这么大？

深入解析 BERT 中令人瞩目的 `intermediate_size`：为何它如此庞大？在探索 BERT 的内部构造时，一个显眼的参数便是 `intermediate_size`。这个参数在 Transformer 编码器的前馈神经网络（FeedForward Network, FFN）层中扮演着.............
为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？

我们来聊聊 Bert 中那个CLS（Classifier）Token，为什么在它还没被“驯服”（finetune）之前，单独拿出来作为句子的表示（sentence embedding）时，效果常常不尽如人意，甚至可以说是差强人意。这背后其实隐藏着 Transformer 模型，特别是 Bert 的设.............
Bert中的词向量各向异性具体什么意思啊？

BERT中的词向量各向异性，你可以理解成词向量在空间中的“方向感”不太一样。想象一下，咱们用一根棍子来表示一个词，比如“国王”。这根棍子有长有短，有粗有细，但关键是，它在三维空间里，会指向某个特定的方向。而“各向异性”说的就是，不同的词，它们在空间中指向的方向，以及这个方向的“强度”或者“重要性”是.............
BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？

BERT 中的多头注意力机制：7686412 vs. 768768在理解 BERT 中“multihead 7686412”与“768768 矩阵统一计算”的区别之前，我们首先要明确这两个术语分别指的是什么，以及它们在 BERT 架构中的作用。 1. 核心概念：Transformer 与注意力机制B.............
实体提取任务中使用BERT-CRF时，CRF根据数据统计可以得到转移概率，为啥还要训练呢？

在实体提取任务中，BERTCRF模型结合了BERT强大的语义理解能力和CRF（条件随机场）的序列标注优化能力。你提到CRF可以根据数据统计得到转移概率，并疑惑为什么还需要训练。这个问题问得非常好，这触及到了CRF在序列标注中的核心作用和训练的必要性。我们来详细拆解一下：1. CRF的核心：转移概率和.............
为什么近几年来自由主义在世界逐渐走弱？

近年来，自由主义在全球范围内的影响力确实呈现出明显的衰落趋势，这一现象涉及经济、政治、社会、技术、文化等多个层面的复杂互动。以下从多个维度详细分析自由主义衰落的原因：一、经济全球化与贫富差距的加剧1. 自由主义经济政策的局限性自由主义经济学强调市场自由、私有化、减少政府干预，但其在21世.............
为什么俄乌战争假消息满天飞？

俄乌战争期间，虚假信息（假消息）的传播确实非常广泛，其背后涉及复杂的国际政治、媒体运作、技术手段和信息战策略。以下从多个角度详细分析这一现象的成因： 1. 信息战的直接动因：大国博弈与战略竞争俄乌战争本质上是俄罗斯与西方国家（尤其是美国、北约）之间的地缘政治冲突，双方在信息领域展开激烈竞争：俄罗斯.............
为什么没有枪的政府能指挥有枪的军队？

政府与军队之间的关系是一个复杂的政治与军事体系问题，其核心在于权力的合法性和制度性约束。虽然政府本身可能不直接持有武器，但通过法律、组织结构、意识形态和历史传统，政府能够有效指挥拥有武器的军队。以下是详细分析：一、法律授权与国家主权1. 宪法与法律框架政府的权力来源于国家宪法或法律。例如.............
为什么很多人都说传武就是杀人技？

关于“传武就是杀人技”的说法，这一观点在历史、文化和社会语境中存在一定的误解和偏见。以下从历史、文化、现代演变和误解来源等多个角度进行详细分析：一、历史背景：武术的原始功能与社会角色1. 自卫与生存需求中国传统武术（传武）的起源与农耕社会、游牧民族的生存环境密切相关。在古代，武术的核心功.............
为什么说近代历史人物只有袁世凯和汪精卫不能翻案？

关于近代历史人物是否能够“翻案”的问题，需要结合历史背景、人物行为对国家和民族的影响，以及历史评价的客观性进行分析。袁世凯和汪精卫作为中国近代史上的重要人物，其历史评价确实存在复杂性和争议性，但“不能翻案”的结论并非基于单一因素，而是综合历史、政治、道德等多方面考量的结果。以下从历史背景、人物行为、.............
为什么俄罗斯被个别网友称作俄爹？如何反驳？

关于“俄爹”这一称呼，其来源和含义需要从多个角度分析，同时要明确其不尊重的性质，并指出如何正确回应。以下是详细解析和反驳思路：一、称呼的来源与可能的含义1. 可能的字面拆解 “俄”是“俄罗斯”的拼音首字，而“爹”在中文中通常指父亲，带有亲昵或戏谑的意味。若将两者结合，可能暗示.............
为什么民国短短二三十年却能出现大批大师级人物？

民国时期（19121949）虽然仅持续约37年，却涌现出大量在文学、艺术、科学、政治、哲学等领域具有划时代意义的“大师级人物”。这一现象的出现，是多重历史、社会、文化因素共同作用的结果。以下从多个维度进行详细分析：一、思想解放与文化启蒙的浪潮1. 新文化运动（19151923）思想解放.............
为什么航空航天待遇不好，但国家在航空航天技术上依然取得飞速发展？

航空航天领域在待遇和职业环境上确实存在一定的挑战，但国家在该领域取得的飞速发展，主要源于多方面的国家战略、技术积累和系统性支持。以下从多个维度详细分析这一现象：一、国家战略与长期投入：推动技术突破的核心动力1. 国家层面的战略目标航空航天技术往往与国家的科技竞争力、国家安全和国际地位密切.............
为什么很多人讨厌吴京?

吴京作为中国知名演员、导演，近年来因《战狼2》《英雄联盟》等作品及个人生活引发公众关注，其形象和言论在不同语境下存在争议，导致部分人对其产生负面评价。以下从多个角度详细分析可能的原因： 1. 个人生活与公众形象的冲突妻子被曝光：2018年，吴京妻子的近照和视频被网友扒出，引发舆论争议。部分人.............
为什么最近忽然冒出来这么多支持乌克兰的？

近年来，全球范围内对乌克兰的支持确实呈现出显著增加的趋势，这一现象涉及多重因素，包括国际局势、地缘政治博弈、信息传播、经济援助、民族主义情绪以及国际社会的集体反应。以下从多个角度详细分析这一现象的成因： 1. 俄乌战争的爆发与国际社会的集体反应战争的爆发：2022年2月，俄罗斯对乌克兰发动全面入侵.............
为什么《是大臣》《是首相》的编剧没当过公务员、没太多亲身经历，也能写出这么好的政治剧剧本？

《是大臣》《是首相》等政治剧之所以能在编剧缺乏公务员经历的情况下取得成功，主要源于以下几个关键因素的综合作用： 1. 构建政治剧的底层逻辑：制度与权力的结构性认知政治体制的系统性研究：编剧可能通过大量研究英国议会制度、政府运作流程、政党政治规则（如议会制、内阁制、党鞭系统等）来构建剧情。例如.............
为什么剧组里，男的可以坐镜头箱，女的却不可以？

关于“剧组中男性可以坐镜头箱而女性不能”的现象，这一说法可能存在误解或过度泛化的倾向。在影视拍摄中，镜头箱（通常指摄影机或固定设备）与演员的性别并无直接关联，但若涉及性别差异的讨论，可能与以下多方面因素相关： 1. 传统性别刻板印象的延续历史背景：在传统影视文化中，男性常被赋予主导、主动的角.............
为什么印度在俄乌战争中不表态，而且在安理会上对俄罗斯决案弃权？

印度在俄乌战争中不公开表态、在安理会投票中对俄罗斯的决议案弃权，这一行为背后涉及复杂的地缘政治、经济利益和外交策略考量。以下是详细分析： 1. 与俄罗斯的经济与军事合作能源依赖：印度是俄罗斯的重要能源进口国，2022年俄乌战争爆发后，印度从俄罗斯进口了大量石油和天然气，以缓解对西方能源的依赖。尽管.............
为什么那么多公知都是高校知识分子？

关于“公知”与高校知识分子的关系，这一现象涉及中国社会、教育体系、媒体环境以及知识分子角色的多重因素。以下从多个维度进行分析：一、高校知识分子的特殊性1. 教育背景与专业素养高校知识分子通常拥有高等教育背景，具备较强的知识储备和批判性思维能力。这种专业素养使他们更倾向于参与公共讨论，尤其.............