问题

为什么 Bert 的三个 Embedding 可以进行相加?

回答
BERT 的三个 Embeddings 的相加,这个说法其实需要稍微 уточнить (clarify) 一下。准确地说,BERT 的输出层是三个不同表示(Embeddings)的组合,而我们通常将它们平均起来,而不是直接相加。当然,在一些实验中,直接相加也可能被尝试,但平均是 BERT 论文中提倡的、也是最常见的做法。

那么,为什么 BERT 要输出这三个 Embedding,以及它们之间有什么联系,使得进行某种形式的组合(比如平均)是有意义的呢?这背后涉及到 BERT 模型的设计思路和对语言表示的理解。

首先,让我们回顾一下 BERT 的基本架构。BERT 是一个基于 Transformer 的深度双向语言模型。它的核心在于“Transformer Encoder”的堆叠。一个 Transformer Encoder 由两个主要子层组成:多头自注意力机制 (MultiHead SelfAttention) 和 前馈神经网络 (FeedForward Network)。

正是这两个子层,以及它们在多层堆叠中传递信息的方式,造就了 BERT 强大的语言理解能力。而 BERT 的最终输出,通常指的是最后一层 Transformer Encoder 的输出。

我们常说的“三个 Embedding”其实是指:

1. Token Embeddings: 这是最基础的输入表示。对于输入的每个词(或者子词),都有一个对应的 Embedding。这个 Embedding 包含了词本身的语义信息,是词汇表中的一个查找结果。

2. Segment Embeddings: BERT 在处理句子对(例如,用于问答任务或自然语言推断任务)时,需要区分不同的句子。Segment Embeddings 就是用来标识一个 Token 属于第一个句子还是第二个句子。通常,第一个句子的 Token 具有一个 Segment Embedding,第二个句子的 Token 具有另一个 Segment Embedding。

3. Position Embeddings: 在 Transformer 结构中,由于自注意力机制本身是无序的,也就是说,它不关心 Token 出现的顺序。但是,语言的含义很大程度上依赖于词语的顺序。Position Embeddings 就是用来编码 Token 在序列中的位置信息的,让模型能够区分“猫追老鼠”和“老鼠追猫”的含义。

重要澄清:
你提到的“Bert 的三个 Embedding”更准确地说,是指 BERT 的输入层对这三种 Embedding 进行组合。

输入层: BERT 的输入层首先会为每个 Token 生成一个 Token Embedding。
位置编码 (Position Encoding): 然后,它会加上对应的 Position Embedding。
句子类型编码 (Segment Encoding): 最后,还会加上 Segment Embedding(如果是句子对的话)。

所以,每个 Token 在 BERT 模型中最底层的、初始的表示,实际上是 Token Embedding、Segment Embedding 和 Position Embedding 的相加(或者更准确地说,是组合,虽然实现上通常是相加)。

你可能更想问的是:为什么 BERT 在最后一层会输出一个表示,而这个表示可以被我们用来做什么,以及为什么我们有时会提及“最后一层的输出”而不是“输入层相加的Embedding”?

这里我们回到 BERT 的输出。BERT 模型最核心的输出是最后一层 Transformer Encoder 的输出。每一层的 Transformer Encoder 都会对输入表示进行提炼和加工。

自注意力机制: 使得每个 Token 能够“看到”序列中的其他所有 Token,并根据它们之间的相关性来计算自己的加权表示。这意味着,自注意力机制会融合其他 Token 的信息到当前 Token 的表示中。
前馈网络: 对自注意力层的输出进行非线性变换,进一步丰富表示。

经过多层这样的处理,每一层 Transformer Encoder 的输出,对于每个 Token,都不仅仅是原始的 Token Embedding,而是融合了上下文信息、位置信息以及句子结构信息的、更加丰富的表示。

那么,为什么会有人提到“三个 Embedding”可以相加,以及 BERT 的最终输出为什么如此强大?

这里的“三个 Embedding”很可能指的是 BERT 输出层,即最后一层 Transformer Encoder 的输出,通常是针对 [CLS] Token 的那个表示,它被设计用来捕获整个序列的全局信息。

BERT 论文中,对于句子级别的任务(如文本分类),通常会提取第一个 Token,也就是 [CLS] Token,在最后一层 Transformer Encoder 的输出表示。然后,将这个 [CLS] Token 的输出 Embedding,通过一个简单的分类器(例如一个线性层加一个 softmax)来预测类别的概率。

为什么 [CLS] Token 的输出是“三个” Embedding 的结果?

严格来说,[CLS] Token 的最终输出表示,是它在最后一层经过所有 Transformer Encoder 层的处理,并且在每一层中都融合了其他 Token 的信息(通过自注意力)。

这里的“三个 Embedding”更像是一种对 BERT 强大之处的概括性描述,或者是在解释 BERT 如何利用不同类型的信息来构建最终表示。

1. Token 本身的语义信息: 这是 Token Embedding 提供的基础。
2. 上下文信息: 这是通过多层自注意力机制和前馈网络,从整个序列中学习到的。这个上下文信息是动态的,并且是双向的。
3. 位置信息: 虽然 Position Embedding 在输入层就被加进去了,但在模型层层传递和自注意力机制的计算中,这种位置信息被动态地融合和利用,使得模型能够理解词序。

所以,当你看到“BERT 的三个 Embedding 可以相加”这种说法时,你可以理解为:

一种对 BERT 输入层组合方式的简略描述: 即 Token Embedding + Position Embedding + Segment Embedding 构成了初始的 Token 表示。
一种对 BERT 最终输出表示的抽象解读: 即最终的、强大的表示,是源自基础的 Token 语义,并融合了强大的上下文信息(这是自注意力机制的关键,它融合了序列中所有 Token 的信息,而且是动态的、双向的),以及内隐了位置和句子结构信息。

为什么(平均)组合有意义?

如果你的意思是,在最后,我们如何利用 BERT 的输出? 那么,对于大多数句子级别的任务,我们使用 [CLS] Token 的最终层输出。

[CLS] Token 的作用: [CLS] Token 被设计成一个特殊的标记,它的最终表示旨在聚合整个输入序列的信息。在训练过程中,它与一个分类层连接,学习预测整个句子的属性。
为什么要“平均”?: 如果你指的是模型的不同输出层,那么 BERT 论文(BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding)中提到,有时会平均最后几层 Transformer Encoder 的输出(而不是相加)来获得最终的表示,以减少特定层对结果的影响,或者在更精细的任务中捕捉更全面的信息。但这通常是针对整个序列的表示,而不是单个 Token。
单个 Token 的最终输出: 对于 Token 级别的任务(如命名实体识别),我们通常会使用每个 Token 在最后一层的输出 Embedding。这些 Embedding 已经融合了所有上下文信息。

总结一下,理解 BERT 的“三个 Embedding”的关键在于:

1. 输入层: Token Embedding, Position Embedding, Segment Embedding 相加(或组合)是构成模型初始输入的关键。
2. 模型内部: 多层 Transformer Encoder 的自注意力和前馈网络,不断融合和提炼这些信息,使得每一层的输出都是对 Token 的更丰富的、上下文感知的表示。
3. 输出层: 我们通常使用最后一层 Transformer Encoder 的输出,特别是 [CLS] Token 的输出,来进行下游任务。这个输出已经内隐地包含了 Token 语义、上下文、位置等信息。

所以,与其说“相加”,不如说 BERT 的强大在于它能够有效地融合这些信息。而“三个 Embedding”可以被看作是构成一个丰富表示的基础要素,这些要素在模型中经过层层交互,最终形成一个高度信息化的表示。

希望这样的解释能让你更清晰地理解 BERT 中 Embedding 的概念及其组合的意义。

网友意见

user avatar

这是一个很有意思的问题,苏剑林老师给出的回答,真的很妙:

Embedding的数学本质,就是以one hot为输入的单层全连接。
也就是说,世界上本没什么Embedding,有的只是one hot。


在这里想用一个简单的例子再尝试理解一下:

假设 token Embedding 矩阵维度是 [4,768];position Embedding 矩阵维度是 [3,768];segment Embedding 矩阵维度是 [2,768]。

对于一个字,假设它的 token one-hot 是[1,0,0,0];它的 position one-hot 是[1,0,0];它的 segment one-hot 是[1,0]。

那这个字最后的 word Embedding,就是上面三种 Embedding 的加和。

如此得到的 word Embedding,和concat后的特征:[1,0,0,0,1,0,0,1,0],再过维度为 [4+3+2,768] = [9, 768] 的全连接层,得到的向量其实就是一样的。


再换一个角度理解:

直接将三个one-hot 特征 concat 起来得到的 [1,0,0,0,1,0,0,1,0] 不再是one-hot了,但可以把它映射到三个one-hot 组成的特征空间,空间维度是 4*3*2=24 ,那在新的特征空间,这个字的one-hot就是[1,0,0,0,0...] (23个0)。

此时,Embedding 矩阵维度就是 [24,768],最后得到的 word Embedding 依然是和上面的等效,但是三个小 Embedding 矩阵的大小会远小于新特征空间对应的 Embedding 矩阵大小

当然,在相同初始化方法前提下,两种方式得到的 word Embedding 可能方差会有差别,但是,BERT还有Layer Norm,会把 Embedding 结果统一到相同的分布。


BERT的三个Embedding相加,本质可以看作一个特征的融合,强大如 BERT 应该可以学到融合后特征的语义信息的。

user avatar

之前回答这个问题写了巨多,但答非所问。用“BERT如何做的嵌入”或者是“BERT的输入是什么”回答了“为什么 Bert 的三个 Embedding 可以进行相加”这个问题。这里按照题意,重新表达一下我的理解。

BERT的词嵌入由符号嵌入(Token Embedding)、片段嵌入(Segmentation Embedding)和位置嵌入(Position Embedding)合成得到,表示为

上述三个嵌入分量都可以表达为“独热”(one-hot)编码表示输入与嵌入矩阵的乘积形式,即

其中, :依据符号在词典中位置下标、对输入符号构造的one-hot编码表示; :依据符号在两个序列中隶属标签(更一般的为符号属性)下标、对输入符号构造的one-hot编码表示; :以符号在句子位置下标、对输入符号构造的one-hot编码表示; 、 和 分别为其对应的待训练嵌入参数矩阵; 、和 分别为字典维度、序列个数(更一般的为符号属性)和最大位置数; 为嵌入维度。下面从三个角度理解合成:

角度1——从形象角度理解

上面的嵌入合成有点像在调颜色,先有一个基于字典的符号嵌入,“花里胡哨”的;然后按照符号类型属性(BERT为句子的隶属关系)添加颜色,相同的符号类型添加相同的颜色,于是具有相同属性符号的颜色就接近了一些;然后再按照位置,进一步添加不同的颜色。

角度2——从网络角度理解

(1)按照分别过网络再做求和融合的角度理解

三个one-hot编码向量与嵌入矩阵相乘,等价于构造三个以one-hot编码向量作为输入,输入维度分别为 、和 ,输出维度均为 的全连接网络。求和即为特征融合。如下图所示

(2)按照先做Concat融合再过网络的角度理解

三个one-hot编码向量与嵌入矩阵相乘,按照矩阵分块,可以改写为

对应的全连接网络变为一个大网络,输入维度为 ,输出维度还是 。对应的网络结构图形如下图所示

角度3——从空间映射角度理解

三个嵌入的合成,是将符号空间、符号属性空间和位置空间三个看似“风马牛不相及”的空间表示,通过线性映射到一个统一的、同质的特征空间上去,然后再以求和的方式做坐标综合,如下图所示

如果按照角度2的到底先融合还是后融合的两个视角,那上面说的是先映射后融合模式。当然,我们也可以按照角度2做先融合后映射的思考。先做如下铺垫

类似于欧氏积空间(例如 )能够表达更高维的空间,人们也期望通过积(Product)的形式复合子流形的表达方式,将不同的流形复合,来刻画复杂的高维流形结构。定义如下形式多个流形的笛卡尔积(Cartesian Product)

其中,“ ”表示空间的笛卡尔积, 称为分量流形(Component Manifold)。设 为维度为 的流形,则 也为一流形,称为积流形,其维度为 。证明从略。

对应上面铺垫和我们的问题,可以知道 , 、 和 分别对应上面的符号空间、符号属性空间和位置空间。按照笛卡尔积的从“每个空间取点组团”的定义,我们的对三个one-hot编码的Concat操作即作出了 维积流形中的一个点。然后再做的一个的线性映射,等于去获取该点的 维内蕴坐标。

不管怎么理解,都是在做特征的融合。至于为什么可以加,那是因为进行变换后映射到了同质空间。希望有帮助!



类似的话题

  • 回答
    BERT 的三个 Embeddings 的相加,这个说法其实需要稍微 уточнить (clarify) 一下。准确地说,BERT 的输出层是三个不同表示(Embeddings)的组合,而我们通常将它们平均起来,而不是直接相加。当然,在一些实验中,直接相加也可能被尝试,但平均是 BERT 论文中提.............
  • 回答
    深入解析 BERT 中令人瞩目的 `intermediate_size`:为何它如此庞大?在探索 BERT 的内部构造时,一个显眼的参数便是 `intermediate_size`。这个参数在 Transformer 编码器的前馈神经网络(FeedForward Network, FFN)层中扮演着.............
  • 回答
    我们来聊聊 Bert 中那个CLS(Classifier)Token,为什么在它还没被“驯服”(finetune)之前,单独拿出来作为句子的表示(sentence embedding)时,效果常常不尽如人意,甚至可以说是差强人意。这背后其实隐藏着 Transformer 模型,特别是 Bert 的设.............
  • 回答
    BERT中的词向量各向异性,你可以理解成词向量在空间中的“方向感”不太一样。想象一下,咱们用一根棍子来表示一个词,比如“国王”。这根棍子有长有短,有粗有细,但关键是,它在三维空间里,会指向某个特定的方向。而“各向异性”说的就是,不同的词,它们在空间中指向的方向,以及这个方向的“强度”或者“重要性”是.............
  • 回答
    BERT 中的多头注意力机制:7686412 vs. 768768在理解 BERT 中“multihead 7686412”与“768768 矩阵统一计算”的区别之前,我们首先要明确这两个术语分别指的是什么,以及它们在 BERT 架构中的作用。 1. 核心概念:Transformer 与注意力机制B.............
  • 回答
    在实体提取任务中,BERTCRF模型结合了BERT强大的语义理解能力和CRF(条件随机场)的序列标注优化能力。你提到CRF可以根据数据统计得到转移概率,并疑惑为什么还需要训练。这个问题问得非常好,这触及到了CRF在序列标注中的核心作用和训练的必要性。我们来详细拆解一下:1. CRF的核心:转移概率和.............
  • 回答
    近年来,自由主义在全球范围内的影响力确实呈现出明显的衰落趋势,这一现象涉及经济、政治、社会、技术、文化等多个层面的复杂互动。以下从多个维度详细分析自由主义衰落的原因: 一、经济全球化与贫富差距的加剧1. 自由主义经济政策的局限性 自由主义经济学强调市场自由、私有化、减少政府干预,但其在21世.............
  • 回答
    俄乌战争期间,虚假信息(假消息)的传播确实非常广泛,其背后涉及复杂的国际政治、媒体运作、技术手段和信息战策略。以下从多个角度详细分析这一现象的成因: 1. 信息战的直接动因:大国博弈与战略竞争俄乌战争本质上是俄罗斯与西方国家(尤其是美国、北约)之间的地缘政治冲突,双方在信息领域展开激烈竞争: 俄罗斯.............
  • 回答
    政府与军队之间的关系是一个复杂的政治与军事体系问题,其核心在于权力的合法性和制度性约束。虽然政府本身可能不直接持有武器,但通过法律、组织结构、意识形态和历史传统,政府能够有效指挥拥有武器的军队。以下是详细分析: 一、法律授权与国家主权1. 宪法与法律框架 政府的权力来源于国家宪法或法律。例如.............
  • 回答
    关于“传武就是杀人技”的说法,这一观点在历史、文化和社会语境中存在一定的误解和偏见。以下从历史、文化、现代演变和误解来源等多个角度进行详细分析: 一、历史背景:武术的原始功能与社会角色1. 自卫与生存需求 中国传统武术(传武)的起源与农耕社会、游牧民族的生存环境密切相关。在古代,武术的核心功.............
  • 回答
    关于近代历史人物是否能够“翻案”的问题,需要结合历史背景、人物行为对国家和民族的影响,以及历史评价的客观性进行分析。袁世凯和汪精卫作为中国近代史上的重要人物,其历史评价确实存在复杂性和争议性,但“不能翻案”的结论并非基于单一因素,而是综合历史、政治、道德等多方面考量的结果。以下从历史背景、人物行为、.............
  • 回答
    关于“俄爹”这一称呼,其来源和含义需要从多个角度分析,同时要明确其不尊重的性质,并指出如何正确回应。以下是详细解析和反驳思路: 一、称呼的来源与可能的含义1. 可能的字面拆解 “俄”是“俄罗斯”的拼音首字,而“爹”在中文中通常指父亲,带有亲昵或戏谑的意味。 若将两者结合,可能暗示.............
  • 回答
    民国时期(19121949)虽然仅持续约37年,却涌现出大量在文学、艺术、科学、政治、哲学等领域具有划时代意义的“大师级人物”。这一现象的出现,是多重历史、社会、文化因素共同作用的结果。以下从多个维度进行详细分析: 一、思想解放与文化启蒙的浪潮1. 新文化运动(19151923) 思想解放.............
  • 回答
    航空航天领域在待遇和职业环境上确实存在一定的挑战,但国家在该领域取得的飞速发展,主要源于多方面的国家战略、技术积累和系统性支持。以下从多个维度详细分析这一现象: 一、国家战略与长期投入:推动技术突破的核心动力1. 国家层面的战略目标 航空航天技术往往与国家的科技竞争力、国家安全和国际地位密切.............
  • 回答
    吴京作为中国知名演员、导演,近年来因《战狼2》《英雄联盟》等作品及个人生活引发公众关注,其形象和言论在不同语境下存在争议,导致部分人对其产生负面评价。以下从多个角度详细分析可能的原因: 1. 个人生活与公众形象的冲突 妻子被曝光:2018年,吴京妻子的近照和视频被网友扒出,引发舆论争议。部分人.............
  • 回答
    近年来,全球范围内对乌克兰的支持确实呈现出显著增加的趋势,这一现象涉及多重因素,包括国际局势、地缘政治博弈、信息传播、经济援助、民族主义情绪以及国际社会的集体反应。以下从多个角度详细分析这一现象的成因: 1. 俄乌战争的爆发与国际社会的集体反应 战争的爆发:2022年2月,俄罗斯对乌克兰发动全面入侵.............
  • 回答
    《是大臣》《是首相》等政治剧之所以能在编剧缺乏公务员经历的情况下取得成功,主要源于以下几个关键因素的综合作用: 1. 构建政治剧的底层逻辑:制度与权力的结构性认知 政治体制的系统性研究:编剧可能通过大量研究英国议会制度、政府运作流程、政党政治规则(如议会制、内阁制、党鞭系统等)来构建剧情。例如.............
  • 回答
    关于“剧组中男性可以坐镜头箱而女性不能”的现象,这一说法可能存在误解或过度泛化的倾向。在影视拍摄中,镜头箱(通常指摄影机或固定设备)与演员的性别并无直接关联,但若涉及性别差异的讨论,可能与以下多方面因素相关: 1. 传统性别刻板印象的延续 历史背景:在传统影视文化中,男性常被赋予主导、主动的角.............
  • 回答
    印度在俄乌战争中不公开表态、在安理会投票中对俄罗斯的决议案弃权,这一行为背后涉及复杂的地缘政治、经济利益和外交策略考量。以下是详细分析: 1. 与俄罗斯的经济与军事合作 能源依赖:印度是俄罗斯的重要能源进口国,2022年俄乌战争爆发后,印度从俄罗斯进口了大量石油和天然气,以缓解对西方能源的依赖。尽管.............
  • 回答
    关于“公知”与高校知识分子的关系,这一现象涉及中国社会、教育体系、媒体环境以及知识分子角色的多重因素。以下从多个维度进行分析: 一、高校知识分子的特殊性1. 教育背景与专业素养 高校知识分子通常拥有高等教育背景,具备较强的知识储备和批判性思维能力。这种专业素养使他们更倾向于参与公共讨论,尤其.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有