基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？

文本表示模型如何通过对比学习挖掘语义相似度

你是不是也曾好奇，为什么那些模型，通过一些“看图说话”或者“给段话找个近义词”之类的训练方式，就能那么准确地理解文本的含义，甚至判断出两段话是不是在说类似的事情？这背后，其实有一套叫做“对比学习”的聪明方法在起作用。今天，咱们就来掰开了揉碎了，好好聊聊它到底是怎么让文本表示模型学会“懂”语义相似度的。

核心思想：拉近相似的，推开不相似的

想象一下，你在学习一门新语言。老师不会直接告诉你每个词的意思，而是会让你看图，然后告诉你哪个词对应的图是正确的。或者，会让你听一句，然后从几个句子中选出意思差不多的。对比学习的原理就有点像这样：它通过比较“相似”和“不相似”的样本对，来教会模型区分和理解文本的语义。

具体来说，对比学习的目标是训练一个模型，让它能够将语义上相似的文本映射到向量空间中彼此靠近的位置，而将语义上不相似的文本映射到彼此远离的位置。这里的“向量空间”就好比一个大地图，每一段文本都像一个点，模型要做的就是把意思相近的点画得离得近，把意思不同的点画得离得远。

是什么让文本对“相似”或““不相似”？

在对比学习中，如何构造这些“相似”和“不相似”的样本对至关重要。对于文本来说，我们有几种常用的方法：

数据增强（Data Augmentation）：这是对比学习最核心的手段之一。我们不会直接用原始文本，而是通过一些“小动作”来制造出“相似”的文本。这些“小动作”包括：
随机词语替换/删除/插入：比如，“我喜欢吃苹果”可以变成“我爱吃苹果”（替换）、“我吃苹果”（删除“喜欢”）或者“我非常喜欢吃苹果”（插入“非常”）。这些修改并没有改变句子的核心意思，所以它们是“相似”的。
回译（Backtranslation）：把文本翻译成另一种语言，再翻译回来。语言的转换过程中，一些细微的表达方式可能会改变，但整体意思应该保持不变。
同义词替换：直接用同义词替换原文中的词，比如“愉快”换成“高兴”。
句子打乱（Sentence Shuffling）：对于长文本，可以稍微打乱句子的顺序，只要不影响整体逻辑，它们依然可以被认为是相似的。

通过这些数据增强手段，我们为每一段原始文本（我们称之为“锚点 Anchour”）生成了一个或多个“正样本”（Positive Sample），这些正样本在语义上与锚点是相似的。

负样本（Negative Sample）：除了正样本，我们还需要“不相似”的样本，也就是“负样本”。负样本通常是从训练数据集中随机抽取，或者选择那些在语义上与锚点明显不同的文本。比如，当锚点是“今天天气很好”，负样本可能是“猫在睡觉”或者“我正在学习物理”。

模型是如何学习的？—— 损失函数是关键

有了这些“相似”和“不相似”的样本对，模型就会进入“学习模式”。这个模式的核心就是通过一个损失函数（Loss Function）来指导模型。最经典的损失函数之一是 InfoNCE (Noise Contrastive Estimation)，它的思想可以概括为：

“让模型把正样本的分数推得很高，同时把负样本的分数推得很低。”

让我们把这个过程想象得更具体一点：

1. 文本编码（Text Encoding）：模型首先将每一段文本（锚点、正样本、负样本）通过一个神经网络（比如Transformer）转换成向量表示。这些向量就相当于文本在“语义地图”上的坐标。
2. 相似度计算（Similarity Calculation）：模型会计算锚点向量与所有其他向量之间的相似度。通常使用余弦相似度（cosine similarity），它衡量的是两个向量在方向上的接近程度，数值越高表示越相似。
3. 目标：最大化正样本相似度，最小化负样本相似度：
正样本：对于锚点，模型希望它与它的正样本计算出的相似度得分越高越好。
负样本：对于锚点，模型希望它与它的负样本计算出的相似度得分越低越好。

InfoNCE损失函数就是巧妙地结合了这两点。它会将一个“概率”的概念引入进来：假设我们有一组（锚点 + 一个正样本 + 多个负样本），模型需要“猜”出哪个是正样本。损失函数会惩罚模型猜错的情况，促使模型更准确地区分正负样本。

简单来说，损失函数的目标就是：
增大锚点与其正样本之间的相似度。
减小锚点与其负样本之间的相似度。

通过不断地进行这样的“比较”和“调整”，模型就像一个善于辨别的人，慢慢学会了什么叫“意思接近”，什么叫“意思不同”。

为什么这样做就能学到语义相似度？

1. 区分能力的培养：通过不断地将相似的文本“拉近”，不相似的文本“推远”，模型被迫去关注文本中那些真正影响语义的关键信息。那些仅仅因为随机词语替换而产生细微差别的文本，它们的核心语义还是相似的，模型就能捕捉到这种共性。而那些完全不相关的文本，即使偶然出现一些词语的重叠，模型也能通过其他信息（比如上下文、句子结构）来区分开。
2. “负反馈”的重要性：仅仅拉近相似的文本是不够的，推开不相似的文本同样重要。如果没有负样本，模型可能会把所有文本都压缩到一起，失去区分能力。负样本提供了“反例”，让模型明白，某些文本之间存在明显的语义鸿沟，必须将它们区分开。
3. 泛化能力的提升：通过大量的、多样化的样本对进行训练，模型学习到的不仅仅是某个特定句子的相似性，而是对文本语义的普遍理解。当遇到新的、未曾见过的文本时，它也能根据学到的“语义地图”来判断它们的相似度。

总结一下

对比学习能让文本表示模型学会语义相似度的关键在于：

构造“相似”与“不相似”的样本对：利用数据增强制造语义相近的文本作为正样本，同时引入语义差异大的文本作为负样本。
明确的学习目标：通过损失函数（如InfoNCE），指导模型将正样本的表示拉近，将负样本的表示推远。
迭代优化：在海量数据上不断重复这一过程，模型逐渐学会捕捉文本的核心语义，从而在向量空间中实现语义的有效编码。

所以，下次当你看到一个文本表示模型能准确地找出意思相近的句子时，就可以知道，它很可能就是通过这样一套“拉近相似的，推开不相似的”的对比学习方法，一点点“练”出来的。这种方法就像是给模型提供了一套精密的“语义尺子”，让它能精确地衡量文本之间的距离。

网友意见

更新了回答，请大家指正~

其实这是一个蛮常见的误解。模型并不懂什么叫做语义。

1.单句之间的对比学习其实只需要学到足够区分正负例之间的特征，它的loss就能降下来，其实也没有真正去捕捉整个句子的意思。

比如: 我喜欢足球和我喜欢篮球；如果这两个是负例的话，那么模型不用知道我喜欢XXX的意思，只需要知道足球和篮球是不同的东西就行。说白了，就是只需要学到一些足够区分的特征就ok。

2.模型是不是真的学到语义了？

并不是。语义就是人为定义的东西。比如：我今天去上海。和我今天去北京。

A: 从意图上看，这两个都是去某个地方，从这个意义上讲，应该被认为是相似句。

B: 但是从到达点看，这两个去的都不是一个地方，那么不应该被认为是相似句。

假如这个例子在测试集中的label是相似句。模型也认为这两个是相似的。那么模型真的就学到语义了吗？

其实可能情况是，训练集中，模型看到了这种case: 我今天吃苹果和我今天吃梨子被打上了相似句的label。模型只需要学到两个句子有较多的重叠部分，那么两个句子就是相似的，这一特征。

总之就是，当你觉得模型学到了语义时，模型没准只是恰好捕捉的特征和你想的方面一样而已。当你觉得模型没学到语义时，模型没准是从另一方面觉得他们是相似的

类似的话题

基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？

文本表示模型如何通过对比学习挖掘语义相似度你是不是也曾好奇，为什么那些模型，通过一些“看图说话”或者“给段话找个近义词”之类的训练方式，就能那么准确地理解文本的含义，甚至判断出两段话是不是在说类似的事情？这背后，其实有一套叫做“对比学习”的聪明方法在起作用。今天，咱们就来掰开了揉碎了，好好聊聊它到底.............
深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？

这个问题问得非常实在，也触及了深度学习在图像处理领域的一个核心选择。你观察得很敏锐，确实，RGB是我们最常见到的色彩空间，尤其在神经网络的输入层，几乎清一色是RGB。但HSV并非没有用武之地，这背后有着深刻的技术考量和历史原因。要理解这一点，我们得从RGB和HSV这两个色彩空间的基本特性以及它们如何.............
基于自身学养可否用最简练的话概括你对以下年份的感觉或联想：1588，1688，1788…2088?

好的，我来试试，从我所理解的学养出发，尽可能以一种自然、有温度的方式，去触碰这些年份的脉络。1588：如果说有什么词能捕捉到1588年的感觉，那大概是“风起浪涌的转折”。在我看来，那一年，尤其是英国的海军对西班牙无敌舰队的胜利，不仅仅是一场海战的胜负，它更像是一个时代的撬动。之前，海洋上的霸权似乎是.............
对于有ASP.NET webform基础的ASP.NET MVC学习者有什么学习建议，或者教程，书籍的推荐？

你好！很高兴能和你一起探讨 ASP.NET MVC 的学习之路，特别是对于已经拥有 ASP.NET WebForms 基础的你来说。这简直是个天然的优势，因为你已经对 .NET 生态系统、C 语言、HTTP 请求/响应模型有了一定的了解。MVC 的学习，更像是在原有的坚实基础上，学习一种全新的“组织.............
中医黑不知道《中基》对阴阳的定义，又是如何论证阴阳学说是玄学-伪科学的呢？

中医黑的“阴阳”迷局：当“玄学”遇上“不了解”这真是一个颇具黑色幽默的议题：一群对中医理论中的核心概念——“阴阳”——知之甚少，甚至完全不了解其本义的人，却能振振有词地将其批驳为“玄学”、“伪科学”。这就像一个对化学元素周期表一窍不通的人，却对着元素周期表大放厥词，说它是“无稽之谈，不可信”。那么，.............
大一学生对区块链感兴趣，应该打好哪些基础？

你好！听到你对区块链感兴趣，我为你感到高兴。这是一个非常有前景和潜力的领域。对于大一新生来说，打好坚实的基础是至关重要的，这能让你在未来学习区块链技术时事半功倍，并且能更深入地理解它的价值和应用。让我为你详细拆解一下，作为一名大一学生，你需要在哪些方面打好基础：一、计算机科学与编程基础：这是区块链.............
保罗对基督的理解是哪里来的？可以说他是巴拿巴，彼得约翰的学生吗？

保罗对基督的理解，这是一个非常有意思且值得深入探讨的问题。我们不能简单地说他是巴拿巴、彼得、约翰的直接学生，但这三人（以及其他早期教会的领袖）无疑对他最终的基督论产生了深远的影响。保罗的理解是多方面因素共同作用的结果，其中既有他个人的非凡经历，也有他与早期教会的互动和学习。要理解保罗的基督论从何而来.............
《中华人民共和国人类遗传资源管理条例》出台，会对基因编辑等相关学科和行业带来哪些影响？

《中华人民共和国人类遗传资源管理条例》（以下简称《条例》）的出台，无疑是中国在生命科学领域，特别是基因编辑、基因测序、生物医药等相关学科和行业发展中的一个里程碑事件。这份《条例》的出现，并非空穴来风，而是随着我国在这些前沿科技领域的快速进步，以及全球范围内对人类遗传资源保护和利用日益增长的关注而应运.............
如何看待「清华大学姚班最好的学生都去了华尔街对冲基金做量化交易」这一观点？

关于“清华大学姚班最好的学生都去了华尔街对冲基金做量化交易”这个说法，咱们得掰开了揉碎了聊聊。这说法背后其实藏着不少复杂的东西，不是简单的一句“是”或“否”就能概括的。首先，姚班，也就是清华大学姚期智教授创立的“交叉学科人才培养项目”，尤其是在计算机科学和数学方向，培养出来的学生绝对是国内顶尖的聪明.............
一个天资平平，数学基础非常差的高一学生，打算日后进行纯数研究，是否应该对其进行劝退？

这真是一个让人纠结的问题，就像面对一个初学的画家，他拿起画笔，告诉你梦想是成为米开朗琪罗一样。不过，咱不能上来就给人泼冷水，这孩子的心劲儿在这儿呢。先说说“劝退”这俩字儿。这词儿听着就硬邦邦的，有点像封建社会老爷甩袖子赶人走。我觉得吧，直接说“劝退”有点太武断了，而且对一个有志向的孩子来说，这打.............
有哪些基于大神们对游戏的深刻理解而被开发出的令人惊叹的「非主流玩法」？

说实话，游戏界里那些“非主流玩法”，往往不是什么“大神”凭空臆想出来的，更多的是玩家们在无数次尝试、摸索、甚至“逼疯”游戏本身的过程中，被逼出来的“歪门邪道”，但偏偏这些“歪门邪道”，却因为其出人意料的创意和对游戏机制的极致挖掘，最终迸发出了令人拍案叫绝的火花。我记得当年玩《魔兽世界》的时候，最开始.............
使用铋做芯片对比硅基芯片有哪些优势？

铋基芯片：一场超越硅的隐秘革命？在半导体领域，硅一直是无可争议的王者，支撑着我们从智能手机到超级计算机的一切。然而，当我们将目光投向那些潜藏于实验室中的前沿材料时，一种名为铋（Bismuth）的元素，正悄然展现出其与众不同的潜力，预示着一场可能颠覆现有格局的隐秘革命。那么，相比于我们熟知的硅基芯片，.............
如何看待小米显示器挂灯上线，众筹价 169 元？对比明基 Screen Bar 有哪些优缺点？

小米显示器挂灯上线，众筹价 169 元：一场“价格屠夫”的降维打击还是创新之举？小米显示器挂灯（官方命名为“小米带鱼屏挂灯”）的上线，无疑再次搅动了显示器配件市场。仅 169 元的众筹价，与市面上动辄五六百元、甚至上千元的高端显示器挂灯相比，显得异常激进。这让人不禁要问：小米这次是凭借强大的供应链和.............
父母对子女的爱是否基于子女的价值？

父母对子女的爱，这个问题，说实话，是个挺复杂也挺能触动人心的话题。你想知道这份爱是不是建立在孩子“有没有价值”这个基础上的，对吧？咱们掰开了揉碎了说。首先，直觉上，我们很多人会觉得，父母的爱应该是无条件的。就像阳光照耀大地，不管这块土地贫瘠还是肥沃，它都沐浴在阳光下。父母养育孩子，那是天性使然，是.............
基于Folding at home项目的山寨币Curecoin对于F@H项目有什么影响？

Curecoin，那个依附于Folding@home的“小弟”，对老大哥究竟有何影响？Folding@home（F@H），这个名字对许多关注科学计算和加密货币的人来说并不陌生。它是一个分布式计算项目，汇聚全球无数志愿者的算力，共同模拟蛋白质折叠，以此来研究疾病，寻找治疗方法。而Curecoin，这个.............
当代年轻人对婚姻的态度，是否是基于父母那代人的矫枉过正？

这个问题挺值得聊的。我们现在常说年轻人对婚姻的态度变了，更独立，更看重自我，不再是父母那辈人“有房有车就万事大吉”的模式。但说这是“矫枉过正”，我觉得可能有点武断，更像是一种自然演变，是社会发展、信息爆炸，以及几代人价值观碰撞后的一个结果。想想我们父母那一代，他们的婚姻，很大程度上是时代的产物。在物.............
如何让<fieldset>基于外边框垂直方向对齐，而不是里面的内容底线对齐？

你希望``元素的外边框能像一个整体一样，在垂直方向上与其他元素对齐，而不是被它内部包裹的内容（比如文本、图片等）的底线所影响。这个问题在我们进行页面布局，特别是当``与其他块级元素处于同一行时，会经常遇到。首先，我们要理解为什么默认情况下``会受内容底线影响。``本身是一个块级元素，它会占据一整行的.............
阿里云OS到底是一个基于Linux的全新系统还是只不过是对安卓进行二次处理的系统？

.......
基建对一个国家的发展到底有多重要？

基础设施对一个国家的发展至关重要，其重要性体现在以下几个方面：1. 经济发展的基石和驱动力：促进生产和效率提升：完善的交通网络（公路、铁路、港口、机场）可以降低商品运输成本，缩短运输时间，提高物流效率。这直接影响到企业的生产成本，使商品更具竞争力，从而刺激生产和贸易。例如，发达的铁路网可以高.............
基因对人的影响到底有多大?

基因，这个微小却又无比强大的存在，在我们每个人身上都扮演着至关重要的角色。它就像一本写满了我们生命蓝图的密码本，决定了我们是什么样子，能做什么，甚至在很大程度上影响着我们如何感受这个世界。很多人听到“基因”就觉得是决定命运的宿命论，但事实远比这复杂和有趣得多。基因：你是谁的基石首先，最直观的影响就是.............