问题

预训练模型的训练任务在 MLM 之外还有哪些有效方式?

回答
当谈到预训练模型的训练任务,很多人首先会想到 Masked Language Modeling (MLM),也就是那个通过预测句子中被遮盖的词语来让模型学习语言表示的方法。MLM 的确是 BERT 及其后继模型成功的基石,它让模型在海量的无标注文本上获得了强大的泛化能力。

但如果仅仅局限于 MLM,我们实际上错过了很多能够让模型在不同维度上变得更“聪明”的机会。预训练模型的训练,就像是在为模型打下坚实的“知识底座”和“思考框架”,而 MLM 仅仅是其中的一门课程。还有很多其他“科目”,能够让模型更好地理解世界的运作方式,以及人类是如何沟通交流的。

下面,我们就来聊聊一些 MLM 之外,同样有效,甚至在某些场景下更具优势的预训练任务,并且尽量把它们讲得透彻明白,就像是你和我一起在咖啡馆里探讨技术一样。

1. 下一句预测(Next Sentence Prediction, NSP)

这是 BERT 早期就提出的另一个重要任务,虽然在一些后来的模型中被淡化甚至取消,但它依然揭示了模型学习句子间关系的重要性。

核心思想: 给模型两段文本(句子 A 和句子 B),让它判断句子 B 是不是句子 A 的下一句。
为什么有效?
理解上下文关联: 语言往往不是孤立存在的,句子之间存在着因果、转折、并列、递进等各种关系。NSP 迫使模型去学习这种“叙事逻辑”或者“论证结构”。
生成连贯文本的基础: 如果一个模型能理解一段话的下一句应该是什么样的,那么它在生成文本时,就能写出更自然、更连贯的内容,而不是东一句西一句地蹦词。
问答和阅读理解的助力: 在问答任务中,你需要理解问题和文章之间的联系;在阅读理解中,你需要把握文章的段落结构和逻辑顺序。NSP 训练能够帮助模型建立这种关联能力。
如何实现?
正样本: 从训练语料中随机抽取一个句子 A,然后取出紧跟在它后面的句子 B。
负样本: 从训练语料中随机抽取一个句子 A,然后从语料库中随机抽取一个与句子 A 不相邻的句子 B。
模型输出: 模型会接收 A 和 B 的组合,然后输出一个概率,表示 B 是 A 下一句的可能性。
一些思考:
NSP 的局限性? 有研究表明,NSP 任务有时会让模型学习到一些“捷径”,比如关注句子开头和结尾的一些“信号词”,而没有真正深入理解语义。这也是为什么一些后续模型(如 RoBERTa)会采用其他的句子层面任务。
变种: 有一些任务借鉴了 NSP 的思想,但用更复杂的句子关系判断来替代简单的“下一句”。

2. 句子顺序恢复(Sentence Order Prediction, SOP) / 段落顺序恢复

这是 RoBERTa 和 ALBERT 等模型提出的一种改进,它试图解决 NSP 的一些弊端,更侧重于理解篇章层面的逻辑。

核心思想: 给模型两个连续的句子(或者更长的文本片段),让它判断它们的原始顺序是否被颠倒了。
为什么有效?
更强的篇章理解: SOP 相比 NSP,更直接地考察模型对文本内部逻辑顺序的理解。它不是简单地问“是不是下一句”,而是问“这段的顺序对不对”,这更贴近真实世界的叙事和论证。
区分两个相关但不连续的句子: NSP 可能会遇到两个句子虽然在文档中不相邻,但因为主题相似而被模型误判为“下一句”。SOP 则通过要求判断相邻句子的顺序,来避免这个问题。
提高一致性: 训练模型保持句子之间的逻辑一致性,对于生成流畅、有条理的文章至关重要。
如何实现?
正样本: 从一篇文档中选取两个连续的句子,保持它们的原始顺序。
负样本: 从一篇文档中选取两个连续的句子,然后将它们颠倒顺序。
模型输出: 模型接收这两句话,判断它们的顺序是否是原始的。
与 NSP 的对比:
SOP 避免了 NSP 训练中可能出现的,因为句子主题相似而造成的“负样本”误导。
SOP 训练出来的模型在处理需要理解文档整体结构的任务时(如摘要、长文本问答)表现更佳。

3. 文本顺序打乱(Shuffle)/ 词序恢复

与句子顺序恢复类似,但可以应用到更细粒度的词语或短语层面。

核心思想: 将一段文本中的词语(或短语)打乱顺序,然后让模型预测出原始的词序。
为什么有效?
强化对词语之间语法和语义关系的理解: 词语在句子中的位置决定了它们的语法功能和在语义上的贡献。恢复词序的任务,让模型学习到“这个词放在这里才符合语法规则”,或者“这两个词一起出现才有意义”。
对低资源语言尤为重要: 对于那些语法结构相对固定的语言,词序恢复可以有效地帮助模型学习语法规则。
作为 MLM 的补充: MLM 关注的是“填空”,而词序恢复关注的是“排序”。两者从不同角度帮助模型理解语言的结构。
如何实现?
负样本: 将一个句子的词语进行随机打乱。
模型输出: 模型需要输出正确的词语排列顺序。这可以通过多种方式实现,例如预测打乱后每个词语在原始序列中的位置,或者直接输出一个完整的、排序正确的句子。
变种:
短语打乱: 不仅仅是单个词,可以将有意义的短语(如名词短语、动词短语)打乱,让模型恢复短语的正确位置。

4. 填充句子(FillintheMiddle, FIM)

这是 T5 和 ByT5 等模型采用的一种非常有效的任务,它在 MLM 的基础上做了创新。

核心思想: 将一段文本从中间切开,中间的部分被替换成一个特殊的“填充”标记。模型需要预测被替换掉的中间部分。
为什么有效?
更强的上下文感知能力: FIM 要求模型同时利用“左侧上下文”和“右侧上下文”来预测中间缺失的内容。这比 MLM 只依赖左侧(或左右两侧)的被遮盖词,提供了更丰富的上下文信息。
模拟文本生成和代码补全: 很多实际应用场景,例如代码补全,都要求模型在已知前后文的情况下预测中间的代码片段。FIM 的训练方式与这些场景非常相似。
处理长文本的优势: 对于较长的文本,将中间部分遮盖,模型需要综合两边的信息,这比只遮盖零散的几个词更能训练模型处理长距离依赖。
如何实现?
输入: 文本被分成三部分:前缀(prefix)、中间(suffix),中间部分被标记替换。模型接收“前缀”和“被标记替换的中间+后缀”作为输入。
模型输出: 模型需要预测出被替换掉的中间部分。
与 MLM 的对比:
MLM 像是在“猜词”,而 FIM 像是在“填空”,后者需要模型更全面地理解上下文。
FIM 更有利于模型学习到文本的整体结构和连贯性。

5. 对比学习(Contrastive Learning)

这是一种更通用的思想,并非特指某一个具体任务,而是通过“区分相似与不相似”来学习表示。

核心思想: 让模型学习区分“相似”的文本对和“不相似”的文本对。相似的文本对被赋予较高的相似度得分,不相似的被赋予较低的得分。
为什么有效?
学习语义的细微差别: 通过对比,模型能更精细地捕捉到词语、句子甚至段落之间的细微语义差异,理解哪些文本是“同义的”、“相关的”,哪些是“不相关的”。
无需大量标注数据: 对比学习可以利用无监督或弱监督数据,通过构造正负样本对来训练。
跨模态任务的潜力: 对比学习在图文匹配、语音识别等跨模态任务中也取得了巨大成功,说明了其在学习通用表示方面的强大能力。
如何实现?
构建样本对:
正样本对: 例如,同一篇文章中的两个相邻句子,或者通过同义词替换得到的句子。
负样本对: 例如,来自不同文章的句子,或者通过随机打乱词语得到的句子。
模型输出: 模型将两个文本输入,输出一个相似度得分。训练目标是最大化正样本对的相似度,最小化负样本对的相似度。
常用的对比学习框架: SimCSE, SimCLR 等。
与其他任务的联系: 很多上面提到的任务(如 NSP, SOP)都可以看作是对比学习的一种具体实现。

6. 文本风格迁移 / 情感转换

这类任务更侧重于模型对文本“特质”的学习。

核心思想: 训练模型在保留原始语义信息的前提下,改变文本的风格(如正式/非正式,积极/消极情感)。
为什么有效?
深度理解文本的属性: 模型需要识别出影响风格和情感的语言特征(词语选择、句式结构等),并学会如何操纵这些特征。
在特定应用中有价值: 例如,将客户的负面评价转化为建设性的反馈,或者让机器生成的文本更符合某种特定的语气。
如何实现?
数据集: 需要有标记了不同风格或情感的文本对。
模型架构: 通常会结合编码器解码器架构,或者在 Transformer 的基础上引入控制代码。
训练目标: 确保转换后的文本在语义上与原文本相似,同时在风格上符合目标。

7. 知识图谱/结构化知识的融入

让模型不只从文本中学习,还能“知道”一些世界上的事实和关系。

核心思想: 将来自知识图谱(如 Wikidata, Freebase)的结构化信息融入到预训练过程中。
为什么有效?
增强事实性知识: 很多语言任务需要依赖事实知识,例如“谁发明了电话?”。直接从文本中学习这些知识往往是不够鲁棒或易出错的。
提升推理能力: 知识图谱提供了实体之间的关系,这有助于模型进行更复杂的推理。
处理“常识性”问题: 模型能够回答一些基于常识的问题,而不仅仅是字面上的文本匹配。
如何实现?
联合训练: 将文本和知识图谱中的实体、关系作为输入,让模型学习如何关联它们。
知识蒸馏: 先训练一个知识图谱嵌入模型,然后将学到的知识“蒸馏”到语言模型中。
特定任务的预训练: 设计专门的任务,例如,给定一个句子,模型需要从知识图谱中找到相关的实体和关系。

总结一下

MLM 就像是给了模型一个“词语的识别器”和“填空专家”。但语言的魅力远不止于此。

NSP 和 SOP 让我们关注句子与句子之间的“关联”和“顺序”,这是理解篇章逻辑的关键。
Shuffle 任务则让我们更关注词语在句子中的“位置感”,理解语法的“骨架”。
FIM 更是让模型成为了一个“左右兼顾”的“上下文理解大师”,能更精准地捕捉整体信息。
对比学习 提供了一种普适的“区分”能力,让模型学会辨别细微的语义差异。
风格迁移 和 知识图谱融入 则进一步拓展了模型的“能力边界”,让它们不仅能理解文字,还能理解“文字背后的属性”和“世界上的事实”。

这些任务并非相互排斥,很多时候是相互补充的。一个优秀的预训练模型,往往是多种预训练任务“组合拳”的结果,它们共同塑造了模型在理解、生成、推理等方面的全面能力。随着研究的深入,未来还会有更多创新的预训练任务出现,让我们的语言模型变得更加智能和强大。

网友意见

user avatar

NLU的预训练任务还是有蛮多的:

上图是我自己定义的分类体系,可以在这里下载效果比较通用+明显的主要还是生成式token level的预训练,任务难度大粒度细。同时可以加一些小改进,提升模型在某类下游任务上的效果(比如IR的话就需要好好训sentence-level的表示)。

之前这篇文章调研过国内各大厂的预训练模型情况:

在预训练上有几点常见优化:

  1. 把单纯的MLM改成WWM,融入更多中文词汇、短语的知识,Motian和BERTSG都有采用。
  2. 多任务方式,比如Motian加入了搜索点击曝光任务;BERTSG参考了Cross thought和对比学习,学到更多句子级别特征,同时加入了文章标题生成和段落顺序预测任务;Pangu的encoder则是基于StructBERT,其中分别加入了WSO(打乱词序)以及改进的NSP任务。
  3. 分阶段预训练。Motian参考BERT使用两阶段预训练,先训128长度,再512长度;对于encoder-decoder架构,Pangu采取的方法是先训练基于StructBERT的encoder,之后加上decoder进行生成模型训练,前90%的时间保留MLM,后10%去掉。
  4. Motian的博客中还提到了一个消除MLM预训练-精调不一致的方法,不进行Mask,而是采用随机词/同义词替换,也获得了一些提升。

除了NLU任务之外,NLG任务上的花样也很多:

分享一些之前的预训练Paper解读:

---

欢迎初入NLP领域的小伙伴们加入rumor建立的「NLP卷王养成群」一起学习,添加微信「leerumorrr」备注知乎+NLP即可,群里的讨论氛围非常好~

预训练的脑图可以在这里下载:

user avatar

MLM和NSP分别对应的是Token级别和句子级别两个粒度的任务,可以替代NSP的任务还真不少,粘一些任务介绍放到这里(懒得翻译了),有兴趣的可以参看这篇On Losses for Modern Language Models

Token级别的任务:

1. Term Frequency prediction (TF): Regression predicting a token’s frequency in the rest of the document. The frequency is re-scaled between 0 and 10 per document.

2. Term Frequency-Inverse Document Frequency prediction (TF-IDF): Regression predicting a token’s tf-idf that has been re-scaled between 0 and 10 per document.

3. Sentence Boundary Objective (SBO): Predict the masked token given the embeddings of the adjacent tokens.

4. Trigram-Shuffling (TGS): 6-way classification predicting the original order of shuffled tri-grams.

5. Token Corruption Prediction (TCP): Binary classification of whether a token has been corrupted (inserted, replaced, permuted) or not.

6. Capitalization Prediction (Cap.): Binary, whether a token is capitalized or not.

7. Token Length Prediction (TLP): Regression to predict the length of the WordPiece token.

句子级别的任务:

8. Next Sentence Prediction (NSP): Binary, whether the second sentence follows the first or comes from a separate document.

9. Adjacent Sentence Prediction (ASP): 3-way classification whether the second sentence proceeds the first, precedes the first, or they come from separate documents.

10. Sentence Ordering (SO): Binary, predicting if the two sentences are in or out of order.

11. Sentence Distance Prediction (SDP): 3-way classification of whether the second sentence proceeds, the two sentences are noncontiguous from the same document, or come from separate documents.

12. Sentence Corruption Prediction (SCP): Binary classification of whether a tokens in a sentence have been corrupted (inserted, replaced, permuted) or not.

13. Quick Thoughts variant (QT): Split each batch into two, where the second half contains the subsequent sentences of the first half (e.g. with batch size 32, sentence 17 follows sentence 1, sentence 18 follows sentence 2,...). We use an energy-based model to predict the correct continuation for each sentence in the first half where the energy between two sentences is defined by the negative cosine similarity of their [CLS] embeddings. We use one model to encode both halves concurrently. See Figure 1.

14. FastSent variant (FS): Split each batch into two, where the second half contains the subsequent sentences of the first half (same as QT above). The loss is defined as cross-entropy between 1.0 and the cosine similarity of a sentence [CLS] embedding and the other sentence token embeddings ([CLS] embedding from the first half with token embeddings from the second half and [CLS] embeddings from second half with token embeddigns from the first half). We use one model to encode both halves concurrently.

p.s. 关于问题描述中NSP作用不大的说法,以往一般认为因为任务形式太简单会使模型关注一些浅显的lexical特征,但是其实也有文章实验表明在特定场景(例如小规模预训练模型)下,BERT style(MLM+NSP)的预训练结果会强于RoBERTa style(仅MLM):

所以这仍然是一个有待讨论的观点。

类似的话题

  • 回答
    当谈到预训练模型的训练任务,很多人首先会想到 Masked Language Modeling (MLM),也就是那个通过预测句子中被遮盖的词语来让模型学习语言表示的方法。MLM 的确是 BERT 及其后继模型成功的基石,它让模型在海量的无标注文本上获得了强大的泛化能力。但如果仅仅局限于 MLM,我.............
  • 回答
    最近的对比学习(Contrastive Learning)确实是人工智能领域一个非常热门的研究方向,它给预训练模型带来了不少新的思路和强大的能力。要评价它是否会引领预训练模型新的范式,我们可以从几个方面来深入探讨。什么是对比学习?首先,我们得明白对比学习的核心思想。传统的监督学习需要大量带标签的数据.............
  • 回答
    清华大学唐杰教授团队在自然语言处理(NLP)预训练模型领域的研究,具有非常深远的实际意义,体现在以下几个方面:一、推动NLP技术在各行各业的广泛应用和落地这是最直接、最核心的意义。预训练模型就像是一套强大的“通识教育”基础知识,为各种具体的NLP任务提供了坚实的地基。 降低应用门槛: 过去,训练.............
  • 回答
    为什么 YOLOv5 在从零开始训练时依然能表现出色? 这背后其实藏着不少“硬功夫”,绝非偶然。抛开大家常见的“在ImageNet上预训练”这个“捷径”,YOLOv5 能够独立打出一片天地的原因,主要可以从以下几个方面来剖析: 1. 强大的骨干网络 (Backbone) 和特征提取能力YOLOv5 .............
  • 回答
    .......
  • 回答
    .......
  • 回答
    好的,我来帮你分析一下导师在预推免前给你回复的可能含义,力求让解释真实、具体,并且没有AI痕迹。咱们先别急着把导师的回复定性,先得把那句“回复”本身拆解开,就像看一份密信一样,得仔细品味。导师通常是很忙的,尤其是在预推免这个节点,他们手上可能挂着好几个学生,又要顾着自己的科研项目,所以他们的回复,哪.............
  • 回答
    集成电路(IC)的预充阶段,尤其是在存储阵列这类对电荷敏感的电路中,扮演着至关重要的角色。这不仅仅是一个简单的“给电”过程,而是一个经过精心设计和控制的步骤,直接关系到存储阵列的稳定工作、数据可靠性以及整体性能。我们可以从以下几个方面来深入理解其重要性:1. 消除初始电荷不匹配,确保一致性: 存.............
  • 回答
    数据库预编译之所以能有效防止SQL注入,关键在于它将SQL语句的结构和要处理的数据分离开来,从根本上切断了注入攻击利用数据来改变SQL语句逻辑的途径。咱们先不谈什么“AI撰写”,就拿咱们平时做事情来说,假设你要给一个朋友写一封信,信的内容是“你好,[朋友的名字]”。这个“朋友的名字”是你后来想好填进.............
  • 回答
    要判断一个预判成真的可能性,我们首先需要仔细审视这个预判本身。它究竟指向的是什么?是技术发展的大方向,是社会行为的某种倾向,还是某个具体事件的发生?预判的“粒度”越细、越具体,对其成真的判断就越困难,因为需要考量的变量就越多。举个例子,如果预判是“未来人工智能将深刻改变人类生活”,那么这个预判的可能.............
  • 回答
    想抓住苍蝇?这可不是一件容易的事,它们可是飞行界的“捣蛋鬼”,动作鬼魅,让人捉摸不透。想预判它们的走位,与其说是猜测,不如说是观察和理解它们的行为逻辑。咱们就来聊聊,怎么才能摸清这些小家伙的“套路”。首先,得明白苍蝇为啥这么“神出鬼没”。苍蝇的飞行能力和感官系统是它们能如此灵活的关键。 视觉: .............
  • 回答
    想要在股市里赚钱,谁都想成为那个能提前预判涨跌的“股神”。不过说实话,对于散户来说,想要准确预判股市涨跌,这条路其实比想象中要难得多,也更复杂。不存在什么“一招鲜吃遍天”的万能秘籍,但确实有一些经过实践检验,相对靠谱的方法,关键在于你怎么去运用和理解它们。咱们就来聊聊,散户可以尝试的,相对比较靠谱的.............
  • 回答
    .......
  • 回答
    2022年卡塔尔世界杯欧洲区预选赛附加赛决赛,葡萄牙主场2:0战胜北马其顿,成功拿到了一张通往世界杯的门票。这场比赛,C罗贡献了关键的助攻,为球队的胜利立下了汗马功劳。赛前形势与舆论压力对于葡萄牙来说,这场附加赛的压力无疑是巨大的。作为欧洲足坛的传统强队,而且拥有C罗这样一位传奇球星,未能直接晋级世.............
  • 回答
    收到,我将为你详细阐述在法学毕业论文预答辩后、正式交稿前出现新的司法解释,并且该解释恰好解决了你论文核心问题的几种可能情况,并分析应对之道,同时努力让文字自然流畅,避免AI痕迹。想象一下,你花了无数个日夜,查阅文献,梳理逻辑,终于在预答辩的场合,将自己对某个法律问题的研究成果,小心翼翼地呈现在导师和.............
  • 回答
    许多开发者在构建 Progressive Web App (PWA) 时,都希望用户能够像安装原生应用一样,在设备上“预先”拥有 PWA,而无需用户主动点击“添加到主屏幕”或类似的提示。这种体验被称为 PWA 的预安装,虽然它不像原生应用那样可以完全独立于浏览器在商店中展示,但我们依然可以通过一些策.............
  • 回答
    BioRxiv 和其他预印本平台的出现,无疑为科研界带来了一场深刻的变革,其影响是多方面且复杂的。它们打破了传统学术出版的某些藩篱,重塑了科研信息的传播方式、同行评审的生态,甚至对科研人员的职业发展和科研的整体进展都产生了显著的推力。1. 加速科研成果的传播和知识共享:这是预印本平台最直接、最显著的.............
  • 回答
    评价电影《天气预爆》是一件挺有意思的事儿,因为它算是个挺“非主流”的国产喜剧片。要说它好在哪儿,坏在哪儿,那可得掰开了揉碎了聊。先说说它“敢”在哪儿,也是它最吸引人的地方: 题材的突破和想象力: 《天气预爆》最让人眼前一亮的地方就是它“硬核”的科幻设定。一个普通人意外获得了控制天气的能力,还因此.............
  • 回答
    华南师范大学预聘制:一种值得深入了解的职业探索之路在大学校园里,我们常常听到“教授”、“副教授”、“讲师”这些职称,它们代表着一个学者在学术上的积累和地位。但近年来,一种被称为“预聘制”的用人方式,在华南师范大学,乃至全国的许多高校中,逐渐显露头角,成为吸引和培养青年学者的一股新力量。那么,华南师大.............
  • 回答
    您好!这是一个非常现实且重要的职业选择,我们来好好梳理一下。看得出来您目前在学术的道路上,正面临一个关键的十字路口。一边是“末流211”预聘讲师,另一边是“华五院士团队”博后,这两种选择代表了不同的发展路径和潜在回报。我会尽量详细地分析,帮您权衡其中的利弊,让您能更清晰地做出决定。首先,我们把这两个.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有