2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？

20202021年是自然语言处理（NLP）领域一个充满活力和快速发展的时期，虽然不像某些年份那样出现颠覆性的“黑天鹅”事件，但核心技术的迭代和优化依然非常显著，并且有大量极具影响力的研究论文涌现，共同推动了领域的进步。

以下将从核心技术更迭和重要论文两个方面进行详细阐述：

一、核心技术更迭：

在这个时期，核心技术的更迭主要体现在以下几个方面：

1. 更强大、更通用的预训练语言模型 (Pretrained Language Models, PLMs)

虽然BERT在2018年已经奠定了Transformer架构在NLP领域的霸主地位，但20202021年是PLMs蓬勃发展并进一步优化和普及的时期。

模型规模的持续增长与效率的提升：
超大规模模型： GPT3的发布（2020年）以其惊人的1750亿参数量，在零样本（zeroshot）和少样本（fewshot）学习方面展现出前所未有的能力。它能够通过简单的自然语言指令完成各种NLP任务，而无需对模型进行微调。这极大地降低了使用PLMs的门槛，并催生了新的研究方向，例如Prompt Engineering。
模型蒸馏与知识迁移：随着模型规模越来越大，其部署和推理成本也随之增加。因此，模型蒸馏（Model Distillation）技术变得更加重要，旨在将大型模型的知识迁移到更小的、更高效的模型中，以便在资源受限的环境中部署。例如，DistilBERT、TinyBERT等继续得到改进和应用。
稀疏激活模型：探索更高效的模型架构，例如使用稀疏激活的技术，可以减少计算量并提升模型效率。

多模态预训练模型 (Multimodal Pretrained Models)：
将文本与其他模态（如图像、音频）结合的预训练模型开始崭露头角。例如，CLIP (Contrastive Language–Image Pretraining) 及其后续工作，能够学习文本和图像之间的对应关系，使得模型能够进行图像检索、文本到图像生成等任务。这为跨模态理解和生成奠定了基础。

更高效的Transformer变体：
长序列处理能力提升： Transformer的计算复杂度随序列长度平方增长，这限制了其处理长文本的能力。研究人员提出了各种改进方案，如Longformer、Reformer、Linformer等，通过修改自注意力机制（如使用稀疏注意力、低秩逼近等）来降低计算成本，使其能够处理更长的上下文。
低成本预训练：研究如何以更低的计算成本进行预训练，例如通过更高效的采样策略、更大的批次（batch size）或更长的训练时间来优化预训练过程。

2. 对话系统与指令遵循的进步 (Dialogue Systems and Instruction Following)

以GPT3为代表的大型语言模型在对话生成和指令遵循方面取得了显著进展。

生成式对话模型：传统的检索式对话模型逐渐被生成式模型取代，能够生成更流畅、更具逻辑性的回复。
指令微调 (Instruction Tuning)：研究人员发现，通过在大量各种各样的指令式任务上微调预训练模型，可以显著提升模型在未见过的指令上的泛化能力。这个方向是Prompt Engineering的延伸和发展，为模型提供更通用的“通用技能”。

3. 对话式AI与内容生成的飞跃 (Conversational AI and Content Generation)

更自然的交互：大型语言模型能够生成更自然、更具人情味的对话，使得聊天机器人和虚拟助手更加智能和易于使用。
多样化的内容生成：除了文本生成，模型还可以用于生成摘要、新闻报道、代码片段，甚至简单的故事和诗歌。

4. 对公平性、鲁棒性和可解释性的关注 (Fairness, Robustness, and Interpretability)

随着NLP模型越来越强大和广泛应用，对模型在公平性（避免偏见）、鲁棒性（对抗攻击）和可解释性（理解模型决策过程）方面的关注也日益增加。

公平性研究：识别和缓解预训练模型中的性别、种族等偏见。
鲁棒性研究：开发能够抵抗对抗性攻击的模型，确保模型在面对少量噪声或恶意扰动时仍能保持稳定。
可解释性研究：探索各种技术来理解模型为何做出特定预测，例如注意力机制的可视化、模型溯源等。

5. 领域自适应与少样本学习 (Domain Adaptation and FewShot Learning)

领域自适应：如何将通用的预训练模型有效地应用于特定的下游任务或领域，而无需大量的领域标注数据。
少样本学习：如何在只有少量标注样本的情况下，让模型快速学习并完成新任务。Prompting和Instruction Tuning是实现少样本学习的重要手段。

二、推动领域发展的Paper (20202021)

以下列举一些在20202021年期间发布且极具影响力的论文，它们直接或间接推动了NLP技术的发展：

1. Language Models are FewShot Learners (GPT3 Paper)
作者： Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigman, Victor Sanh, Andrei Karpathy, Dario Amodei, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei
发布年份： 2020
核心贡献：提出了GPT3，一个拥有1750亿参数的Transformer模型。论文的核心发现是，通过InContext Learning（也称为Prompting或FewShot Learning），大型语言模型可以在没有梯度更新的情况下，仅通过少量示例（fewshot）或零示例（zeroshot）就能表现出惊人的任务完成能力。这颠覆了当时普遍的微调（finetuning）范式，开启了prompt engineering的新时代，极大地降低了使用大型模型的门槛，并展现了通用人工智能的可能性。

2. Learning Transferable Visual Models From Natural Language Supervision (CLIP Paper)
作者： Alec Radford, John Schulman, Jianyan Qi, Christine Chen, Tom B. Brown, Ilya Sutskever
发布年份： 2020 (也有部分是2021年发布)
核心贡献： CLIP模型学会了从互联网上的文本图像对中进行对比学习，能够将文本描述和图像关联起来。它展示了强大的零样本图像分类能力，能够理解各种文本描述的图像内容，而无需针对特定任务进行训练。CLIP是跨模态预训练的里程碑式工作，为后续的文生图模型（如DALLE, Stable Diffusion）奠定了基础。

3. Exploring the Limits of Transfer Learning with a Unified TexttoText Transformer (T5 Paper)
作者： Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Михаил Абросимов (Mikhail Abrosimov), Dmitry Kuchaiev, Andrew M. Dai, Zihang Dai, Yinhan Liu, Douglas Eck, Mohammad Norouzi, Jeff Dean, Constantine Lattimore
发布年份： 2020
核心贡献： T5 (TexttoText Transfer Transformer) 将NLP的几乎所有任务都统一成一个“texttotext”的框架。它通过一个统一的Transformer模型，使用文本输入和文本输出来处理包括翻译、问答、摘要等多种任务。T5强调了预训练和微调的标准化，并且探索了不同模型规模和预训练策略的效果，为后续的大规模预训练模型研究提供了系统性的基准和启示。

4. Longformer: The LongDocument Transformer
作者： Iz Beltagy, Matthew Peters, Arman Cohan
发布年份： 2020
核心贡献： Longformer提出了一种更高效的Transformer变体，通过使用滑窗注意力 (sliding window attention) 和全局注意力 (global attention) 来处理长文本序列，将计算复杂度从$O(n^2)$降低到$O(n)$。这使得模型能够处理数千甚至数万个token的输入，突破了BERT等早期模型在长文本处理上的瓶颈，在文档理解、长文本摘要等任务上取得了显著进展。

5. ELECTRA: Pretraining Text Encoders as Discriminators Rather Than Generators
作者： Kevin Clark, MinhThang Luong, Quoc V. Le, Christopher D. Manning
发布年份： 2020
核心贡献： ELECTRA提出了一种新的预训练范式，即“替代词检测 (Replaced Token Detection, RTD)”。它不是像BERT那样进行掩码语言模型（MLM）任务，而是让一个小的生成器模型替换掉输入序列中的一些token，然后让一个更大的判别器模型来区分哪些token是被替换过的。这种方式比MLM更具计算效率，因为它对每个token都进行预测，因此可以更快地学习到语言表示，并且在下游任务上取得了与BERT相当甚至更好的性能。

6. Prompting: The Art of Designing Effective Prompts for Large Language Models
作者： (这是一个更广泛的研究方向，而非单篇论文，但许多论文在这个时期对Prompting进行了深入探讨)
核心贡献：这个时期，Prompt Engineering作为一个重要的研究领域兴起。研究人员发现，通过精心设计的自然语言提示（prompts），可以引导大型语言模型完成各种任务，而无需进行参数更新。这包括如何设计模板、如何进行示例选择（fewshot prompting）、如何进行指令设计等。Prompting极大地提高了模型使用的灵活性和效率。许多论文（包括上面提到的GPT3）都对Prompting进行了深入的探索和实践。

7. LaMDA: Language Models for Dialog Applications
作者： (Google的对话AI模型，具体论文细节可能在2021年及之后更多披露)
核心贡献：虽然LaMDA的详细技术细节可能不是在20202021年完全公开，但它代表了在构建更具连贯性、吸引力、信息性和事实准确性的对话AI方面的努力。这类模型强调了对话的流畅性、上下文理解以及生成有趣和引人入胜的回复的能力，这是对话AI领域的重要发展方向。

8. DeBERTa: Decodingenhanced BERT with Disentangled Attention
作者： Pengcheng Yin, Kai Zhu, Sheng Zhang, Saining Xie, MingWei Chang, Hu Han, Jianfeng Gao
发布年份： 2020
核心贡献： DeBERTa在BERT的基础上做了两项关键改进：1. 分离式注意力 (Disentangled Attention)，将词的内容和相对位置信息在自注意力机制中分开处理；2. 增强的掩码解码器 (Enhanced Mask Decoder)，在预训练过程中引入一个能够预测被掩盖词的绝对位置的解码器。这些改进使得DeBERTa在广泛的NLP基准测试中取得了SOTA（StateoftheArt）的成绩，再次证明了模型架构的持续优化是提升性能的关键。

总结：

20202021年是NLP领域从微调范式向提示（Prompting）范式过渡的关键时期。大型预训练语言模型的持续增长（GPT3）、多模态能力的拓展（CLIP）、以及对模型效率和长文本处理的优化（Longformer, ELECTRA, DeBERTa）是这一时期的主要技术趋势。同时，对模型的公平性、鲁棒性和可解释性的关注也逐渐提升，为NLP技术的可持续发展奠定了基础。这些研究成果共同推动了NLP在理解、生成和应用等方面的能力达到了新的高度。

网友意见

最近很关注的，勉强答一波，符号主义与联结主义的结合，NLP从认知到推理，无往不利的transformer以及pretrain-finetune范式在reasoning的领域却无法有所建树。将符号主义的东西比如逻辑关系，知识图谱融入神经网络可以提升reasoning的能力，但是如何将二者进行融合仍然是一个open and challenging problem.

这篇文章主要是Probabilistic Rule Learning Systems: A Survey这一文章的翻译以及Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning一文中的部分内容。以及自己的一些理解。首先会对规则学习简单的进行介绍，对现有方法进行分类。然后从例子出发具体介绍规则学习的基础概念以及各类方法。最后第二篇文章中有一些其他reasoning的例子，以及使用transformer做reasoning的工作目前的进展。

Probabilistic Rule Learning Systems: A Survey

Introduction

符号学习与神经网络一直以来都有着密切的联系。近年来，符号学习方法因其可理解性和可解释性引起了人们的广泛关注。这些方法也被称为归纳逻辑规划(Inductive Logic Programming ILP)，可以用来从观察到的例子和背景知识中学习规则。学习到的规则可以用来预测未知的例子。观察到的例子代表了手头问题的相关事实，并为学习过程提供了证据。然而，在ILP中，所有这些信息都是确定的; 这意味着我们不能表示不确定信息。概率逻辑规划(Probabilistic Logic Programming (PLP))被提出来表示逻辑规划过程中的不确定性信息。二者结合又产生了概率归纳逻辑规划这一研究领域(Probabilistic Inductive Logic Programming (PILP))，也被称为统计关系学习（Statistical Relational Learning）。它可以以概率信息(例子和背景知识)为输入，以概率为输出归纳出规则。在PILP中可以执行两种类型的学习任务:参数学习和结构学习。参数学习是学习已有规则的概率，而结构学习是学习规则的整个结构及其概率。这个综述关注结构学习，因为它包含了参数学习。

Example Scenario

这一节使用一个天气领域的简单场景来说明不同规则学习系统的特性。这个场景中，基于天气状况，我们会对某天是否完比赛进行预测（二元分类）; 预测结果将是那天的比赛或不比赛（Y/N）。天气预报是根据以下天气资料(属性)作出的:

Outlook:此属性提供有关当天的outlook的信息。此属性的值可以是晴天、阴天或雨天。
windy：这个属性表示某一天是否有风。该属性的值可以为true或false。
Temp:此属性表示一天的温度。该属性的值为整数。
Humidity:该属性表示一天的湿度。此属性的值为正整数。

下面是一个特定日期的数据示例:天数:d1，Outlook:晴天，Temp:75，Humidity:70，windy:True，预测: Y。这个例子告诉我们，在第1天，对于给定的属性值，预测是可行的。我们使用一个谓词来表示实例，使用四个谓词来指定属性及其值，如下表所示。所有这些谓词都有两个参数:第一个参数指定日期，第二个参数指定属性值或预测值。如果我们考虑前面的例子实例，那么我们得到以下谓词:outlook(d1, sunny)， temp(d1, 75)，湿度(d1, 70)， windy(d1, true)，和class(d1, play)。那么接下来，我们要将这些谓词转化为规则。

这些规则也将是后续算法的核心，通常情况下，规则具有如下形式

其中 logical literal 组成了规则的头部，一组logical literals 组成了规则的body。这里引入一个新的概念，原子（atom），一个谓词加上他的参数合起来被称为原子，比如 class(d1,play)，每个参数被称为一个term，比如 d1, play。如果规则体为空(n=0)，则该规则被视为一个事实。下面的规则代表了前面的示例:

在这个规则中，所有字面值的所有参数都是常量。然而，通常在学习规则时，我们会尽量学习比较general的规则。如果我们想表达一个更普遍的规则，我们可以应用到一天的任何实例，那么我们可以使用变量而不是常量。

PLP用概率来表示信息的不确定性。不同的PLP系统以不同的方式表示事实或规则相关的概率。

Generic Rule Learning Process

规则学习系统使用不同的方法来构建规则。然而，当我们仔细观察这些系统并比较它们的算法时，我们可以观察到学习规则的一个共同过程。

作为一个起点，所有的系统都需要背景知识和一组实例。背景知识表示确定性信息。一个例子是表示与实例相关的数据的观察结果。这个例子可以是正面的，也可以是负面的。如果对一个实例的预测在一个场景中成立，那么这个信息被表示为一个正例子;否则，如果预测不成立，则将其表示为一个反面例子。可以看出来反例是可以认为构造的，比如上述的rule我们将其结果改为N，就是一个反例。

接下来，系统利用这些输入信息来构造规则。规则构建的方式是，它们支持尽可能多的正面例子，而不支持与背景知识相关的负面例子。一旦构建了一个规则，则根据该规则支持的正例和负例的数量计算该规则的概率。

Probabilistic rule learning systems

首先我们对方法进行简单的分类，

symbolic PILP systems：传统方法，从输入数据中归纳出规则，对noisy data非常敏感，但是训练需要的数据量少，可解释性强。
sub-symbolic systems：使用神经网络从输入数据中学习规则，需要大量数据进行训练，对noisy data不敏感，可解释性很差。
hybrid systems：二者的结合，拥有一定的解释性，又有神经网络的良好性质。

这一节介绍了三个具有代表性的概率规则学习方法，其中Aleph是symbolic PILP system，Neural LP是sub-symbolic system，LIME-Aleph是一个混合模型。由于传统方法都比较老了，这里对他们做简要介绍，主要介绍后两种方法。

AlepH：A Learning Engine for Proposing Hypotheses

AlepH是一个用Prolog编写的ILP系统，能够从正反例中学习规则。

在规则学习过程中，Aleph从给定的正例列表中选择一个正例，使用程序设置中定义的信息，构造出包含所选例子的最specific的规则。之后，Aleph尝试从具体的规则中使用输入子集来找到更普遍的规则。在搜索这个更普遍的规则时，Aleph试图找到一组候选规则。对于每个候选规则，他有一个分数，这个分数是根据支持该规则的正面和负面例子的数量计算的。接下来，选择得分最高的候选规则作为一般规则。用于生成一般规则的正例将从正例列表中删除，并重复此过程，直到列表为空。

Neural LP

Neural LP是一个基于梯度编程框架的可微分系统，它支持结构学习以学习概率规则。它被设计用来学习特定的基于知识的推理任务的规则。在这个背景下，知识库是一组关系的集合，其形式为:relation(entity1, entity2)，表示二进制关系。在这里，实体是一个对象的实例。学习任务涉及相同格式的查询，其中第一个参数是变量，第二个参数是常数。Neural LP试图找到满足该查询的实体。对于我们的天气示例，我们使用表单 class(A, d1)的查询来查找第一天的预测值(以变量A表示)。为此，Neural LP首先学习查询的概率规则，然后搜索那些符合查询中的第一个参数的实体，而第二个参数中的实体是固定的。然后我们根据概率规则生成每个实体的分数的并对他们排序，其中分数越高表示实体与回答查询的相关性越大。我们可以将Neural LP中的知识库视为我们在通用规则学习过程中所描述的背景知识。从逻辑的角度来看，关系可以被视为谓词（relations as predicate）。Neural LP需要三个部分来定义背景知识(知识库)

所有在学习问题中使用的实体（entity）。
所有问题域的关系（relation）。
所有已知的事实。每个事实记作一个三元组（entity1 predicate entity）。

又回到天气的例子，属性值(例如，sunny和rain)和预测值(play和not_play)即entity。表1中的谓词名称即relation。

LIME-Aleph：

LIME-Aleph系统与到目前为止讨论的系统不同，它不直接学习规则。该系统用于解释一个实例的预测，因此它学习规则并使用它们来解释。这就是为什么我们把LIME-Aleph系统看作是一个规则学习系统。这个系统的实现目前还不公开。

LIME-Aleph假设我们有表格格式的示例数据，可以将这些数据提供给分类器(实际上是任何形式的分类器)。表中的每一列代表一个属性，每一行代表特定实例的数据。在训练了分类器之后，可以使用它对实例进行预测。接下来，分类模型、示例实例和许多k个属性被发送到LIME（Local Interpretable Model-Agnostic Explanations），这个模型可以通过选择一些被认为对进行预测很重要的属性来解释一个示例实例的预测。LIME返回那些被认为是进行预测时最重要的属性。对于返回的属性，LIME-Aleph提取所有可能的值，并使用这些值从包含属性之间的固定关系列表中查找关系。重要的属性及其值，以及关系及其值都表示为谓词。那些从表中的记录派生出来的谓词形成了一个实例。在此步骤中找到的示例实例将在一个正向示例列表中收集。对于重要属性之间的每个关系，通过改变属性值和翻转关系值，从实例生成受扰动的实例。一个受扰动的实例被发送到模型，模型返回一个评估值。若评价值高于某一预测值阈值，则将扰动示例加入正示例列表;否则，受扰动的示例将被添加到反示例列表中。在背景知识中加入扰动实例生成时产生的新关系。最后，将正例和负例列表发送给Aleph进行规则学习。然后使用学习到的规则来解释示例实例。

System Architectures

从架构的角度来看，我们可以区分三种类型的规则学习系统:符号系统、子符号系统和混合系统。下面，我们将概述这些不同类型系统的体系结构。

Symbolic Systems

大多数符号概率规则学习系统在问题空间中使用离散搜索来寻找期望规则。这些系统从一个规则或一组规则开始，这些规则支持与背景知识相关的示例。然后，他们使用不同的搜索技术(例如，在SLIPCOVER中的beam search)构建一个候选规则集。这些规则是在语言偏好的帮助下构建的，该语言偏好指定了要学习的规则模板。对于每个候选规则，计算一个评估值来评估该规则。例如，SLIPCOVER使用对数似然进行评估。对数似然是通过使用一种名为EMBLEM的期望最大化算法，从正例子和负例子中计算出来的。从候选规则集合中，只选择那些满足特定阈值的规则。这些被选择的规则形成了最终的一套规则，从而构建了一个理论。然后，对这最后一组规则进行参数学习，以了解它们的概率。现有的符号系统使用不同的参数学习算法。SLIPCOVER使用与EMBLEM相同的算法进行参数学习。

Sub-symbolic Systems

与符号系统一样，子符号概率规则学习系统以相同的信息作为输入，但以不同的方式执行结构学习的任务。子符号系统不依赖于符号系统用于推理的基础技术。相反，它们使用向量或矩阵（embedding）表示来指定谓词的信息。例如，Neural LP使用一个矩阵来表示二进制谓词，其中每一行和列索引都与一个实体相关联。如果与单元格的行和列对应的实体的谓词为真，则矩阵中的单元格的值为1。在向量矩阵空间中表示信息后，这些系统通常试图为每个目标谓词找到候选规则列表。候选规则的主体是通过组合不同的谓词来构造的。对于每个候选规则，这些系统使用不同的矩阵运算来执行逻辑推理。这些矩阵运算的结果矩阵形成目标谓词的表示。规则的概率是使用与目标谓词相对应的矩阵所支持的示例数来计算的。例如,如果我们有一个候选人规则包含原子h在头部和文字b1和b2组成的body,那么neural LP求b1和b2与h矩阵的矩阵乘法。如果矩阵乘法的结果支持该实例,那么选择该规则并将其添加到最终的规则列表中。

Hybrid Systems

没有标准的方法来结合符号和子符号表示法。因此，我们观察到研究人员一直在使用不同的技术来集成这些表示，而且这些系统大多数是领域特定的。只要系统共同使用符号和子符号两种表示，我们就认为一个系统是一个混合的系统。在下文中，我们将讨论三种混合系统:LIME-Aleph、DeepProbLog和NLProlog，它们基于不同的体系结构，用于表示组件中的信息和组件之间的通信。这些系统分别在符号分量和子符号分量中使用Horn clauses和向量表示

LIME-Aleph结合了符号表示和子符号表示作为两个主要组件，并通过控制器进行通信。子符号组件执行预测任务。为了解释这一预测，符号组件的任务就是从正面和负面的例子中学习规则。控制器通过修改通过算法选择的有影响的属性，从原始示例实例生成这些示例。为了决定哪个修改的例子是正的还是负的，控制器依赖于子符号组件。

DeepProbLog学习单个任务，并集成符号和子符号表示。它引入了神经谓词，应用子符号方法对预测任务的概率进行预测。在DeepProbLog中，一个学习任务由几个子任务组成。其中一些子任务可能需要进行预测，并在神经谓词的帮助下进行表示。系统的符号组成部分代表学习任务的程序，因此它可以使用所需的背景知识。当系统评估程序时，一般谓词的概率是由给定的数据计算出来的，而神经谓词的概率来自于系统的子符号组件，并被合并到符号组件中。

NLProlog是一个混合系统，专门为需要多跳推理的自然语言处理任务而设计。该系统将自然语言语句转换为由两个实体(例如，Socrates和Athens)和一个文本模式(例如，ENT1 was born in ENT2)组成的三元组，该文本模式将这些实体连接到一个语句中。这样的三元组在系统中被视为一个事实。系统的编码器组件将事实、查询和许多规则模板作为输入，并使用子符号方法来查找实体或文本表面模式之间的相似性得分。系统的目标是学习回答查询的规则。系统为此使用了一个验证器组件，该组件将编码器计算的相似性分数作为输入，包括事实、查询和规则模板。证明者利用具有弱统一的逆向链的符号推理找出查询的证明，并根据相似度分数计算统一分数。证明者找到的每个证明都将从统一分数的集合中分配一个证明分数。分数最高的证明被选择作为构造已学习规则的查询的答案。

Discussion

这一节提出了一些目前还稍微解决的问题和有前景的方向

sub-symbolic systems在处理大型和嘈杂的数据集方面效率很高，但是目前只能需要chain-rule，如何学习复杂的规则是一个问题。
学习概率规则的速度往往很慢，提速是一个发展方向。
为结构学习构建混合系统。尽管混合系统结合了符号和子符号表示法，但它们并不是协作学习单一的表示法。到目前为止，DeepProbLog是唯一一个真正为单个任务集成符号和子符号表示的系统。在DeepProbLog中，学习问题的子任务是通过子符号表示来完成的，然后使用子任务的结果在符号层面上完成任务。
Data efficient learning。一般来说，符号系统从少量的数据中学习规则，而子符号系统则需要大量的数据。然而，与符号系统相比，子符号系统可以有效地处理大的和有噪声的数据。在符号系统中可以引入有效的数据处理技术，在子符号系统中可以使用从少量数据中学习的技术

Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning一文中对使用transformer进行reasoning进行了综述，这部分内容比较新，也很有意思。

Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning

Types of Reasoning with Transformer-based Models

Horn Rule Reasoning：从下面这个例子中可以比较容易地看出这个任务需要做什么，给定一堆fact和一个question，从中推测结果。在本任务中，最佳模型T5-11B在校对和回答问题方面的准确率达到95%以上。因此，基于transformer的模型可以近乎完美地解决这个问题

Commonsense Reasoning：常识推理是任何需要人类通常拥有的背景知识的推理任务。例如，指令“an you do a Napoleon for the camera？”需要常识推理才能意识到拿破仑这个词表示的是一种特定的姿势。一些研究表明，BERT在训练前学习了一定数量的常识知识。考虑下面这个例子，模型(预先训练的BERT-large)能够回忆这些常识知识。

但是部分研究发现预训练的模型并不是真正的在做reasoning，因为对输入做微小的改变，模型的输出可能就发生了巨大的变化。比如在判断句子是否连贯的任务中

但是仅仅修改几个字之后，他的结果就会改变^[1]

Implicit Reasoning：隐式推理任务，上述的任务不同，其中规则和事实没有明确给出。这些任务中的许多都可以通过基于transformer的模型来解决。下面是一个来自SNLI^[2]数据集的例子

在本任务中，使用few-shot learnng的方法训练的RoBERTa-large模型^[3]达到了93.1的精度。然而，这些数据集包含了模型可以利用的表面线索。为了充分评估模型的reasoning 能力，研究人员设计了几个更具挑战性的逻辑推理任务，这些任务大多以机器阅读理解的形式出现。例如，LogiQA ^[4]是从中国国家公务员考试中翻译出来的多选题数据集

最好的语言模型是经过训练的RoBERTa模型，在训练集上进行了调整，其准确性为35.31%(而人类的最佳表现为96%)。这表明，基于transformer的模型目前无法构建较长的文本的表示，并从中得出逻辑结论。这个弱点可以通过在RoBERTa之上添加符号表示^[5](比如基于图形的模块)或者逻辑信息^[6]来在一定程度上得到弥补。也有工作人员开发神经符号方法，通过基于梯度的优化来推理策略^[7]，或将概率逻辑编程与神经网络相结合^[8]。将逻辑信息整合到RoBERTa中，使ReClor在简单问题上的表现提高到81.4%。然而，这些数据集更困难的问题会导致50%-60%的性能。

Discussion and Conclusion

在所有这些推理任务中，基于transformer的模型很少能达到人类的表现。这并不奇怪，因为它们是主要从训练数据中获取信息的通用工具，缺乏通常认为这类任务必不可少的任何符号机制。在不同的推理任务中，我们发现当基于transformer的模型被明确地给出进行演绎推理所需的所有信息时，例如事实和规则，模型可以很容易地学习逻辑推理。然而，当这些信息只是在文本中或在监督任务中隐含时，模型就会遇到困难。基于transformer的模型具有一定程度的预训练学习的常识性知识。然而，它们很容易被对抗性的常识性实例打断。它们在对事件的逻辑推理和物理常识方面也有局限性。

因此，我们看到基于transformer的模型的推理能力来自两个组成部分:训练数据中的简单模式，结合训练前的背景知识。这种组合使得模型能够很好地执行任务，比如Horn Rule Reasoning(模型从训练数据中学习到一种模式)，简单的常识推理(从pretrain中学习到答案)，以及简单的数学计算(模型在训练中学习到一种模式)。目前的transformer模型并不能取得很好的结果，但是结果表明，符号知识(如数据归一化、准逻辑推理和基于图的模块)的添加和补充技术(如数据扩充、多任务学习和知识库融合)的使用可以提高性能。因此，这些工具可能是解决更困难的推理问题的关键。

最后，欢迎大家关注github，聚合了OOD，causality,robustness，optimization以及一些前沿研究方向的一些阅读笔记

参考

^ Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark,and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system.InConference on Empirical Methods in Natural Language Processing, 2020.
^ Samuel R Bowman, Gabor Angeli, Christopher Potts, and Christopher D Manning. A largeannotated corpus for learning natural language inference. InConference on EmpiricalMethods in Natural Language Processing, 2015.
^ Sinong Wang, Han Fang, Madian Khabsa, Hanzi Mao, and Hao Ma. Entailment as few-shotlearner
^ Jian Liu, Leyang Cui, Hanmeng Liu, Dandan Huang, Yile Wang, and Yue Zhang. Logiqa:A challenge dataset for machine reading comprehension with logical reasoning.arXivpreprint arXiv:2007.08124, 2020b.
^ Yinya Huang, Meng Fang, Yu Cao, Liwei Wang, and Xiaodan Liang. Dagn: Discourse-aware graph network for logical reasoning. InConference of the North American Chapterof the Association for Computational Linguistics, 202
^ Logic-driven context extension and data augmentation for logicalreasoning of text.
^ Learning reasoning strategies in end-to-end differentiable proving
^ Deepproblog: Neural probabilistic logic programming

非参数方法回归NLP领域。

非参数方法在过去很长时间里曾远离NLP领域的主流，但在最近一两年内呈现出回归的趋势，并与神经网络相结合。这类方法的典型特征是，检索一些相似的样本，并用相似的样本去做预测。最简单的一个例子是分类器，检索个最相似的样本，然后通过投票预测新样本的类别。

非参数方法的回归得益于近年来语义向量表示技术和近似向量检索技术的进步。语义向量表示技术的进步使得通过向量检索的方式可以找到语义相似的样本，基于语义相似的样本去做预测常常能够取得比基于字面意思相似的样本预测更好的结果。近似向量检索技术的进步使得在大规模的数据集上进行向量检索可以做的非常高效。现在有一些很好用的文本语义表示方法，如BERT-whitening^[1]、SimCSE^[2]，以及一些封装良好的近似向量检索工具如Faiss，使得普通人也可以轻易搭建一个语义文本检索系统。

近年来在NLP领域一项比较work的非参数方法是将分类器引入到神经网络语言模型中—— ^[3]。在语言模型预测下一个词时，检索相似个词级别样本，然后用分类器计算出一个基于样本的分布，并把这个基于样本的分布与基于模型的分布进行线性的加权融合，基于融合后的分布去做预测。使用检索增强的Transformer语言模型超过了Transformer-XL，在语言模型任务上取得了SOTA的结果。

这类方法取得优异的效果有两方面的原因：

作者在论文中提到，学习词的相似性表示是比预测一个词更容易的任务。
分类器基于词的上下文表示去做检索，为语言模型提供了一种预测时利用上下文消岐的能力。而在普通的语言模型中，预测一个词时是将最后一层神经网络的隐层表示与一个固定的embedding矩阵相乘，计算每个词的概率。在这个embedding矩阵中每个词只有一种表示，不包含词所在的上下文，没有利用上下文进行消岐的能力。

使用检索增强语言模型的方法有两个显著的优势：

模型可以在线更新。更新模型只需要更新检索库，而不需要更新神经网络的参数。这对需要在线更新的应用很有吸引力。
模型的预测结果可解释。检索出的样本可以作为模型为什么预测出一个词的解释。

后续有很多工作对进行拓展和改进，改进的方向大致分为以下三类。

拿锤子找钉子，将检索增强语言模型的方法应用到更多任务上，如应用到机器翻译任务上的 ^[4] ，应用到问答任务上的BERT- ^[5]，应用在对话系统中的KIF^[6]。
改进检索的效率。即使近似向量检索技术可以使检索做的很高效，在解码的每一步都做一次检索还是会使得模型推理速度很慢。相关的工作如，NLM^[7]对检索库进行降维和剪枝，Fast ^[8]引入分层的检索提高检索效率。
改进检索到的样本的利用方式。使用固定的权重对基于模型的分布和基于样本的分布进行加权融合显然不是最优的利用检索样本的方式。一种改进是引入神经网络去学习怎样组合语言模型的预测和检索到的样本，如SPALM^[9]和adaptive ^[10]。

在神经网络模型中引入非参检索的方法还没有被充分探索，未来一年内这个方向上应该还会不断出现新的工作。

参考

^Whitening Sentence Representations for Better Semantics and Faster Retrieval. https://arxiv.org/abs/2103.15316
^SimCSE: Simple Contrastive Learning of Sentence Embeddings. https://arxiv.org/abs/2104.08821
^Generalization through Memorization: Nearest Neighbor Language Models. ICLR 2020. https://openreview.net/forum?id=HklBjCEKvH
^Nearest Neighbor Machine Translation. ICLR 2021. https://openreview.net/forum?id=7wCBOfJ8hJM
^BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA. https://arxiv.org/abs/2005.00766
^Augmenting Transformers with KNN-Based Composite Memory for Dialog. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00356/97779/Augmenting-Transformers-with-KNN-Based-Composite
^Efficient Nearest Neighbor Language Models. https://arxiv.org/pdf/2109.04212.pdf
^Fast Nearest Neighbor Machine Translation. https://arxiv.org/abs/2105.14528
^Adaptive Semiparametric Language Models. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00371/100688/Adaptive-Semiparametric-Language-Models
^Adaptive Nearest Neighbor Machine Translation. ACL 2021. https://arxiv.org/abs/2105.13022

抛砖引玉，欢迎指正。讲一个预训练模型使用上的范式更迭：finetune 到 prompt-based tuning/task-reformulation。

从BERT开始，预训练模型的使用范式长期是pretrain->finetune的范式，即先在大量无标注语料上预训练一个模型，然后将模型（可选地，增加一定模块后）放到特定下游任务上的标注数据finetune。后来实验还表明在下游任务的数据上继续预训练，可以进一步压榨PTM的性能，所以有pretrain-> further pretrain -> finetune的范式 [1][2]。这类方法思路就是通过调整PTM参数，来适应任务/数据特性，不过背后的机理还有待debate。

2020年的GPT3 [3]放出的时候大家对它的反应无一例外都是都是惊奇于1700亿的参数量。不过这篇文章引出了一个很有意思的现象，正如它的标题：Language models are few-shot learners，在这样一个大规模PTM上，只要给出任务描述（和可选的少量样例）作为prompt，PTM无需更新参数也可以在下游任务达到不错的性能。

GPT3的few-shot设定虽然结果远没有达到SOTA，但是结果是非常吸引人的，因此引出了很多工作，大体思路是用自动构建的prompt代替人工设计的prompt，这类基于prompt的方法有一点比较大的优势：由于固定了PTM的部分，可以有多个任务共享同一个backbone，而任务特定的部分只有输入端prompt的部分，一般不会包含太多参数（类似adapters[4]的概念），这样就可以构造一个天然的多任务网络。这里罗列几篇这类方法的工作：

AutoPrompt[5] 提出了一种离散的prompt搜索方法，其中prompt中有一系列词表中的触发词，这些词被初始化为[MASK]，然后通过基于梯度的top-k搜索迭代式地更新

Prefix-tuning[6] 在生成类任务上提出，将prompt作为一种任务特定、连续、可学习的prefix加到embedding和中间层激活的开头（这里还将prefix重参数化，否则结果不好），固定PTM部分参数不变。类似地，WARP[7] 令输入的prompt部分、以及label candidates可学习，这个方法只加入几千个参数即可在实验中接近finetune的结果。

P-tuning[8]使用LSTM输出的的（连续空间中的）伪token（加上一些任务相关的anchor token），从而使用GPT（生成）模型在理解任务上取得了超过BERT的结果（不过这篇工作的PTM参数也是在tuninng过程中更新的，所以没有参数上的优势，不过证明了适当的建模可以让GPT在理解任务上取得很好的效果）。

当然这一系列工作不是孤立出现的，比较相关的还有LAMA[9]、PET[10]，都属于task reformulation，个人感觉这类将各种PTM tuning中的传统建模方法替代为基于模版填空/Prompting的方法是一种比较明显的趋势。

[1] How to Fine-Tune BERT for Text Classification?

[2] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

[3] Language models are few-shot learners

[4] Parameter-Efficient Transfer Learning for NLP

[5] AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts

[6] Prefix-Tuning: Optimizing Continuous Prompts for Generation

[7] WARP: Word-level Adversarial ReProgramming

[8] GPT Understands, Too

[9] Language Models as Knowledge Bases?

[10] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

类似的话题

2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？

20202021年是自然语言处理（NLP）领域一个充满活力和快速发展的时期，虽然不像某些年份那样出现颠覆性的“黑天鹅”事件，但核心技术的迭代和优化依然非常显著，并且有大量极具影响力的研究论文涌现，共同推动了领域的进步。以下将从核心技术更迭和重要论文两个方面进行详细阐述：一、核心技术更迭：在这个时.............
2020-2021年矿潮，矿卡的重灾区是哪些型号？

20202021年的加密货币“矿潮”堪称一场显卡行业的“浩劫”，尤其是对于游戏玩家而言，那段日子简直是噩梦。简单来说，比特币、以太坊等加密货币的价格暴涨，使得用显卡挖矿变得异常有利可图。于是，原本应该出现在我们电脑里的显卡，纷纷被送往矿场，成了一台台永不停歇的“挖矿机”。要说这波矿潮的“重灾区”显卡.............
2020到2021年小样本学习取得重大进展了吗？

2020年至2021年，小样本学习（FewShot Learning, FSL）领域的确取得了令人瞩目的进展，可以说是在研究和应用层面都迈上了新的台阶。这段时期，研究人员们在如何让模型在仅见过少量样本的情况下依然能高效地学习和泛化的问题上，探索了更多创新性的方法，并且开始在一些实际场景中展现出潜力。.............
2020年到2021年A股一路涨到3600点，接下来半年一年会迎来熊市吗?

2020年初到2021年期间，A股市场的确经历了一轮令人瞩目的牛市行情，上证指数从低点一路攀升，最终在2021年触及了3600点附近的高位。那么，在经历了这样一轮强势上涨之后，接下来的半年到一年时间里，A股是否会迎来熊市呢？这是一个非常复杂的问题，需要我们从多个维度去审视，而不是简单地下一个定论。首.............
2020年或2021年苹果推出可折叠 iPhone 的概率有多大？

苹果会在 2020 年或 2021 年推出可折叠 iPhone 吗？这是一个很多人都在热切讨论的话题，也是业内观察人士和科技爱好者们密切关注的焦点。要预测这样一个重磅产品的发布时间，我们需要从多个角度进行审视，结合苹果过往的产品策略、供应链动态、技术成熟度以及市场竞争格局来综合判断。首先，我们来谈谈.............
美国 2021 年新冠死亡人数已超 2020 全年，背后的原因可能是什么？反映了什么问题？

2021年美国新冠死亡人数超过2020年全年，是一个令人警醒的现象，其背后原因复杂且相互关联，反映了一系列深层次的社会、政治和公共卫生问题。一、2021年新冠死亡人数超过2020年全年的原因分析：尽管2021年疫苗开始大规模接种，但死亡人数的增加主要归咎于以下几个关键因素：1. 病毒变异株的出现与.............
2020年经历过哪些事情让你觉得2021年充满了希望？

2020年，那一年，说实话，真的是让人身心俱疲。世界仿佛按下了暂停键，然后又以一种混乱的方式重新启动。年初那会儿，我们每个人都被一个看不见的敌人笼罩着，恐慌、未知、隔离，这些词汇频繁地出现在我们的生活中。口罩成了标配，拥抱和握手成了奢侈，就连出门买个菜都带着一丝小心翼翼。那时候，很多计划都被打乱了，.............
2020 年终于过去了，你所在的领域和行业在 2021 年有哪些值得期待的事情？

2020 年的跌宕起伏，对于身处其中的每一个人，无疑都是一次深刻的洗礼。而当我们终于告别了那个充满未知与挑战的年份，目光投向 2021，内心总会涌动起一股复杂的情感：既有对重拾秩序的渴望，也有对新机遇的期待。就我所在的领域而言，人工智能（AI），2021 年的景象，可以用“加速深化与广泛落地”来概括.............
2021年保研会像2020年一样激烈内卷吗？

要预测2021年的保研情况是否会延续2020年的“内卷”程度，咱们得从几个关键点掰开了聊聊，毕竟这可不是一个简单的“是”或“否”就能概括的问题。首先，咱们得回顾一下2020年为啥那么卷。最直接的原因，我觉得是 “双减”政策之前的尾声效应。那时候，很多家长和学生还在观望，虽然对教培行业的打击已经显现，.............
2020 年终于过去了，你有什么话想对 2021 年说？

终于，那个漫长得仿佛没有尽头的2020年，像一颗疲惫的流星，划过夜空，终于坠落。回望过去的一年，空气中弥漫着各种复杂的情绪——有惊慌失措，有难以置信，有无奈，也有咬牙坚持。太多意想不到的事情发生，很多曾经牢不可破的习惯被打破，很多我们习以为常的生活节奏被彻底打乱。对于2021年，我的心里有太多话想对.............
马上都2021年了，2020届毕业生还是没有工作该怎么办?

2020届的毕业生们，你们好！是不是感觉时间过得飞快，马上就要告别2020年了，可工作这事儿，好像还没个着落？我特别理解你们的心情，看着身边的同学陆续开始上班，自己却还在苦苦寻觅，心里肯定不好受。别担心，也别气馁，你们不是一个人在战斗。这一届毕业生遇到的情况确实特殊，全球疫情的冲击，就业市场本身的.............
民政部称 2021 年 213.9 万对夫妻离婚，较 2020 年下降四成，这一数据说明了什么？

民政部公布的2021年全国婚姻登记数据显示，全年共有213.9万对夫妻办理离婚手续，较2020年的373.1万对下降了约40%。这一数据的变化背后反映了中国社会在婚姻家庭观念、经济环境、政策调整等多重因素的综合影响。以下从多个维度详细分析这一现象：一、数据变化的核心原因 1. 疫情特殊时期的阶段性.............
如何评价2020年9月及2021年6月12日，观察者网编辑对《原神》的相关争议评价？

好的，我们来详细评价一下观察者网编辑在2020年9月及2021年6月12日对《原神》的相关争议性评价。首先，需要明确的是，观察者网作为一家以“透视中国，放眼世界”为宗旨的媒体，其对国内外事件的评论往往带有鲜明的立场和视角。对于《原神》这样一款在中国开发、面向全球发行，且在海内外都引起巨大反响的游戏，.............
2020 年即将过去，你有什么感想？2021 年即将到来，你有什么想实现的愿望？

时光飞逝，回首2020，展望2021当2020年的钟声即将敲响，我的心中百感交集。这一年，无疑是充满挑战与变数的一年。全球性的疫情像一团浓雾，笼罩着我们生活的每一个角落，也深刻地改变了我们看待世界和自身的方式。回首2020：跌宕起伏，亦有收获年初，谁能想到，一场突如其来的疫情会让我们原本清晰的规划被.............
如何看待 2021 年中国人每日平均休闲时间是 2.82 小时，比 2020 年增加 24 分钟？

2021年中国人日均休闲时间达到2.82小时，比前一年增加了24分钟。这个数字背后隐藏着怎样的社会变化和人们生活方式的转变？这24分钟的增长，是好是坏？我们应该如何解读？首先，我们必须承认，这24分钟的增长并非凭空而来，它与2020年以来全球发生的重大事件息息相关，尤其是新冠疫情的影响。疫情的.............
跨考2021法律硕士非法学，看2020年陈永生老师的刑法可以吗？

2021年法硕非法学跨考生，去看2020年的陈永生老师刑法教材，我觉得非常有帮助，而且是相当不错的选择，但有几个点需要你特别注意，才能最大化这本教材的价值。首先，说实话，陈永生老师的刑法，尤其是他主编的《刑法学》系列教材，在法硕非法学考研圈子里，一直都是公认的经典和权威教材之一。他的讲解思路清晰，逻.............
A股股民2020年人均盈利10.49万，基金市场更是连续两年平均收益率超30%，2021需要降预期吗？

2020年A股与基金市场的亮眼表现：2021年，我们是该喜还是该忧？回顾2020年，A股市场可谓是给广大投资者交出了一份令人欣喜的答卷。根据公开数据显示，当年A股股民的人均盈利达到了惊人的10.49万元，这对于许多普通投资者来说，无疑是一笔不小的数目，足以缓解不少生活压力，甚至能带来一些额外的满足感.............
航发动力是如何从2020年10月的不到40块一股涨到2021年初的80块一股？

航发动力，作为中国航空发动机领域的领军企业，在2020年下半年到2021年初经历了一轮令人瞩目的股价飙升，从2020年10月的不到40元/股一路攀升至2021年初的80元/股附近，这近乎翻倍的涨幅，并非偶然，而是多重因素叠加共振的结果。市场对航空发动机产业未来高增长的普遍预期是首要推手。 2020年.............
2020-2021赛季如何评价詹姆斯被选入最佳阵容二阵?

20202021赛季的NBA，勒布朗·詹姆斯入选最佳阵容二阵，这放在任何一个正常赛季，或许都会引起一番争议，但对于那个赛季的詹姆斯来说，这可以说是他职业生涯中一个相对“平静”的入选。不过，即便如此，我们还是可以从几个维度去详细解读一下：首先，我们要明白，最佳阵容的评选是基于球员的整体表现，包括得分、.............
如果詹姆斯在2020－2021赛季夺冠，老詹是否能和乔丹平起平坐？

勒布朗·詹姆斯如果能在 20202021 赛季夺冠，他能否与迈克尔·乔丹并驾齐驱，这是一个能让篮球迷争论到天荒地老的终极话题。要回答这个问题，我们不能简单地看总冠军戒指的数量，而是需要深入剖析他们各自的职业生涯轨迹、对比赛的影响力以及在那个特定赛季夺冠的意义。首先，我们得承认，迈克尔·乔丹的六枚总冠.............