如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？

NLP领域Prompt的火爆及其在CV领域的借鉴潜力

最近，自然语言处理（NLP）领域确实被一个叫做“Prompt”的概念所“点燃”。这个词语的流行不仅仅是因为它本身听起来颇有科技感，更重要的是它代表了一种全新的与大型预训练语言模型（LLM）交互的范式，并且展现出了惊人的能力和灵活性。

NLP领域Prompt的火爆原因：

要理解Prompt为何如此火爆，我们需要先了解它在NLP中的具体含义和价值：

1. 什么是Prompt？
核心概念： Prompt（提示）是指一种引导性文本输入，用户通过这种文本来指导大型预训练语言模型（LLM）完成特定的任务。它不仅仅是简单的指令，更是一种精心设计的“语境”或“问题”，能够激活模型预先学习到的海量知识和能力。
与传统NLP任务的区别：传统的NLP任务通常需要针对每个具体任务（如文本分类、命名实体识别、机器翻译）进行模型微调（finetuning），这意味着需要准备大量的标注数据并重新训练模型。而Prompting则试图在零样本（zeroshot）或少样本（fewshot）的情况下，直接让预训练模型完成任务，无需或只需极少的任务特定数据。

2. Prompt的组成与技巧：
指令（Instruction）：清晰地告诉模型要做什么。例如：“请翻译以下句子为中文：”，或“请总结以下文章：”。
上下文（Context）：提供与任务相关的背景信息。例如，在问答任务中，提供一段包含答案的文本；在情感分析中，提供需要分析的评论。
示例（Examples）：提供一到几个输入输出对，让模型学习任务的模式。这是少样本学习的核心。例如，在情感分析中，可以给出“这句话很棒，是正面的。”，“这家店很糟糕，是负面的。”，然后让模型分析新的句子。
输出格式（Output Format）：指导模型以何种格式输出结果。例如，“请以JSON格式输出。”，“请列出要点。”

3. Prompting的价值与优势：
强大的泛化能力： LLM通过在海量文本上进行预训练，学习到了丰富的语言知识和世界常识。Prompting能够有效地激活这些知识，使模型在各种未见过但与预训练数据相似的任务上表现出色。
无需或极少微调：这是Prompting最大的吸引力之一。对于许多新颖的任务，如果能通过精心设计的Prompt实现，就可以大大节省数据收集、标注和模型训练的时间和成本。
灵活性和可解释性（一定程度上）：用户可以通过改变Prompt来快速尝试不同的任务和策略，并且相对容易理解Prompt是如何影响模型行为的。
“涌现能力”（Emergent Abilities）：随着模型规模的增大，一些在小模型上不明显的能力，如推理、逻辑遵循等，会在大模型上“涌现”。Prompting是释放这些能力的关键。
用户友好性：相较于需要编程和模型训练的微调，Prompting更像是一种“对话式”的交互方式，降低了使用先进AI模型的门槛。

4. Prompting的常见应用场景（NLP）：
文本生成：续写故事、写诗、写代码、生成文章摘要。
问答系统：根据提供的文本或知识库回答问题。
文本分类：情感分析、主题分类、意图识别。
翻译：语言之间的文本翻译。
信息提取：提取文本中的特定实体、关系或事件。
对话系统：驱动更自然、更有上下文的聊天机器人。

Prompt能否借鉴到CV领域？答案是肯定的，而且已经在发生！

虽然NLP和CV处理的数据类型（文本 vs. 图像/视频）存在根本差异，但Prompting的核心思想——通过引导性输入来激活预训练模型的能力——完全可以被借鉴和应用于计算机视觉（CV）领域。CV领域已经出现了类似Prompting的概念和技术，它们通常被冠以不同的名称，但本质上是相似的。

借鉴思路与实践：

将Prompting的理念迁移到CV领域，需要解决的核心问题是如何将“文本提示”转化为能够被视觉模型理解的“视觉提示”。这可以通过以下几种方式实现：

1. 文本引导的视觉生成（TexttoImage）：
代表技术： DALLE 2, Midjourney, Stable Diffusion, Imagen。
Prompt形式：用户输入一段描述性的文本，模型根据文本生成与之匹配的图像。这正是Prompting在CV中最直观的应用。
背后机制：通常结合了Transformer（用于理解文本Prompt）和扩散模型（用于图像生成）。文本Prompt被编码成一个条件向量，引导扩散模型逐步生成图像。
灵活性：用户可以通过修改文本描述（如风格、物体、场景、颜色、构图等）来精确控制生成图像。

2. 视觉任务的文本条件化（TextConditioned Vision Tasks）：
通用目标：让预训练的视觉模型在执行特定任务（如图像分类、目标检测、分割、问答）时，能够响应文本指令。
核心挑战：如何将文本信息有效地融入到视觉模型的处理流程中。
常见方法：
文本编码器 + 视觉编码器 + 联合训练（如CLIP）： CLIP（Contrastive Language–Image Pretraining）是这一领域的里程碑。它通过对比学习，让文本编码器和视觉编码器学习到对齐的表征空间。
CLIP Prompting：对于图像分类，可以将类别名称本身作为Prompt，然后计算图像与文本Prompt的相似度。例如，要识别一张猫的图片，可以用“一张猫的照片”作为文本Prompt。更高级的Prompt可以加入更多上下文，如“一张猫在草地上玩耍的照片”。
ZeroShot / FewShot Classification： CLIP的文本条件化能力使得在没有大量标注数据的情况下，进行图像分类成为可能。用户只需提供类别的文本描述。
基于Transformer的视觉模型（Vision Transformer, ViT 等）与文本Prompt的结合：
Prompt Tuning for Vision Models：类似于NLP中的Prompt Tuning，可以在冻结的预训练视觉模型前添加少量可学习的“软Prompt”（连续向量）。这些软Prompt通过文本描述的Embedding进行初始化或更新，用来引导模型执行特定任务。
示例：对于一个目标检测模型，我们可以设计一个Prompt：“在图片中找到[物体类别]”。这个Prompt的文本Embedding会被转换成连续向量，与图像的特征拼接或进行其他交互，以指导检测过程。
任务指令的融入：直接将任务指令（如“分割出所有行人”，“识别图片中的所有汽车”）以文本形式输入给模型，模型通过内部机制（如注意力机制）来理解并执行该指令。

3. 图像作为Prompt（Image Prompting in Vision）：
概念：使用一张或多张图像作为“示例”或“参考”，来指导模型完成任务。这类似于NLP中的少样本学习。
应用场景：
风格迁移：用一张艺术风格的图片作为Prompt，将内容图片转化为该风格。
图像编辑/修复：用一张“良好”的图像作为参考，指导模型修复损坏的区域。
FewShot 图像识别/检测：提供几张目标类别的图片，让模型识别或检测更多同类别的目标。
视觉问答（Visual Question Answering, VQA）：除了文本问题，还可以提供与问题相关的参考图像。

4. 多模态融合的Prompting：
概念：结合文本、图像、甚至音频等多种模态的Prompt来共同指导模型。
示例： “请在图像中找出与这段描述匹配的区域，并用红色框标记出来。”这里结合了图像内容、文本描述和明确的指令。

CV领域借鉴Prompting的潜在优势：

极大的灵活性和泛化能力：用户可以通过自然语言指令，快速地让预训练的CV模型适应各种新颖的任务，而无需重新训练。
降低CV模型的应用门槛：使得非专业用户也能通过简单的文本描述来控制复杂的视觉AI模型。
提升模型的可控性和可解释性：文本Prompt能更直观地描述用户的意图，有助于理解模型行为。
实现高效的零样本和少样本CV任务：尤其是在数据稀缺的场景下，Prompting可以成为强大的解决方案。
促进多模态理解和生成：文本与视觉的结合，能够更深刻地理解世界，并生成更具信息量的视觉内容。

当前CV领域Prompting的挑战：

Prompt的“有效性”和“鲁棒性”：如何设计出既能有效引导模型，又对微小变化不敏感的Prompt是一个持续的研究课题。
文本到视觉的语义对齐：确保文本描述的细微之处能够被模型准确地映射到视觉特征上，仍然是一个挑战。
计算效率：一些基于Transformer的视觉模型结合文本Prompt的计算量可能较大。
Prompt工程（Prompt Engineering）的难度：虽然降低了门槛，但要获得最优效果，仍然需要一定的技巧和对模型的理解。
“幻觉”问题：视觉模型也可能产生与Prompt不符，甚至完全虚构的内容。

总结

NLP领域的Prompt火爆，是因为它为与强大的预训练模型交互提供了一种革命性的方式，使得模型的能力更加普适和易用。

这种“提示式”的交互范式，完全可以也正在被借鉴到CV领域。从文本到图像的生成，到各种下游视觉任务的条件化，再到多模态的融合应用，我们已经看到了Prompting在CV领域巨大的潜力和正在发生的变革。未来，随着更大、更强的视觉模型和多模态模型的出现，以及Prompting技术本身的不断演进，Prompting将在CV领域扮演越来越核心的角色，重塑我们与视觉AI互动的方式。这不仅仅是技术的进步，更是AI能力的一次飞跃和普及。

网友意见

最近NLP领域提出了Prompt新范式，企图革新原先的Fine-tuning方法，而在CV领域中，Prompt其实可以理解为图像label的设计，从这个角度看，Prompt(预测文本中mask的字符，类似完形填空)其实是介于Image caption(迭代预测出每一个字符)和one-hot label(one-hot可以认为是prompt的特例，单字符通过text encoder编码成one-hot)之间的任务。最近在Visual-Language Model(缩写VLM)任务中，prompt开始展现出强大的能力。

本文首先介绍一下prompt和fine-tuning范式本质上有什么区别，然后介绍一下NLP中基于prompt的PET和AutoPrompt方法，最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。

另外，CLIP和CoOp都是基于prompt的判别式VLM方法，最近还有几篇基于prompt生成式VLM方法，基于prompt的生成式VLM和基于prompt的NLP方法非常类似，本文就不展开细讲了，放一下文章链接

Unifying Vision-and-Language Tasks via Text Generation

Multimodal Few-Shot Learning with Frozen Language Models

Prompt vs Fine-tuning

(引用刘鹏飞大佬的原话刘鹏飞：近代自然语言处理技术发展的“第四范式”)

图中，圆形表示预训练语言模型，矩形框表示的是各种下游NLP任务。那么，我们就有这样一句话：大家都是希望让预训练语言模型和下游任务靠的更近，只是实现的方式不一样。

Fine-tuning中：是预训练语言模型“迁就“各种下游任务。具体体现就是上面提到的通过引入各种辅助任务loss，将其添加到预训练模型中，然后继续pre-training，以便让其更加适配下游任务。总之，这个过程中，预训练语言模型做出了更多的牺牲。

Prompting中，是各种下游任务“迁就“预训练语言模型。具体体现也是上面介绍的，我们需要对不同任务进行重构，使得它达到适配预训练语言模型的效果。总之，这个过程中，是下游任务做出了更多的牺牲。

下面讲一下NLP中的两个前置工作PET和AutoPrompt，这两个工作对于Visual-Language Model任务的启发是非常大的。

PET

PET是第一个将prompt训练的语言模型应用到下游任务的方法，并且把prompt范式规范化，给后续prompt范式的研究提供了示范。

PET的设计流程如下：

1.预先设置多种prompt，其中包含需要预测的文字(比如上图中的Best pizza ever! It was ___.其中It was就是预先设置的prompt，可以替换成其他的prompt)，然后将多种prompt送入不同的PLM模型中进行训练，最终得到多个PET模型。

2.将需要预测的文本送入多个PET模型中进行推理，综合多个PET模型结果得到soft label。

3.把需要预测的文本和soft label放到分类器中进行训练，得到最终的文本分类模型。

AutoPrompt

PET构建的prompt是人为设计的，这可能会导致设计的prompt不够合理。AutoPrompt提出在构建prompt时通过网络自动化学习出Trigger Tokens [T] [T] [T] [T] [T]，优化目标是加入合适的token之后，预测结果越来越倾向于正确结果(比如上图中，token为atmosphere alot dialogue clone totally时，positive的概率越高)。

CLIP

OpenAI从网络收集了4亿数据量的图片文本对用于CLIP训练，最后进行zero-shot transfer到下游任务达到了非常好的效果(关于zero-shot learning可以看我之前的文章ViLD：超越Supervised的Zero-Shot检测器)。

简单回顾一下CLIP的使用流程：

1.如图(1)所示，CLIP将一批文本通过Text Encoder编码成一批word embedding，将一批图片(与文本一一对应)通过Image Encoder编码成一批feature embedding，然后将对应的word embedding和feature embedding先归一化然后进行点积得到相似度矩阵，点积数值越大，代表word embedding和feature embedding的向量越相似，这里的监督信号就是矩阵对角线为1，其余位置为0。其中Text Encoder使用的是Transformer，而Image Encoder使用ResNet50和ViT两种架构其中一个，Image Encoder和Text Encoder都是从头训练。

2.然后将预训练好的CLIP迁移到下游任务，如图(2)所示，先将下游任务的标签构建为一批带标签的文本(例如 A photo of a {plane})，然后经过Text Encoder编码成一批相应的word embedding。

3.最后将没有见过的图片进行zero-shot预测，如图(3)所示，通过Image Encoder将一张小狗的图片编码成一个feature embedding，然后跟(2)编码的一批word embedding先归一化然后进行点积，最后得到的logits中数值最大的位置对应的标签即为最终预测结果。

从CLIP的流程中可以看出，CLIP和PET的prompt使用方式非常相似，A photo of a就是一个人为设计的prompt。

CoOp

CoOp明显是受到了AutoPrompt的启发，并且CoOp发现CLIP实际上就是prompt在visual-language model中的一个应用，于是CoOp在CLIP的基础上进一步进行改进。

CoOp先在四个数据集上做实验，发现更合理的prompt能够大幅度的提升分类精度尤其是使用了本文提出的CoOp之后，最终的分类精度远超CLIP人为设计的prompt。

和CLIP的主要不同之处在于，CoOp在CLIP的第二个阶段中引入了context optimization。具体的，CoOp将prompt设计为：

其中每个向量跟word embedding的维度相同，可以理解为可学习的context，并且所有类别对应的context共享参数。

将learnable context和不同类别的word embedding拼接起来送入text encoder中进行训练，优化目标是使得和图片对应的prompt预测分数最大。训练完成后，learnable context的参数就固定下来了。

Other Variants

作者还尝试了两种变体：

一种是prompt可以在需要预测的class前后都插入learnable context，这可以增加prompt的灵活性。

另一种是设计class-specific context(CSC)，也就是所有类别的prompt参数独立，在一些细粒度分类任务中效果更好。

CoOp vs CLIP

从11个数据集的实验中可以看出，CoOp均超过了CLIP，并且在一些数据集上，大幅度超过CLIP。证明了可学习的prompt优于人为设计的prompt。CoOp提出的两种变体，在一些数据集中效果更好。

CoOp vs Prompt Ensembling

将CoOp和PET中提出的Prompt ensembling进行比较，CoOp也展现出了优越性。

CoOp的影响因素

从上面的实验中可以看出，CoOp对于噪声的鲁棒性优于CLIP。

从上面的实验中可以看出，context length长度越长，CoOp效果越好；backbone模型越大，CoOp效果越好。

Random vs. manual initialization

这个对比实验相当的精髓，也就是说learnable context的初始化prompt是什么没那么重要，随机初始化就能达到精调初始化相当的精度。

总结

因为CoOp是class-level的自适应，不能根据输入图片的不同动态变化prompt，如果能够根据输入图片动态调整prompt的话，也就是instance-level的自适应，可能会有奇效。learnable context的作用类似于去噪，让网络拟合噪声，使得预测部分的关注区域更为干净。感觉learnable context和DETR中的object query的功能非常相似，都是任意学习出信息，只根据最后的监督信号更新参数。后续可以挖掘一下如何控制learnable context的学习，来提升基于prompt的VLM性能。生成式的VLM也可以探索一下如何设计prompt更合理。

另外就是纯CV方向的prompt，也就是类似于ViT将图片拆分patch，每个patch实际上可以看成一个字符，那么也可以设计patch的prompt对模型进行训练，这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。

Reference

[1] 刘鹏飞：近代自然语言处理技术发展的“第四范式”

[2] Timothyxxx：2021年，Pre-train+finetune还是“新”范式吗？乘风破浪的Prompt-base methods

[3] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

[4] AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts

[5] Learning Transferable Visual Models From Natural Language Supervision

[6] LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS

欢迎关注 Smarter ，构建CV世界观

欢迎加入Smarter交流群，添加微信「cjy094617」，备注「学校-方向」即可

对这个问题非常关注，感觉prompt和andrew ng最近提出来的data-centric可能有一些微妙的联系。就目前来看，continuous prompt是最有可能transfer到CV领域的一系列工作。最近transformer准备大一统CV,nlp，将image输入转化为patch的形式也更方便了我们借鉴NLP的方法学习prompt。

然而，知乎都想到了别人会想不到呢，虽然最近也有一些多模态任务用了prompt，但是大多数也是调token，对image反倒没有那么关注。个人觉得要像NLP那样使用prompt有如下几个问题需要解决

CV还不存在BERT，GPT这样具有统治力的预训练模型，因此近期内可能很难将prompt 做few-shot learning这一套搬过来。
CV的downstream task更加复杂，感觉检测，分割这类任务要把prompt调work是一个非常大的工作量。

当然了，我觉得我们可以探索其他的任务形式，最近我也在试一些setting感觉还是有一定作用的，总之这一套东西感觉还是很有潜力的，欢迎大家留言讨论，合作。

我的看法比较保守：按照当前的情况，在CV领域强推prompt，似乎行不通。

下面抛砖引玉，如果有不同意见，也请友善讨论。

首先，我认为，prompt-based之所以能在NLP领域发挥较大作用，是因为NLP任务具有连续性：也就是说，不同任务（分类、理解、生成）之间没有明显的边界。基于这一点，prompt将各种任务优雅地统一为完形填空，使得下游开发难度大大降低。

但是CV任务是离散的：分类、检测、分割，你很难找到一些有意义的中间任务。这就意味着，即使设计了许多prompt，它能够解决的问题，归根结底还是些离散的点。那么我们就要问：这跟单独训练不同的任务有什么本质区别？注意这里说的是本质区别，不是multi-task这种浅显的区别。

也许有人会说，现在的prompt确实让CV任务变得更灵活了，比如可以从图像中找到想要的物体，或者让agent回答一些问题。然而，这些都是和NLP相关的任务（captioning、VQA、referring expressions，等等），并不是纯视觉的。也就是说，似乎CV中的prompt，作用还是局限于引入NLP的先验（或者预训练），距离视觉真正的困难，还稍微差点意思。

推广开来，我始终认为，图像和文本两种数据形态具有巨大的差异，所以我们不应该假设在某个领域中得到的经验能够迅速应用到其他领域中去。我认为，现在CV领域最大的问题，是评价指标和现实需求的严重脱节：给定一张图像，非得一口气把其中所有的物体都检测/分割出来；而现实应用中往往没有这个必要。况且，所有数据集都是固定的，做着做着就从数据集层面、甚至任务层面上过拟合了；而现实中，往往并不是交付一个模型了事，而是需要持续利用失败样本去迭代。从根源上说，这是监督学习走入困境的表现，但是强化学习还是个toy，似乎大家也没什么招。

说远了。回到这个话题，学术研究本身就是不断探索，把不可能变成可能的过程。从这个角度看，目前在CV中应用prompt的研究，都是非常有趣的——说不定哪天，真的从prompt上取得线索/突破，设计出一种新的CV任务了呢？

最近我正在研究基于Prompt的预训练语言模型微调，并发表了一篇在EMNLP2021。因此对目前的prompt技术还是比较了解的。对于prompt的思想，可以从他的动机说起：

prompt的出现主要目标是尽可能减小预训练目标与下游微调目标的差距。通常现有的预训练目标均包含Masked Language Modeling（MLM，即完形填空模型），但是下游的任务则并未采用MLM的目标，而是引入新的MLP参数来实现分类或回归，使得预训练阶段的知识很难迁移到下游任务；
prompt因为不引入额外的MLP（或引入少量的参数），而是通过设计template和verbalizer，使得模型很容易在少量样本的条件下适应到下游任务，因此prompt非常适用于few-shot场景；

那么Prompt是如何工作的呢？假定一个二分类的情感分析任务，给定一个文本“The film is very nice!”：

传统的文本分类则是在语言模型的CLS部分加入MLP，并映射到0-1分类上（例如0对应positive，1对应negative），并给出一个概率分布（例如[0.85, 0.15]），这样在样本少的情况下，容易产生过拟合风险；
基于prompt的方法，则是设计一个PVP（Pattern Vebalizer Pair），例如Pattern（也叫做template）可以为“It was [MASK].”，Vebalizer可以为（positive：great， negative：terrible），因此直接将原始文本与template拼接起来，喂入MLM中，模型会给出[MASK]部分的预测词，当然这是在整个词表上获得概率分布，根据Vebalizer，我们只需要获取“great”和“terrible”两个词的概率分布即可，再取最大的作为预测结果，如果预测的是great，则说明该评论是positive的。

根据自己的研究积累，我将现阶段prompt的主要研究进度大致分为如下几个阶段：

GPT-3的提出，率先提出超大规模的语言模型，可以在引入少量外部信息（template、demonstraction以及vebalizer）的条件下，实现下游的in-context learning任务zero-shot的evaluation。这不仅体现了具有1750B参数量的模型的优势，也说明了使用原先的MLM实现完形填空式的预测更加合理；
PET（以及iPET）则认为，GPT-3模型过大，无法用在实际生产环境，因此首次提出将prompt模式引入到小规模的语言模型（BERT等），采用人工构建的template和vebalizer实现prompt-tuning，并允许在下游任务中进行微调；后续T5、LM-BFF、AutoPrompt等则认为每个样本应该对应于不同的template，不同的template对实验的结果影响很大，因此分别提出对不同样本，自动生成或检索相应的template tokens；
不论是基于人工构建、还是生成模型或搜索模型，为每个样本创建相应不同的template会产生耗时，因此P-tuning、Prefix-tuning、PTR等方法，则提出soft-prompt概念，即设计pseudo token，则旨在直接使用template的token embedding作为初始化，并允许模型微调这部分的参数，这样可以让模型自己根据当前样本的语义，在语义空间上寻找合适的template向量，即让原始离散的prompt变成连续可微。另一个好处是，对于大模型来说，固定原始的预训练的参数，只微调prompt部分的参数。在训练完之后，只需要保存prompt部分的参数即可。
最近也有一些工作认为vebalizer也需要自动生成，而并非人工构建，因此产生了knowledgeable prompt-tuning（KPT），其旨在引入外部知识的方法，对整个词表召回并排序出于template相关联的label word集合，并对每个label word产生的loss进行平均或加权；也有工作（Pretrained Prompt-tuning，PPT）认为soft-prompt引入的少量参数目前都是随机初始化的，应该通过预训练的方法获得最优初始化soft-prompt部分的参数，而预训练则可以将不同任务统一为一个模式；
先前工作都是站在MLM的任务上实现prompt-tuning，最近两篇工作EFL和NSP-BERT则站在Next Sentence Prediction（NSP）的预训练任务上实现prompt-tuning。可知MLM-based的prompt-tuning旨在将所有NLP任务建模为完形填空，而NSP-based旨在将所有任务建模为自然语言推理（NLI）。结合prompt，将原始文本、设计的含有候选答案的template拼接一起，让NSP预测相关性。作者认为该方法超越了基于MLM的prompt-tuning。
最近谷歌的Instruction-tuning上线，其任务不同类型的任务之间也可以实现prompt-tuning的知识迁移，其直接使用超大规模的模型实现了zero-shot learning。

我们的工作发表在EMNLP2021：

TransPrompt: Towards an Automatic Transferable Prompting Framework for Few-shot Text Classification

该工作是基于P-tuning之上提出的新的算法，认为先前的工作只关心单个task的prompt-tuning，尤其是采用soft-prompt的方法，因此我们认为不同task之间可以通过设计task-specific和universal prompt encoder实现迁移。为了避免模型学偏，提出prototypical-based和entropy-based debiasing方法，避免模型在某个task上学习过好。我们的方法在SST-2、MR、CR、MRPC、QQP、MNLI和SNLI任务上均达到SOTA。

对于CV领域，最近也有一篇CPT的工作，将prompt引入到视觉中。如果使用Prompt，则可以考虑视觉中的预训练和下游微调中如何拉进二者距离。不一定要像prompt那样基于完型填空的训练模式，可以借鉴它的思想。

更多NLP论文解析与文章详见博主的CSDN账号：

或个人网站：

当然可以。实际上最近已经陆续有工作将prompt-oriented fine-tuning思想用在了跨模态场景。不过据我了解，大部分仍然只在跨模态中的文本端使用prompts，感觉这还不足以发挥prompt tuning的作用。最近我们组尝试了一种cross-modal prompt tuning，在图像端以涂色的形式建立visual sub-prompts，可以与textual sub-prompts协同实现更灵活多样的任务。我想，未来在跨模态提示的设计，如何更好完成各类复杂跨模态任务等方面，都有很多值得探索的问题，欢迎更多同学关注。

详情可以参考我们刚在arxiv上放出的论文：CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

类似的话题

如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？

NLP领域Prompt的火爆及其在CV领域的借鉴潜力最近，自然语言处理（NLP）领域确实被一个叫做“Prompt”的概念所“点燃”。这个词语的流行不仅仅是因为它本身听起来颇有科技感，更重要的是它代表了一种全新的与大型预训练语言模型（LLM）交互的范式，并且展现出了惊人的能力和灵活性。 NLP领域Pr.............
如何看待Capsule Network在NLP领域的潜力？

Capsule Network（胶囊网络，CapsNet）在自然语言处理（NLP）领域展现出巨大的潜力，这主要源于其在理解句子结构、语义关联和捕捉细微差别的能力上，与传统的CNN和RNN模型有所不同，更接近人类的理解方式。下面我将详细阐述CapsNet在NLP领域的潜力，从其核心机制出发，并分析其优.............
如何看待网传北大文科博士在深圳大学任教经济困难，月薪 1-3 千，上网课要求学校发网络补助？

关于网传“北大文科博士在深圳大学任教经济困难，月薪13千，上网课要求学校发网络补助”的信息，需从多个角度进行分析，结合中国高校薪酬体系、地区差异及政策背景，综合判断其真实性及合理性。一、信息真实性分析1. 来源可信度目前尚无权威媒体或深圳大学官方声明证实该传言。网络传言往往存在夸大或误传.............
如何看待乌克兰数学家康斯坦丁·奥尔梅佐夫自杀?

关于乌克兰数学家康斯坦丁·奥尔梅佐夫（Konstantin Orelmazov）的自杀事件，目前公开的可靠信息较为有限，但结合俄乌冲突的背景和乌克兰学术界的现状，可以尝试从多个角度进行分析和探讨： 1. 事件背景的核实与可能性身份确认：目前公开的资料中，尚未有明确的、权威的新闻来源（如BBC.............
如何看待美国太平洋司令部空军司令威尔斯巴赫称：美国f35战机近期在东海至少一次与歼20近距离接触？

关于美国太平洋司令部空军司令威尔斯巴赫（James W. "Jim" Welsbach）提到的F35战机与歼20近距离接触的事件，目前公开信息中并无直接证据表明该言论来自美国官方渠道，因此需要从多个角度进行分析和澄清。 1. 事件背景与信息来源的可靠性美国官方声明的缺失：截至2023年，美国.............
如何看待网传硅谷一男子在妻子患病期间相亲，妻子病逝后火速再婚，并独吞 200 万抚恤金？

关于您提到的“硅谷男子在妻子患病期间相亲，妻子病逝后迅速再婚并独吞200万抚恤金”的事件，目前没有权威媒体或官方渠道发布过相关具体信息。因此，这一事件的真实性、细节和法律性质尚无法确认。以下从法律、道德和社会角度进行分析，供您参考：一、事件可能涉及的法律问题1. 重婚罪（若属实）根据中国.............
如何看待「欧盟三国领导人乘火车赴基辅，会晤泽连斯基以声援乌克兰」？俄乌局势还有哪些信息值得关注？

欧盟三国领导人乘坐火车前往基辅会晤泽连斯基，这一事件反映了欧洲国家对乌克兰的持续支持，以及俄乌冲突背景下国际政治的复杂动态。以下从多个角度详细分析这一事件及其背后的局势：一、欧盟三国领导人赴基辅的背景与意义1. 象征性行动欧盟三国（如波兰、爱沙尼亚、捷克等）领导人乘坐火车前往基辅，是近年.............
如何看待中国海关查获 5840 块造假显卡，讯景中国官网网站临时关闭，天猫旗舰店下架所有产品？

中国海关查获5840块造假显卡、讯景中国官网临时关闭以及天猫旗舰店下架产品事件，涉及知识产权保护、市场秩序维护及企业合规问题，具有多重社会和行业影响。以下从多个角度详细分析：一、事件背景与核心问题1. 海关查获假显卡查获数量：5840块显卡，可能涉及假冒品牌（如讯景、华硕、技嘉等），或.............
如何看待尹锡悦当选韩国总统？

尹锡悦当选韩国总统是2022年韩国大选的重要结果，这一事件对韩国政治、经济、社会及国际关系产生了深远影响。以下从多个维度详细分析其背景、意义及可能的未来走向：一、选举背景与过程1. 政治格局在野党联盟胜利：2022年韩国大选中，由自由民主党和共同民主党组成的“在野党联盟”以压倒性优势击.............
如何看待加州华裔女博士因持刀袭警，被美国警察11枪在家中击毙？这样的处理方式是否合理？

关于加州华裔女博士因持刀袭警被警方击毙的事件，这一案件涉及法律程序、执法权、种族问题等复杂背景，需要从多个角度进行分析。以下从法律、执法程序、社会背景、争议焦点等方面展开详细讨论： 1. 事件背景与法律依据根据公开报道，事件发生在2022年11月，加州一名华裔女性（身份为博士）因涉嫌持刀袭击警察，在.............
如何看待基辛格的《论中国》？

基辛格的《论中国》（On China）是美国前国务卿亨利·基辛格（Henry Kissinger）于1972年访华期间撰写的一部重要著作，也是中美关系史上的关键文献之一。这本书不仅记录了基辛格作为“中间人”在中美关系正常化过程中的角色，还系统阐述了他对中国的政治、文化、历史和外交政策的深刻观察。以下.............
如何看待印度承认误射导弹落入巴基斯坦境内，称「深感遗憾，所幸未造成生命损失」？

印度承认误射导弹落入巴基斯坦境内一事，是印巴两国关系紧张的一个缩影，也反映了地区安全局势的复杂性。以下从多个维度详细分析这一事件的背景、影响及可能的后续发展：一、事件背景与经过1. 时间与地点事件发生在2023年6月，印度在进行军事演习时，一枚“阿金科特”（Agni5）远程导弹因技术故障.............
如何看待联大特别紧急会议通过决议草案，141国要求俄罗斯撤军，35国弃权，5票反对？

2022年2月24日，俄罗斯在乌克兰发动全面军事行动后，联合国大会通过了一项决议草案，要求俄罗斯立即从乌克兰撤军、停止军事行动，并尊重乌克兰的主权和领土完整。这一决议的通过过程和结果引发了国际社会的广泛关注，以下是详细分析：一、事件背景1. 俄罗斯的军事行动 2022年2月24日，俄罗斯在.............
如何看待乌克兰副总理再次喊话各大游戏厂商暂停俄罗斯业务，腾讯被点名？各家会实施制裁吗？

乌克兰副总理呼吁游戏厂商暂停在俄罗斯的业务，并点名腾讯，这一事件反映了俄乌冲突背景下，国际社会通过经济手段施压俄罗斯的策略。以下从背景、动机、可能影响及各方反应等方面进行详细分析：一、事件背景与动机1. 俄乌冲突的经济压力俄乌冲突已持续近两年，俄罗斯经济受到严重冲击，包括制裁、能源价格飙.............
如何看待俄罗斯指挥家瓦列里·捷杰耶夫被西方音乐界抵制？

瓦列里·捷杰耶夫（Valery Gergiev）作为俄罗斯著名的指挥家和马林斯基剧院的音乐总监，其被西方音乐界抵制的事件，涉及复杂的国际政治、文化立场与艺术伦理问题。以下从多个角度详细分析这一事件的背景、原因、影响及争议：一、事件背景：捷杰耶夫与俄罗斯的政治关联1. 职业背景捷杰耶夫自1.............
如何看待全国政协委员建议「推广DNA数据库实现有效打拐」，该方式是否可行？

全国政协委员建议推广DNA数据库以实现有效打拐的建议，涉及技术、法律、伦理、实际操作等多方面因素，其可行性需从多个维度综合分析。以下从技术、法律、伦理、操作、风险等角度详细探讨：一、技术可行性分析1. DNA数据库的原理 DNA数据库通过存储犯罪现场或失踪人员的DNA样本，利用DNA指纹技.............
如何看待俄罗斯外交部发布的乌克兰政府对顿巴斯的暴行视频？

关于俄罗斯外交部发布的所谓“乌克兰政府对顿巴斯的暴行”视频，这一问题涉及俄乌冲突的复杂背景、信息战的特征以及国际社会的争议。以下从多个角度进行详细分析： 1. 背景与视频的来源冲突背景：顿巴斯地区（包括顿涅茨克和赫尔松两州）自2014年以来一直是俄乌矛盾的焦点。2022年2月，俄罗斯以“保.............
如何看待抖音李赛高（佤邦）被封号?

关于抖音用户“李赛高（佤邦）”被封号的事件，目前公开信息较为有限，但可以从以下几个角度进行分析和探讨：一、事件背景与可能原因1. 账号主体身份 “李赛高”可能是某位公众人物或网红，而“佤邦”可能与其身份或背景有关。佤邦是缅甸的一个少数民族地区，历史上曾与中国存在复杂关系，涉及民族、历史、政.............
如何看待沈逸在俄罗斯乌克兰冲突上判断失误?

沈逸是中国人民大学国际关系学院教授，长期从事国际政治研究，尤其关注地缘政治与大国关系。他在俄乌冲突中的分析曾引发争议，但需注意的是，学术观点的准确性往往取决于信息来源、分析框架和时代背景。以下从多个角度分析其判断可能存在的问题及原因：一、沈逸的分析背景与观点1. 2014年乌克兰危机前的预测 .............
如何看待饶毅所说，在美国校运动队的学生就能上哈佛等一众名校？

关于饶毅提到的“在美国校运动队的学生就能上哈佛等一众名校”的说法，需要从多个角度进行分析，既要理解其可能的背景和意图，也要客观看待美国大学的招生政策和实际情况。一、饶毅的言论背景与可能的误解饶毅作为中国科学院院士，长期关注中国教育体系与国际教育的差异，曾在多个场合讨论中美教育制度的对比。如果他提到.............