问题

如何看待NLP领域最近比较火的prompt,能否借鉴到CV领域?

回答
NLP领域Prompt的火爆及其在CV领域的借鉴潜力

最近,自然语言处理(NLP)领域确实被一个叫做“Prompt”的概念所“点燃”。这个词语的流行不仅仅是因为它本身听起来颇有科技感,更重要的是它代表了一种全新的与大型预训练语言模型(LLM)交互的范式,并且展现出了惊人的能力和灵活性。

NLP领域Prompt的火爆原因:

要理解Prompt为何如此火爆,我们需要先了解它在NLP中的具体含义和价值:

1. 什么是Prompt?
核心概念: Prompt(提示)是指一种引导性文本输入,用户通过这种文本来指导大型预训练语言模型(LLM)完成特定的任务。它不仅仅是简单的指令,更是一种精心设计的“语境”或“问题”,能够激活模型预先学习到的海量知识和能力。
与传统NLP任务的区别: 传统的NLP任务通常需要针对每个具体任务(如文本分类、命名实体识别、机器翻译)进行模型微调(finetuning),这意味着需要准备大量的标注数据并重新训练模型。而Prompting则试图在零样本(zeroshot)或少样本(fewshot)的情况下,直接让预训练模型完成任务,无需或只需极少的任务特定数据。

2. Prompt的组成与技巧:
指令(Instruction): 清晰地告诉模型要做什么。例如:“请翻译以下句子为中文:”,或“请总结以下文章:”。
上下文(Context): 提供与任务相关的背景信息。例如,在问答任务中,提供一段包含答案的文本;在情感分析中,提供需要分析的评论。
示例(Examples): 提供一到几个输入输出对,让模型学习任务的模式。这是少样本学习的核心。例如,在情感分析中,可以给出“这句话很棒,是正面的。”,“这家店很糟糕,是负面的。”,然后让模型分析新的句子。
输出格式(Output Format): 指导模型以何种格式输出结果。例如,“请以JSON格式输出。”,“请列出要点。”

3. Prompting的价值与优势:
强大的泛化能力: LLM通过在海量文本上进行预训练,学习到了丰富的语言知识和世界常识。Prompting能够有效地激活这些知识,使模型在各种未见过但与预训练数据相似的任务上表现出色。
无需或极少微调: 这是Prompting最大的吸引力之一。对于许多新颖的任务,如果能通过精心设计的Prompt实现,就可以大大节省数据收集、标注和模型训练的时间和成本。
灵活性和可解释性(一定程度上): 用户可以通过改变Prompt来快速尝试不同的任务和策略,并且相对容易理解Prompt是如何影响模型行为的。
“涌现能力”(Emergent Abilities): 随着模型规模的增大,一些在小模型上不明显的能力,如推理、逻辑遵循等,会在大模型上“涌现”。Prompting是释放这些能力的关键。
用户友好性: 相较于需要编程和模型训练的微调,Prompting更像是一种“对话式”的交互方式,降低了使用先进AI模型的门槛。

4. Prompting的常见应用场景(NLP):
文本生成: 续写故事、写诗、写代码、生成文章摘要。
问答系统: 根据提供的文本或知识库回答问题。
文本分类: 情感分析、主题分类、意图识别。
翻译: 语言之间的文本翻译。
信息提取: 提取文本中的特定实体、关系或事件。
对话系统: 驱动更自然、更有上下文的聊天机器人。

Prompt能否借鉴到CV领域? 答案是肯定的,而且已经在发生!

虽然NLP和CV处理的数据类型(文本 vs. 图像/视频)存在根本差异,但Prompting的核心思想——通过引导性输入来激活预训练模型的能力——完全可以被借鉴和应用于计算机视觉(CV)领域。CV领域已经出现了类似Prompting的概念和技术,它们通常被冠以不同的名称,但本质上是相似的。

借鉴思路与实践:

将Prompting的理念迁移到CV领域,需要解决的核心问题是如何将“文本提示”转化为能够被视觉模型理解的“视觉提示”。这可以通过以下几种方式实现:

1. 文本引导的视觉生成(TexttoImage):
代表技术: DALLE 2, Midjourney, Stable Diffusion, Imagen。
Prompt形式: 用户输入一段描述性的文本,模型根据文本生成与之匹配的图像。这正是Prompting在CV中最直观的应用。
背后机制: 通常结合了Transformer(用于理解文本Prompt)和扩散模型(用于图像生成)。文本Prompt被编码成一个条件向量,引导扩散模型逐步生成图像。
灵活性: 用户可以通过修改文本描述(如风格、物体、场景、颜色、构图等)来精确控制生成图像。

2. 视觉任务的文本条件化(TextConditioned Vision Tasks):
通用目标: 让预训练的视觉模型在执行特定任务(如图像分类、目标检测、分割、问答)时,能够响应文本指令。
核心挑战: 如何将文本信息有效地融入到视觉模型的处理流程中。
常见方法:
文本编码器 + 视觉编码器 + 联合训练(如CLIP): CLIP(Contrastive Language–Image Pretraining)是这一领域的里程碑。它通过对比学习,让文本编码器和视觉编码器学习到对齐的表征空间。
CLIP Prompting: 对于图像分类,可以将类别名称本身作为Prompt,然后计算图像与文本Prompt的相似度。例如,要识别一张猫的图片,可以用“一张猫的照片”作为文本Prompt。更高级的Prompt可以加入更多上下文,如“一张猫在草地上玩耍的照片”。
ZeroShot / FewShot Classification: CLIP的文本条件化能力使得在没有大量标注数据的情况下,进行图像分类成为可能。用户只需提供类别的文本描述。
基于Transformer的视觉模型(Vision Transformer, ViT 等)与文本Prompt的结合:
Prompt Tuning for Vision Models: 类似于NLP中的Prompt Tuning,可以在冻结的预训练视觉模型前添加少量可学习的“软Prompt”(连续向量)。这些软Prompt通过文本描述的Embedding进行初始化或更新,用来引导模型执行特定任务。
示例: 对于一个目标检测模型,我们可以设计一个Prompt:“在图片中找到[物体类别]”。这个Prompt的文本Embedding会被转换成连续向量,与图像的特征拼接或进行其他交互,以指导检测过程。
任务指令的融入: 直接将任务指令(如“分割出所有行人”,“识别图片中的所有汽车”)以文本形式输入给模型,模型通过内部机制(如注意力机制)来理解并执行该指令。

3. 图像作为Prompt(Image Prompting in Vision):
概念: 使用一张或多张图像作为“示例”或“参考”,来指导模型完成任务。这类似于NLP中的少样本学习。
应用场景:
风格迁移: 用一张艺术风格的图片作为Prompt,将内容图片转化为该风格。
图像编辑/修复: 用一张“良好”的图像作为参考,指导模型修复损坏的区域。
FewShot 图像识别/检测: 提供几张目标类别的图片,让模型识别或检测更多同类别的目标。
视觉问答(Visual Question Answering, VQA): 除了文本问题,还可以提供与问题相关的参考图像。

4. 多模态融合的Prompting:
概念: 结合文本、图像、甚至音频等多种模态的Prompt来共同指导模型。
示例: “请在图像中找出与这段描述匹配的区域,并用红色框标记出来。”这里结合了图像内容、文本描述和明确的指令。

CV领域借鉴Prompting的潜在优势:

极大的灵活性和泛化能力: 用户可以通过自然语言指令,快速地让预训练的CV模型适应各种新颖的任务,而无需重新训练。
降低CV模型的应用门槛: 使得非专业用户也能通过简单的文本描述来控制复杂的视觉AI模型。
提升模型的可控性和可解释性: 文本Prompt能更直观地描述用户的意图,有助于理解模型行为。
实现高效的零样本和少样本CV任务: 尤其是在数据稀缺的场景下,Prompting可以成为强大的解决方案。
促进多模态理解和生成: 文本与视觉的结合,能够更深刻地理解世界,并生成更具信息量的视觉内容。

当前CV领域Prompting的挑战:

Prompt的“有效性”和“鲁棒性”: 如何设计出既能有效引导模型,又对微小变化不敏感的Prompt是一个持续的研究课题。
文本到视觉的语义对齐: 确保文本描述的细微之处能够被模型准确地映射到视觉特征上,仍然是一个挑战。
计算效率: 一些基于Transformer的视觉模型结合文本Prompt的计算量可能较大。
Prompt工程(Prompt Engineering)的难度: 虽然降低了门槛,但要获得最优效果,仍然需要一定的技巧和对模型的理解。
“幻觉”问题: 视觉模型也可能产生与Prompt不符,甚至完全虚构的内容。

总结

NLP领域的Prompt火爆,是因为它为与强大的预训练模型交互提供了一种革命性的方式,使得模型的能力更加普适和易用。

这种“提示式”的交互范式,完全可以也正在被借鉴到CV领域。从文本到图像的生成,到各种下游视觉任务的条件化,再到多模态的融合应用,我们已经看到了Prompting在CV领域巨大的潜力和正在发生的变革。未来,随着更大、更强的视觉模型和多模态模型的出现,以及Prompting技术本身的不断演进,Prompting将在CV领域扮演越来越核心的角色,重塑我们与视觉AI互动的方式。这不仅仅是技术的进步,更是AI能力的一次飞跃和普及。

网友意见

user avatar

最近NLP领域提出了Prompt新范式,企图革新原先的Fine-tuning方法,而在CV领域中,Prompt其实可以理解为图像label的设计,从这个角度看,Prompt(预测文本中mask的字符,类似完形填空)其实是介于Image caption(迭代预测出每一个字符)和one-hot label(one-hot可以认为是prompt的特例,单字符通过text encoder编码成one-hot)之间的任务。最近在Visual-Language Model(缩写VLM)任务中,prompt开始展现出强大的能力。

本文首先介绍一下prompt和fine-tuning范式本质上有什么区别,然后介绍一下NLP中基于prompt的PET和AutoPrompt方法,最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。

另外,CLIP和CoOp都是基于prompt的判别式VLM方法,最近还有几篇基于prompt生成式VLM方法,基于prompt的生成式VLM和基于prompt的NLP方法非常类似,本文就不展开细讲了,放一下文章链接

Unifying Vision-and-Language Tasks via Text Generation

Multimodal Few-Shot Learning with Frozen Language Models

Prompt vs Fine-tuning

(引用刘鹏飞大佬的原话刘鹏飞:近代自然语言处理技术发展的“第四范式”)

图中,圆形表示预训练语言模型,矩形框表示的是各种下游NLP任务。那么,我们就有这样一句话:大家都是希望让 预训练语言模型和下游任务靠的更近,只是实现的方式不一样。

Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是上面提到的通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲。

Prompting中,是各种下游任务“迁就“预训练语言模型。具体体现也是上面介绍的,我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲。

下面讲一下NLP中的两个前置工作PET和AutoPrompt,这两个工作对于Visual-Language Model任务的启发是非常大的。

PET

PET是第一个将prompt训练的语言模型应用到下游任务的方法,并且把prompt范式规范化,给后续prompt范式的研究提供了示范。

PET的设计流程如下:

1.预先设置多种prompt,其中包含需要预测的文字(比如上图中的Best pizza ever! It was ___.其中It was就是预先设置的prompt,可以替换成其他的prompt),然后将多种prompt送入不同的PLM模型中进行训练,最终得到多个PET模型。

2.将需要预测的文本送入多个PET模型中进行推理,综合多个PET模型结果得到soft label。

3.把需要预测的文本和soft label放到分类器中进行训练,得到最终的文本分类模型。

AutoPrompt

PET构建的prompt是人为设计的,这可能会导致设计的prompt不够合理。AutoPrompt提出在构建prompt时通过网络自动化学习出Trigger Tokens [T] [T] [T] [T] [T],优化目标是加入合适的token之后,预测结果越来越倾向于正确结果(比如上图中,token为atmosphere alot dialogue clone totally时,positive的概率越高)。

CLIP

OpenAI从网络收集了4亿数据量的图片文本对用于CLIP训练,最后进行zero-shot transfer到下游任务达到了非常好的效果(关于zero-shot learning可以看我之前的文章ViLD:超越Supervised的Zero-Shot检测器)。

简单回顾一下CLIP的使用流程:

1.如图(1)所示,CLIP将一批文本通过Text Encoder编码成一批word embedding,将一批图片(与文本一一对应)通过Image Encoder编码成一批feature embedding,然后将对应的word embedding和feature embedding先归一化然后进行点积得到相似度矩阵,点积数值越大,代表word embedding和feature embedding的向量越相似,这里的监督信号就是矩阵对角线为1,其余位置为0。其中Text Encoder使用的是Transformer,而Image Encoder使用ResNet50和ViT两种架构其中一个,Image Encoder和Text Encoder都是从头训练。

2.然后将预训练好的CLIP迁移到下游任务,如图(2)所示,先将下游任务的标签构建为一批带标签的文本(例如 A photo of a {plane}),然后经过Text Encoder编码成一批相应的word embedding。

3.最后将没有见过的图片进行zero-shot预测,如图(3)所示,通过Image Encoder将一张小狗的图片编码成一个feature embedding,然后跟(2)编码的一批word embedding先归一化然后进行点积,最后得到的logits中数值最大的位置对应的标签即为最终预测结果。

从CLIP的流程中可以看出,CLIP和PET的prompt使用方式非常相似,A photo of a就是一个人为设计的prompt。

CoOp

CoOp明显是受到了AutoPrompt的启发,并且CoOp发现CLIP实际上就是prompt在visual-language model中的一个应用,于是CoOp在CLIP的基础上进一步进行改进。

CoOp先在四个数据集上做实验,发现更合理的prompt能够大幅度的提升分类精度尤其是使用了本文提出的CoOp之后,最终的分类精度远超CLIP人为设计的prompt。

和CLIP的主要不同之处在于,CoOp在CLIP的第二个阶段中引入了context optimization。具体的,CoOp将prompt设计为:

其中每个向量跟word embedding的维度相同,可以理解为可学习的context,并且所有类别对应的context共享参数。

将learnable context和不同类别的word embedding拼接起来送入text encoder中进行训练,优化目标是使得和图片对应的prompt预测分数最大。训练完成后,learnable context的参数就固定下来了。

Other Variants

作者还尝试了两种变体:

一种是prompt可以在需要预测的class前后都插入learnable context,这可以增加prompt的灵活性。

另一种是设计class-specific context(CSC),也就是所有类别的prompt参数独立,在一些细粒度分类任务中效果更好。

CoOp vs CLIP

从11个数据集的实验中可以看出,CoOp均超过了CLIP,并且在一些数据集上,大幅度超过CLIP。证明了可学习的prompt优于人为设计的prompt。CoOp提出的两种变体,在一些数据集中效果更好。

CoOp vs Prompt Ensembling

将CoOp和PET中提出的Prompt ensembling进行比较,CoOp也展现出了优越性。

CoOp的影响因素

从上面的实验中可以看出,CoOp对于噪声的鲁棒性优于CLIP。

从上面的实验中可以看出,context length长度越长,CoOp效果越好;backbone模型越大,CoOp效果越好。

Random vs. manual initialization

这个对比实验相当的精髓,也就是说learnable context的初始化prompt是什么没那么重要,随机初始化就能达到精调初始化相当的精度。

总结

因为CoOp是class-level的自适应,不能根据输入图片的不同动态变化prompt,如果能够根据输入图片动态调整prompt的话,也就是instance-level的自适应,可能会有奇效。learnable context的作用类似于去噪,让网络拟合噪声,使得预测部分的关注区域更为干净。感觉learnable context和DETR中的object query的功能非常相似,都是任意学习出信息,只根据最后的监督信号更新参数。后续可以挖掘一下如何控制learnable context的学习,来提升基于prompt的VLM性能。生成式的VLM也可以探索一下如何设计prompt更合理。

另外就是纯CV方向的prompt,也就是类似于ViT将图片拆分patch,每个patch实际上可以看成一个字符,那么也可以设计patch的prompt对模型进行训练,这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。


Reference

[1] 刘鹏飞:近代自然语言处理技术发展的“第四范式”

[2] Timothyxxx:2021年,Pre-train+finetune还是“新”范式吗?乘风破浪的Prompt-base methods

[3] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

[4] AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts

[5] Learning Transferable Visual Models From Natural Language Supervision

[6] LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS

欢迎关注 Smarter ,构建CV世界观

欢迎加入Smarter交流群,添加微信「cjy094617」,备注「学校-方向」即可

user avatar

对这个问题非常关注,感觉prompt和andrew ng最近提出来的data-centric可能有一些微妙的联系。就目前来看,continuous prompt是最有可能transfer到CV领域的一系列工作。最近transformer准备大一统CV,nlp,将image输入转化为patch的形式也更方便了我们借鉴NLP的方法学习prompt。


然而,知乎都想到了别人会想不到呢,虽然最近也有一些多模态任务用了prompt,但是大多数也是调token,对image反倒没有那么关注。个人觉得要像NLP那样使用prompt有如下几个问题需要解决

  1. CV还不存在BERT,GPT这样具有统治力的预训练模型,因此近期内可能很难将prompt 做few-shot learning这一套搬过来。
  2. CV的downstream task更加复杂,感觉检测,分割这类任务要把prompt调work是一个非常大的工作量。

当然了,我觉得我们可以探索其他的任务形式,最近我也在试一些setting感觉还是有一定作用的,总之这一套东西感觉还是很有潜力的,欢迎大家留言讨论,合作。

user avatar

我的看法比较保守:按照当前的情况,在CV领域强推prompt,似乎行不通。

下面抛砖引玉,如果有不同意见,也请友善讨论。

首先,我认为,prompt-based之所以能在NLP领域发挥较大作用,是因为NLP任务具有连续性:也就是说,不同任务(分类、理解、生成)之间没有明显的边界。基于这一点,prompt将各种任务优雅地统一为完形填空,使得下游开发难度大大降低。

但是CV任务是离散的:分类、检测、分割,你很难找到一些有意义的中间任务。这就意味着,即使设计了许多prompt,它能够解决的问题,归根结底还是些离散的点。那么我们就要问:这跟单独训练不同的任务有什么本质区别?注意这里说的是本质区别,不是multi-task这种浅显的区别。

也许有人会说,现在的prompt确实让CV任务变得更灵活了,比如可以从图像中找到想要的物体,或者让agent回答一些问题。然而,这些都是和NLP相关的任务(captioning、VQA、referring expressions,等等),并不是纯视觉的。也就是说,似乎CV中的prompt,作用还是局限于引入NLP的先验(或者预训练),距离视觉真正的困难,还稍微差点意思。

推广开来,我始终认为,图像和文本两种数据形态具有巨大的差异,所以我们不应该假设在某个领域中得到的经验能够迅速应用到其他领域中去。我认为,现在CV领域最大的问题,是评价指标和现实需求的严重脱节:给定一张图像,非得一口气把其中所有的物体都检测/分割出来;而现实应用中往往没有这个必要。况且,所有数据集都是固定的,做着做着就从数据集层面、甚至任务层面上过拟合了;而现实中,往往并不是交付一个模型了事,而是需要持续利用失败样本去迭代。从根源上说,这是监督学习走入困境的表现,但是强化学习还是个toy,似乎大家也没什么招。

说远了。回到这个话题,学术研究本身就是不断探索,把不可能变成可能的过程。从这个角度看,目前在CV中应用prompt的研究,都是非常有趣的——说不定哪天,真的从prompt上取得线索/突破,设计出一种新的CV任务了呢?

user avatar

最近我正在研究基于Prompt的预训练语言模型微调,并发表了一篇在EMNLP2021。因此对目前的prompt技术还是比较了解的。对于prompt的思想,可以从他的动机说起:

  • prompt的出现主要目标是尽可能减小预训练目标与下游微调目标的差距。通常现有的预训练目标均包含Masked Language Modeling(MLM,即完形填空模型),但是下游的任务则并未采用MLM的目标,而是引入新的MLP参数来实现分类或回归,使得预训练阶段的知识很难迁移到下游任务;
  • prompt因为不引入额外的MLP(或引入少量的参数),而是通过设计template和verbalizer,使得模型很容易在少量样本的条件下适应到下游任务,因此prompt非常适用于few-shot场景

那么Prompt是如何工作的呢?假定一个二分类的情感分析任务,给定一个文本“The film is very nice!”:

  • 传统的文本分类则是在语言模型的CLS部分加入MLP,并映射到0-1分类上(例如0对应positive,1对应negative),并给出一个概率分布(例如[0.85, 0.15]),这样在样本少的情况下,容易产生过拟合风险
  • 基于prompt的方法,则是设计一个PVP(Pattern Vebalizer Pair),例如Pattern(也叫做template)可以为“It was [MASK].”,Vebalizer可以为(positive:great, negative:terrible),因此直接将原始文本与template拼接起来,喂入MLM中,模型会给出[MASK]部分的预测词,当然这是在整个词表上获得概率分布,根据Vebalizer,我们只需要获取“great”和“terrible”两个词的概率分布即可,再取最大的作为预测结果,如果预测的是great,则说明该评论是positive的。

根据自己的研究积累,我将现阶段prompt的主要研究进度大致分为如下几个阶段:

  • GPT-3的提出,率先提出超大规模的语言模型,可以在引入少量外部信息(template、demonstraction以及vebalizer)的条件下,实现下游的in-context learning任务zero-shot的evaluation。这不仅体现了具有1750B参数量的模型的优势,也说明了使用原先的MLM实现完形填空式的预测更加合理
  • PET(以及iPET)则认为,GPT-3模型过大,无法用在实际生产环境,因此首次提出将prompt模式引入到小规模的语言模型(BERT等),采用人工构建的template和vebalizer实现prompt-tuning,并允许在下游任务中进行微调;后续T5、LM-BFF、AutoPrompt等则认为每个样本应该对应于不同的template,不同的template对实验的结果影响很大,因此分别提出对不同样本,自动生成或检索相应的template tokens
  • 不论是基于人工构建、还是生成模型或搜索模型,为每个样本创建相应不同的template会产生耗时,因此P-tuning、Prefix-tuning、PTR等方法,则提出soft-prompt概念,即设计pseudo token,则旨在直接使用template的token embedding作为初始化,并允许模型微调这部分的参数,这样可以让模型自己根据当前样本的语义,在语义空间上寻找合适的template向量,即让原始离散的prompt变成连续可微。另一个好处是,对于大模型来说,固定原始的预训练的参数,只微调prompt部分的参数。在训练完之后,只需要保存prompt部分的参数即可
  • 最近也有一些工作认为vebalizer也需要自动生成,而并非人工构建,因此产生了knowledgeable prompt-tuning(KPT),其旨在引入外部知识的方法,对整个词表召回并排序出于template相关联的label word集合,并对每个label word产生的loss进行平均或加权;也有工作(Pretrained Prompt-tuning,PPT)认为soft-prompt引入的少量参数目前都是随机初始化的,应该通过预训练的方法获得最优初始化soft-prompt部分的参数,而预训练则可以将不同任务统一为一个模式;
  • 先前工作都是站在MLM的任务上实现prompt-tuning,最近两篇工作EFL和NSP-BERT则站在Next Sentence Prediction(NSP)的预训练任务上实现prompt-tuning。可知MLM-based的prompt-tuning旨在将所有NLP任务建模为完形填空,而NSP-based旨在将所有任务建模为自然语言推理(NLI)。结合prompt,将原始文本、设计的含有候选答案的template拼接一起,让NSP预测相关性。作者认为该方法超越了基于MLM的prompt-tuning。
  • 最近谷歌的Instruction-tuning上线,其任务不同类型的任务之间也可以实现prompt-tuning的知识迁移,其直接使用超大规模的模型实现了zero-shot learning。

我们的工作发表在EMNLP2021:

TransPrompt: Towards an Automatic Transferable Prompting Framework for Few-shot Text Classification

该工作是基于P-tuning之上提出的新的算法,认为先前的工作只关心单个task的prompt-tuning,尤其是采用soft-prompt的方法,因此我们认为不同task之间可以通过设计task-specific和universal prompt encoder实现迁移。为了避免模型学偏,提出prototypical-based和entropy-based debiasing方法,避免模型在某个task上学习过好。我们的方法在SST-2、MR、CR、MRPC、QQP、MNLI和SNLI任务上均达到SOTA。

对于CV领域,最近也有一篇CPT的工作,将prompt引入到视觉中。如果使用Prompt,则可以考虑视觉中的预训练和下游微调中如何拉进二者距离。不一定要像prompt那样基于完型填空的训练模式,可以借鉴它的思想。


更多NLP论文解析与文章详见博主的CSDN账号:

或个人网站:

user avatar

当然可以。实际上最近已经陆续有工作将prompt-oriented fine-tuning思想用在了跨模态场景。不过据我了解,大部分仍然只在跨模态中的文本端使用prompts,感觉这还不足以发挥prompt tuning的作用。最近我们组尝试了一种cross-modal prompt tuning,在图像端以涂色的形式建立visual sub-prompts,可以与textual sub-prompts协同实现更灵活多样的任务。我想,未来在跨模态提示的设计,如何更好完成各类复杂跨模态任务等方面,都有很多值得探索的问题,欢迎更多同学关注。

详情可以参考我们刚在arxiv上放出的论文:CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有