百科问答小站 logo
百科问答小站 font logo



NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷? 第1页

  

user avatar   xie-tian-bao-69 网友的相关建议: 
      

过去这半年,我读了很多prompt的工作,写了很多prompt的代码,做了很多prompt的实验。个人来讲我挺喜欢prompt这个方向的,但是下面有一些吐槽牢骚话(冷水)我也要和想入坑或者已经被坑的兄弟姐妹们说。

我们都知道,现在prompt基本就火两个,离散化的和连续化的。模板方法,也就是所谓的离散式prompt,无可厚非,没有功劳也有苦劳,工业界也可以从中获益;连续方法,则是在prompt tuning出来之后追平了全数据的性能之后被引爆,号称小参数撬动大结果(我印象里全参数量追平以及超越是要比adapter好一些的),抛弃了解释性换来了性能。

我们来谈谈被追捧的后者。首先真的可以追平吗,我负责任地讲,是的,我们在广泛而非常复杂的任务上依次尝试过都可以追平和超越。但是也有两点代价。

1.极长的训练时间(十倍)。所以后面有什么预训练的prompt(吐槽,PPT作者们麻烦release一下权重),多任务的prompt种种来处理这件事,其实这个结论已经不新了。如果你尝试训练过任何一个连续化的promot方法,你会发现他的斜率远远缓于finetune,而且震荡更为剧烈。

确实省了空间,确实冻结了所连接的大模型,但是因为prompt都加在前面,所以反向传播还是要完整的从最末端传到最顶端,省去仅仅一个不更新的时间,训练还缓慢,所以根本不省时间,反而要多训好几倍的时间。那么问题来了,对工业界,算力比存储更值钱,那么其实根本没有节约,反而是浪费,如果有几亿个用户,那么确实节约了几万个硬盘,但是你要多消耗几亿倍的显卡算力和耗电量,这让工业界怎么使用呢。(但是真的也很希望有人能提出来针对prompt的运算软硬件优化算法来帮助这个bottleneck)

2.相较于预训练过于specific,和其他组件耦合度太高。连续化prompt包括之前的adapter几乎就是数据集处理specific的甚至可以说是huggingface版本specific的。要求必须要是这个预训练模型换了就没用了,必须要是这个数据集换了就没用了,必须要是这个语言换了就没用了,几乎是做完了路就堵好了。和预训练和微调范式比就是一个硬伤,几乎没法scale up和open source。有个东西叫adapterhub已经干了prompt tuning社区下一步可能想干的事,他们在很多个数据集训练了,200多任务,这还只是只用adpater,openprompt要想做好恐怕是还要再乘一下n(连续化prompt方法)×n(语言)…,我都心疼要花的算力。但是即使做出来了,首先工业界没办法拿来你这权重直接部署,即使他抄了你的伪标签也是一样,也没法load chinese BERT那种拿来养活工程师;然后学术界除非要做同一个任务在你这个weight上面再训练,拿来也没太大用,除非拿来一堆weight做cross task的分析之类的。

吐槽了一会,我想表达意思是prompt方法是不是第四个范式,我认为从发论文角度是的,未来的一年发prompt中稿应该还是没啥问题,我们每个人也不是天天都有best paper idea,也是要恰饭。但是从一个更长远的角度看,如果真的想做一个影响力更大的工作,个人认为站在2022年初,prompt最大的使命在于帮助人们找到超大型预训练模型(GPT3,Codex)的上界,进而使得其零样本少样本性能可以接近超越于比他小很多的但是本身并不小模型(T5 base~large,BART)的全数据微调的不错的结果,进而使得NLP的b2b的ai服务(openai的收费GPT3)盈利成为可能,产生下一个增长点为NLP社区续命。并且完成协助预训练模型完成大一统(unifying)的使命。顺便探明当模型足够大之后泛化性所暗示的智能性。

prompt要做,但最好不是提出来雨后春笋的prompt方法,而是做得更加集中于某个依附的模型,比如英文社区就是GPT3 Codex,中文社区就是百度的最大的那个,而且要盯着zero shot和few shot做,整个社区才会从中更大地受益。

广告:欢迎大家关注这个talk以及我们即将arxiv的文章,里面也有很多prompt的实验。


user avatar   alimuhamad-50-59 网友的相关建议: 
      

做做研究可以,大规模应用很难,问题很多


  1. 效果问题。就拿nlu来说,最好的就是p tuning v2,最好也就能干到finetune的水平。但我组同学其实把一系列prompt tuning的方法都跑过,他们的稳定性其实都很一般,甚至很多结果都得靠搜参数才能搜出来。举个小例子,跑ptuning v2,也就是prefix tuning,prompt的长度可能带来几十个点的波动,这还是非常符合adapter思想的以及效果最好的方案了。更不要说谷歌的prompt tuning了,我想很多做过的同学都知道谷歌那个只训embedding的方法有多难调(坑),效果可以说是无比拉胯。试问这么不稳定,效果还没多好,我们这些工业界的人哪敢大规模用?
  2. 规模问题。这我觉得是最痛的... 从很多工作不难看出,prompt tuning很多都需要非常大的模型才能拿到很好的效果的,显然很多人根本access不到这么大的模型(再感慨下,我们即使试了超大号t5,谷歌的prompt还是不太能调出来,真难),就算能,好不容易把weight放下你资源不够多训起来照样够呛。像我自己本身就是做大模型的,我有条件训百亿千亿的模型,那轻量级tuning对我的吸引力在哪呢?大模型之所以难搞,无非就是太大占显存。但现在zero2已经广泛普及了,不管是调deepspeed还是各家自研(模仿)也好,zero2就是把梯度和optimizer states拆出去了,这俩大头已经不会占太多显存了,weight摆在那谁也扔不掉,再加上一般下游tune的数据不会特大,这一下看起来我从实用的角度就不是很感冒了...
  3. 训练问题 其实怎么设计prompt,多长,怎么初始化,这些对效果的影响都不是小得可以忍忍那种。当然这个领域继续推进可能能找到更好的方法吧,像ppt想通过预训练解决初始化的问题,但总有点大炮打蚊子的感觉...


现在这种soft prompt我觉得和gpt3以及后面ipet等工作玩的hard prompt不是一个性质的东西,它说到底还是adapter,如果说它火了那我们就有必要重新审视下之前adapter相关的工作。当然prompt还是有它正面的一面,它在fewshot上看起来确实效果很突出,是个对整个nlp领域贡献比较大的点吧。但个人始终觉得,prompt tuning这个点太小了,把它捧到第四范式未免有些过誉。


user avatar   CommanderYCJiangS117 网友的相关建议: 
      

以我之前跑的结果来看,目前基于连续Template的Prompt方法,名义上可以降低需要训练的参数量,但因为它的优化参数在输入层,结果实际上几乎没有实现训练阶段计算代价的显著减少——这样一来在很多场景下就本末倒置了。反正你该计算的中间层导数一个都少不了,性能也就那么回事,那我为啥不直接Fine-tune?

我之前在验证搜索场景下的Prompt应用,一开始设定的目标是希望在性能差不多的前提下减少总训练代价(毕竟搜索这边动不动就是上千万甚至上亿的Pairwise样本,当时看点线上的数据训一次12层的Teacher BERT就要四卡跑两周),结果跑了半天发现基本上没卵用……


user avatar   he-jun-xian-89 网友的相关建议: 
      

continuous prompt learning本质还是一种adapter,天生缺陷个人感觉: 1. prompt learning直接作用于attention而不直接作用于ffn,这一点不如adapter flexible,这个区别使prefix tuning在一些generation task上结果明显差于adapter [1]; 2. prompt learning的prompt数量很多的话 (512? 1024?) 整体速度变慢并且内存容易爆炸,这一点不如adapter scalable

安利我们的paper揭示prompt learning和adapter等related work的联系,paper里详细分析了prompt/prefix的优缺点:

[1] Towards a Unified View of Parameter-Efficient Transfer Learning


user avatar   ye-fang-bo-er-he-si 网友的相关建议: 
      
学校说让我休学或者退学 原因是觉得领证结婚的学生不好管理 除非我去办离婚证 才能让我正常上学

题主说“学校说“,没具体写明是谁说,也没具体写明是哪个部门说,有可能就是某个办事的人说的。建议先沟通,至少要把学校里有话语权的人和部门都沟通到。

我举个例子:有个学生大二了想退学生会,学生会负责办理的人说:退会需要写一份不少于8000字的申请书(或者是其他什么刁难的条件),否则不允许退会。这个学生就觉得退会太难办了,每天发愁。

另一个同学也想退会,也遇到了同样的问题。但他没有发愁,反而觉得通过办这件事可以锻炼自己解决问题的能力。咱不惹事情,但事情找到自己头上了,躲就不是办法了。他挺高兴,有这么一个事情需要自己去办。如果连这点小事都办不了,以后走向社会遇到的难办的事情岂不更多嘛。于是他和和气气地离开了学生会办事人员那里,然后去找学生会会长沟通。

学生会会长出于维护自己手下办事人员权威的角度考虑,也让他按要求写8千字。

他和和气气地离开,去找辅导员了。路上他想着:辅导员办不成就找系里、院里……系里院里还办不成就找校方负责部门,比如校团委。再办不成就找负责部门的负责人、再办不成就去找学校纪委、党委,再办不成就找书记、校长……

他就像完成一份论文一样做着前期谋划,结果还没找到系里,辅导员就帮他协调着退会了,只写了几百字的退会申请。

回到题主的问题里来,学校里从下到上这多人和部门都算是“校方”吗?题主说“学校”让她休学,到底是学校里一个小办事员说的,还是从下到上都这么说?是不是底层办事人员懒政搞一刀切?是不是校方中层、高层都根本不知道此事?这些都要弄清楚啊。

题主可以逐层和校方沟通,估计沟通到某一层次就解决了。如果真的一直沟通到顶层的校长和书记也没搞定的话,那么才能真正视为:“学校让你休学”。

不要害怕和学校高层沟通,都让你休学了,没啥害羞和害怕的,对你来说这么大的事件,就算每天在校长办公室门口堵他,也得争取到和校长沟通的机会。也许这在校长眼里就不算个事儿,他给下面打个电话,你的烦恼就全都消失了。记得和各层次人员沟通时都要注意保留证据比如录音等。

沟通时要观察对方是什么样的人,如果是忠厚老实的,你就多多卖惨卖可怜;如果一看就是官僚气十足的话,可以用一点小手段,比如问他:“您真的没办法了吗?唉……咦?旁边办公室是不是领导的屋?我去找领导是不是能帮我?”如果一看对方就是欺软怕硬的,可以问他:“我实在没办法了,您说我可不可以求助媒体和记者?您再给帮我想个办法吧,对了,您说我打市长热线能解决吗?"。简单来说,小手段就是以低姿态让对方无法立刻翻脸的前提下表达出威胁对方的话语。当然,对于大学生来说,社会经验不足,也许无法识别出对方是什么性格的人,那么就按提前做的对话草稿,把想说的话统统说了,姿态要低,毕竟你是学生,对方代表学校。态度要好,不要发火,要把困难看成学习上的一道难题来慢慢解。

一般来说校方不会和你一个学生死磕到底的,此时学校就会让步。为啥会这么说,因为穿鞋的都怕光脚的,你都要被退学了,你怕啥,学校才怕你这种不稳定因素呢。(再送题主一个小手段吧,哭!女性哭起来很有杀伤力的,在校领导办公室哭!声音呜咽凄惨,越大越好,越有别人来找领导签字时越哭,门外越有人等的时候越要痛哭着离开,让大家四目、不,六目、八目相对……然后平静一下,抽冷子再去领导屋继续谈。让女生哭着离开办公室,对校领导的风评是有损的,很容易传闲话,校领导坐不住的。啥?校长是女的?那书记呢?不可能班子成员都是女的。)

如果学校还是不让步(就算校长犯昏,别人也不劝他?学校法务干啥吃的?办公室主任干啥吃的?他们早都给领导点明后果了。),那就真的要在各大网络平台发帖了。帖录音、帖录音整理的文字……帖子一定不要虚构和夸张,说事实说诉求就行了。接下来你自己都不用管,就会有政府负责网络舆情的部门联系学校的,你还担心学校继续不让步吗?

如果学校铁了心跟你死磕(实在想不出学校那么多管理人员为啥脑子集体发昏),那就法院诉讼啦,肯定能赢的。不过我想只要你发挥主动性,积极去解决,是走不到到这最后一步的,早早就在学校内部的时候就搞定了。


user avatar   xiao-huang-ren-nao-can-fen 网友的相关建议: 
      
学校说让我休学或者退学 原因是觉得领证结婚的学生不好管理 除非我去办离婚证 才能让我正常上学

题主说“学校说“,没具体写明是谁说,也没具体写明是哪个部门说,有可能就是某个办事的人说的。建议先沟通,至少要把学校里有话语权的人和部门都沟通到。

我举个例子:有个学生大二了想退学生会,学生会负责办理的人说:退会需要写一份不少于8000字的申请书(或者是其他什么刁难的条件),否则不允许退会。这个学生就觉得退会太难办了,每天发愁。

另一个同学也想退会,也遇到了同样的问题。但他没有发愁,反而觉得通过办这件事可以锻炼自己解决问题的能力。咱不惹事情,但事情找到自己头上了,躲就不是办法了。他挺高兴,有这么一个事情需要自己去办。如果连这点小事都办不了,以后走向社会遇到的难办的事情岂不更多嘛。于是他和和气气地离开了学生会办事人员那里,然后去找学生会会长沟通。

学生会会长出于维护自己手下办事人员权威的角度考虑,也让他按要求写8千字。

他和和气气地离开,去找辅导员了。路上他想着:辅导员办不成就找系里、院里……系里院里还办不成就找校方负责部门,比如校团委。再办不成就找负责部门的负责人、再办不成就去找学校纪委、党委,再办不成就找书记、校长……

他就像完成一份论文一样做着前期谋划,结果还没找到系里,辅导员就帮他协调着退会了,只写了几百字的退会申请。

回到题主的问题里来,学校里从下到上这多人和部门都算是“校方”吗?题主说“学校”让她休学,到底是学校里一个小办事员说的,还是从下到上都这么说?是不是底层办事人员懒政搞一刀切?是不是校方中层、高层都根本不知道此事?这些都要弄清楚啊。

题主可以逐层和校方沟通,估计沟通到某一层次就解决了。如果真的一直沟通到顶层的校长和书记也没搞定的话,那么才能真正视为:“学校让你休学”。

不要害怕和学校高层沟通,都让你休学了,没啥害羞和害怕的,对你来说这么大的事件,就算每天在校长办公室门口堵他,也得争取到和校长沟通的机会。也许这在校长眼里就不算个事儿,他给下面打个电话,你的烦恼就全都消失了。记得和各层次人员沟通时都要注意保留证据比如录音等。

沟通时要观察对方是什么样的人,如果是忠厚老实的,你就多多卖惨卖可怜;如果一看就是官僚气十足的话,可以用一点小手段,比如问他:“您真的没办法了吗?唉……咦?旁边办公室是不是领导的屋?我去找领导是不是能帮我?”如果一看对方就是欺软怕硬的,可以问他:“我实在没办法了,您说我可不可以求助媒体和记者?您再给帮我想个办法吧,对了,您说我打市长热线能解决吗?"。简单来说,小手段就是以低姿态让对方无法立刻翻脸的前提下表达出威胁对方的话语。当然,对于大学生来说,社会经验不足,也许无法识别出对方是什么性格的人,那么就按提前做的对话草稿,把想说的话统统说了,姿态要低,毕竟你是学生,对方代表学校。态度要好,不要发火,要把困难看成学习上的一道难题来慢慢解。

一般来说校方不会和你一个学生死磕到底的,此时学校就会让步。为啥会这么说,因为穿鞋的都怕光脚的,你都要被退学了,你怕啥,学校才怕你这种不稳定因素呢。(再送题主一个小手段吧,哭!女性哭起来很有杀伤力的,在校领导办公室哭!声音呜咽凄惨,越大越好,越有别人来找领导签字时越哭,门外越有人等的时候越要痛哭着离开,让大家四目、不,六目、八目相对……然后平静一下,抽冷子再去领导屋继续谈。让女生哭着离开办公室,对校领导的风评是有损的,很容易传闲话,校领导坐不住的。啥?校长是女的?那书记呢?不可能班子成员都是女的。)

如果学校还是不让步(就算校长犯昏,别人也不劝他?学校法务干啥吃的?办公室主任干啥吃的?他们早都给领导点明后果了。),那就真的要在各大网络平台发帖了。帖录音、帖录音整理的文字……帖子一定不要虚构和夸张,说事实说诉求就行了。接下来你自己都不用管,就会有政府负责网络舆情的部门联系学校的,你还担心学校继续不让步吗?

如果学校铁了心跟你死磕(实在想不出学校那么多管理人员为啥脑子集体发昏),那就法院诉讼啦,肯定能赢的。不过我想只要你发挥主动性,积极去解决,是走不到到这最后一步的,早早就在学校内部的时候就搞定了。




  

相关话题

  NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷? 
  为什么中国诞生不了Hugging Face这样的公司? 
  如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero? 
  数学理论上可不可以绝对识别ps过的照片(可以作为法律证据的)? 
  老师给了一个神经网络的程序,他之前是跑通了的,但是我迭代几十次或者一百多次就报错。这个怎么解决? 
  有什么类似于Al的炒股软件介绍给上班一族? 
  百度学术能否替代 Google 学术网站?有没有其他选择? 
  有哪些利用搜索引擎(Search Engine)辅助自然语言处理任务(NLP)的论文? 
  为什么编程语言语法的设计不往缩小与自然语言的差别的方向发展,或者说在这个方向发展得这么慢呢? 
  如何评价新Nature子刊Nature Machine Intelligence的出现? 

前一个讨论
结合深度学习的图像修复怎么实现?
下一个讨论
在与贝叶斯相关的马尔可夫链蒙特卡洛方法中,为什么可以最大化后验概率?





© 2025-01-05 - tinynew.org. All Rights Reserved.
© 2025-01-05 - tinynew.org. 保留所有权利