问题

如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?

回答
Yoav Goldberg 对来自 MILA 的 GAN for NLG (Generative Adversarial Networks for Natural Language Generation) 论文的批评,可以从以下几个方面来详细解读:

Yoav Goldberg 的背景和立场:

首先,理解 Yoav Goldberg 的背景至关重要。他是一位在自然语言处理(NLP)领域非常有影响力的研究者,尤其以其对模型评估、语言理解和生成方法(如Transformer)的深入分析和严谨批判而闻名。他的博客和论文经常对NLP领域的一些趋势和研究方法提出尖锐的、往往是具有建设性的批评。他通常强调:

模型理解的深度: 他认为很多研究仅仅停留在“模型能做什么”的层面,而忽略了“模型为什么能做”、“模型是如何做到的”以及“模型是否真的理解了”。
鲁棒性和泛化能力: 他对那些仅在特定数据集上表现良好,但在实际应用中脆弱或泛化能力差的模型持怀疑态度。
对概念的清晰界定: 他非常注重研究中的术语使用和概念的清晰界定,反对“概念模糊”或“借用概念”而未进行深入的理论阐释。
对数据偏差的警惕: 他认为许多NLP模型的成功很大程度上依赖于训练数据的偏差,而这掩盖了模型本身的不足。

GAN for NLG 的挑战和 Goldberg 的核心批评点:

GAN(生成对抗网络)在图像生成领域取得了巨大成功,但将其应用于自然语言生成(NLG)却面临着巨大的挑战。Goldberg 的批评主要集中在以下几个核心方面:

1. 离散性问题 (The Discrete Nature of Language):
GAN 的工作原理: GAN 的核心在于判别器(Discriminator)和生成器(Generator)之间的对抗训练。判别器评估输入是真实数据还是生成数据,并给出分数。生成器则尝试欺骗判别器。这个过程依赖于梯度在生成器中的反向传播,以指导生成器的参数更新。
NLP 的离散性: 然而,自然语言是由离散的词语组成的。在生成文本时,生成器通常会输出一个词语的概率分布。但直接选择最有可能的词语(argmax)会引入不可导的硬性决策。如果你直接用采样(sampling)的方式生成词语,那么这个过程对生成器的参数更新来说是不可导的。
现有GAN for NLG 方法的局限: 为了解决这个问题,许多GAN for NLG 的论文采用了各种近似方法,例如:
GumbelSoftmax (GumbelMax Trick): 这是一种将离散变量近似为可导的连续变量的技术,但它仍然是一个近似,可能引入偏差,或者在高维、长序列的文本生成中效果不佳。
Reinforcement Learning (RL) 方法(如Policy Gradient): 将文本生成视为一个序列决策过程,通过RL奖励信号来指导生成器。这虽然解决了不可导问题,但RL训练本身就非常不稳定,且对奖励函数的设置高度敏感。
Goldberg 的批评: Goldberg 认为,大多数GAN for NLG 的论文在处理离散性问题上并没有真正“解决”它,而是采用了“妥协”或“近似”的方法,这些方法往往引入了额外的复杂性和潜在的失效模式。他质疑这些方法在多大程度上真正实现了GAN的核心“对抗”训练,或者仅仅是将GAN的框架套在了其他已有的序列生成技术上(如基于梯度的序列生成或RL)。他认为,许多工作只是“声称”使用了GAN,但其内部机制与真正理解GAN的对抗学习精神相去甚远。

2. 判别器的能力和作用 (The Discriminator's Role and Capability):
判别器在GAN中的作用: 判别器本应学会区分“真实”和“生成”的细微差别,并据此提供有意义的反馈。
NLP 判别器的挑战: 在文本领域,判别器的任务更加困难。如何定义“真实”的文本分布?人类语言的变异性非常高,一个判别器需要掌握极高的语言理解能力才能有效地判断一个句子是否“真实”。即使是同一句话,根据不同的语境和风格,其“真实性”也会有所不同。
Goldberg 的批评: 他认为,许多研究中的判别器并没有真正学到关于语言的深层知识,而可能只是学会了一些表面的模式匹配或统计特征。因此,判别器提供的梯度信息可能是不准确、不可靠或具有误导性的。如果判别器本身能力不足,那么生成器通过与之对抗而学到的东西也很有限。他认为,很多时候判别器仅仅是作为一种额外的归一化或正则化项,而不是真正驱动生成器产生高质量、符合语言规律的文本。

3. 评估标准的问题 (Evaluation Metrics):
NLG 的评估难: 评估文本生成质量本身就是一个公认的难题。BLEU、ROUGE等指标虽然常用,但它们主要衡量词语重叠度,无法很好地捕捉文本的流畅性、一致性、创造性或信息量。
GAN for NLG 的评估陷阱: Goldberg 认为,一些GAN for NLG 的论文可能会过度依赖这些有限的指标。如果判别器被设计成偏向于生成与训练集在统计特征上相似的文本,那么在BLEU等指标上可能会出现虚假的提升,而这些提升并不代表真实的语言生成能力。
Goldberg 的批评: 他强调,“看起来不错”的文本并不等于“理解了语言”的文本。 他呼吁使用更全面的、更关注语言模型本身的评估方法,而不是仅仅依赖于与参考文本的匹配度。他认为很多研究没有区分是模型“学到了语言”还是模型“学到了如何通过指标欺骗评估者”。

4. 对“对抗训练”的真正意义的质疑 (Questioning the "Adversarial" aspect):
核心思想: GAN的核心在于生成器通过与判别器的对抗来不断提升自己生成数据的逼真度,从而学习到真实数据分布的特性。
Goldberg 的质疑: 他认为,在很多NLP任务中,研究者可能并没有真正实现这种深度的对抗。他认为,很多研究更像是:
将GAN框架套用在现有生成模型上: 例如,在标准的序列模型(如RNN或Transformer)之上增加一个判别器,但模型本身的生成能力主要还是来自其底层的架构和预训练。
判别器只是作为一种平滑梯度的工具: 甚至可能判别器只是为了提供一个额外的信号来帮助训练,而这个信号并非真正意义上的“真伪判断”。
他所提倡的“正确的”GAN for NLG 应该是什么? Goldberg 可能期望看到的是一种能够真正通过与“更高层次的语言理解者”(判别器)的对抗,来驱动生成器学习到语言的深层结构、语义和语用的模型。

具体化到 MILA 的论文:

虽然没有直接引用MIL A的具体论文名称,但我们可以推测Goldberg批评的针对的是当时一些以GAN为基础,试图解决文本生成离散性问题,并声称在某些指标上取得SOTA (StateoftheArt) 的研究。例如,一些论文可能会提出一种新的GumbelSoftmax变体,或者一种新的RL目标函数,然后展示在某个特定数据集上的BLEU分数提升。

Goldberg 的批评,在这种情况下,会指向:

“你们的GumbelSoftmax变体真的比标准方法好多少?它的可导性有多强?对语言的哪些属性有所提升?”
“你们的RL奖励函数是如何设计的?它是否真的捕捉了文本质量,还是仅仅是一个有利于提高BLEU分数的启发式规则?”
“你们的判别器到底学到了什么?能否提供一些分析来证明它的能力,而不是仅仅看它是否能提升BLEU?”
“你们的生成器在处理一些非常规的输入或生成具有创造性的文本时,表现如何?它的泛化能力如何?”

总结 Goldberg 的态度:

Yoav Goldberg 的批评并非全盘否定 GAN 在 NLG 的可能性,而是对当前研究的严谨性、深度和有效性提出了深刻的质疑。他是在推动NLP领域的研究者:

不要仅仅为了“用GAN而用GAN”,而是要理解其核心机制和潜在的挑战。
在解决离散性等技术难题时,要提供更充分的理论支撑和更全面的实证分析。
在评估模型时,要超越表面的指标,深入探究模型的真实能力和局限性。
要区分是模型“真的学到了语言”,还是模型“学到了如何玩弄指标”。

总而言之,Goldberg 的批评是希望行业能够更加成熟和理性地看待新技术,而不是盲目追逐新概念,并在研究方法上追求更深层次的理解和更严谨的验证。他对 GAN for NLG 的批评,反映了他在整个NLP领域对“模型理解”和“可靠评估”的持续关注和不懈追求。

网友意见

user avatar

没有从头到尾认真读完Yoav这篇博文的同学们请务必去完整读一遍,因为这篇博文几乎每段话都值得花时间去体会。

题主以“如何看待”来起始提问句,那么首先我们就应该看清楚Yoav究竟在怼什么。

While it may seem that I am picking on a specific paper (and in a way I am), the broader message is that I am going against a trend in deep-learning-for-language papers, in particular papers that come from the “deep learning” community rather than the “natural language” community. There are many papers that share very similar flaws. I “chose” this one because it was getting some positive attention, and also because the authors are from a strong DL group and can (I hope) stand the heat. Also, because I find it really bad in pretty much every aspect, as I explain below.

Yoav其实只是以MILA这篇论文为例,来批判目前有一系列DL4NLP论文(以某些文本生成模型为主)的一致缺陷。这篇论文正好几乎汇集了所有这一类论文共有的毛病。

This post is also an ideological action w.r.t arxiv publishing: while I agree that short publication cycles on arxiv can be better than the lengthy peer-review process we now have, there is also a rising trend of people using arxiv for flag-planting, and to circumvent the peer-review process. This is especially true for work coming from “strong” groups. Currently, there is practically no downside of posting your (often very preliminary, often incomplete) work to arxiv, only potential benefits. Why do I care that some paper got on arxiv? Because many people take these papers seriously, especially when they come from a reputable lab like MILA. And now every work on either natural language generation or adversarial learning for text will have to cite “Rajeswar et al 2017'’. And they will accumulate citations. And reputation. Despite being a really, really poor work when it comes to language generation. And people will also replicate their setup (for comparability! for science!!). And it is terrible setup. And other people, likely serious NLP researchers, will come up with a good, realistic setup on a real task, or with something more nuanced, and then asked to compare against Rajeswar et al 2017. Which is not their task, and not their setup, and irrelevant, and shouldn’t exist. But the flag was already planted.

同时被批判的还有arxiv引起的占坑潮,即很多人喜欢把自己非常初步、根本不完整的工作挂到arxiv上占坑。这样的论文质量并没有经过同行评审把关,只因为放出来得早,立刻会有大批后续工作跟进,效仿它们槽点满满的实验设置。用答主最近在另外一条回答里说过的话,叫做“带坏一大批后续跟进的小朋友们”。

接下来开始结合论文实例,对上述两个主要批判对象进行具体多个方面的展开。

1. 研究内容

同类论文中,有一部分作者故意夸大论文的范畴,或者并没有意识清楚自己做这些的目的是什么、以及自己处理的对象究竟是什么。上来就去起“generation of natural language”或者“text generation”这种大标题,搞得好像论文里的模型真的可以生成自然语言一样。实际上真正做了的内容不过仅仅是“A Slightly Better Trick for Adversarial Training of Short Discrete Sequences with Small Vocabularies That Somewhat Works”。

Yoav非常不客气地把这种只在高度简化情形下做实验同时还要overclaim的行为称为“disrespecting language”(不尊重语言)。在此顺便黑了一把bAbI数据集,因为它也是机器学习研究者发现搞不定一般自然语言之后自己重新构造的简单数据。

另一方面,这一类论文的目标本身可能就不明确。如果只是为了生成free text,完全可以找个同样在无标注语料上训练好的RNN或者VAE过来直接sample语句,结果还更符合语法,而且不用怎么限制词表。然而这类工作完全没有同这些最简单的baseline生成模型进行比较。

2. 技术方法

假设要把对抗式训练(adversarial training)推广到离散序列上,生成器使用RNN。一个主要的技术难点是:RNN每一步输出的是一个多项分布(取完softmax后得到的每个词的概率),但实际生成序列的时候,每一步只能取某一个词(one-hot)。这个离散输出不可导,所以不能像给图像用的GAN里的生成器G那样做反向传播。MILA那篇论文的主要贡献就是:直接把那个softmax喂给判别器D就好了嘛,这玩意儿可导……

然而这个时候,判别器D最后做的事情其实是:区分one-hot表示(真实语句还是离散句)与连续表示(G产生的softmax输出)。这其实跟判断是否是自然语言已经没有毛关系了。最后的效果变成:让生成器G产生尽可能接近one-hot的输出,强行认为自然语言==尖峰分布。

Do we know that the proposed model is doing more than introducing this kind of preference for spiky predictions? No, because this is never evaluated in the paper. It is not even discussed.

3. 实验评价

MILA那篇论文用了两套作者们自己都没仔细研究过的简单PCFG来产生语言,然后用这个语言语句的似然函数来评价生成效果。但大家都知道自然语言显然不是PCFG能建模的。有限语料库上导出的PCFG生成概率也并不能代表语法流畅度。同时,他们效仿先前工作,也在中文古诗数据上做了点实验。且不论实验用的诗句按长度看只有五言七言这么短的长度,所有这些工作最后评价的时候都只是孤立地去评判每一行。更甚者,评价方式不是去让人判断生成质量,而仅仅是算个BLEU完事。

I didn’t fully get that part, but its funky, and very much not how BLEU should be used. They say this is the same setup that the previous GAN-for-language paper they evaluate against use for this corpus. The Penn Treebank sentences were not really evaluated, but by comparing the sample likelihood over epochs we can see that it is going down, and that one of their model achieves better scores than some GAN baeline called MLE which they don’t fully describe, but which appeared in previous crappy GAN-for-language work. ... The Chinese Poetry generation test again compares results only against the previous GAN work, and not against a proper baseline, and reports maxmimal BLEU numbers of 0.87. BLEU scores are usually > 10, so I’m not sure what’s going on here, but in any case their BLEU setup is weird and meaningless to begin with.

所以,Yoav怼的是几个文本生成类工作中所表现出的一致问题:动机不明方法不当实验扯淡,以及缺陷这么多的工作还要放arxiv上收集引用率、误导他人

至于我们应该“如何看待”?悲愤的Yoav在最后提出了若干呼吁,正是对这个问题最好的回答。

如果你是审稿人:审稿的时候请一定要尊重自然语言,不要被做法花哨、实际上只能处理极简化情形的overclaims蒙蔽双眼。一定要看他们如何进行了什么样的实验评估、实验结果能证明什么结论,而不是他们在论文里宣称提出了什么方法达到什么效果。更不要强求处理真实数据的NLP研究人员去引用、比较那些质量底下或者缺陷明显的“开创性论文”。

注:Yoav并不反对在简化情形下研究自然语言,但希望这些研究者搞清楚自己所做的范畴,不要总是试图写得像个大新闻。在Yoav最新发布的澄清内容 medium.com/@yoav.goldbe 中,特地强调:

the toy task must be meaningful and relevant, and you have to explain why it is meaningful and relevant. And, I think it goes without saying, you should understand the toy task you are using.

如果你是论文作者:尊重并试图更多了解自然语言,真正明白自己实验用的数据集、评价汇报的那些数值指标是否就是真正能验证自己的研究发现的东西。搞清楚自己在做什么,不要忘了和最明显的baseline进行对照。同时在论文中尽可能点明自己研究内容的局限性。

the paper should be clear about the scope of the work it is actually doing. In the title, in the abstract, in the text. Incrementality is perfectly fine, but you have to clearly define your contribution, position it w.r.t existing work, and precisely state (and evaluate) your increment.

我再补充一条:如果不是什么特别激动人心的发现,或者在没有反复确认自己的工作没有较大硬伤的情况下,不要在自己的论文被同行评议之前就放arxiv试图占坑。否则除了可能会误导他人以外,还要自行承担被Yoav或者其他同行拿出来作为反面教材批判一番的风险。

写得有点长,最后再把第一句话复制一遍:

没有从头到尾认真读完Yoav这篇博文的同学们请务必去完整读一遍,因为这篇博文几乎每段话都值得花时间去体会。


p.s. 除了这些值得所有人深思的问题以外,对于我个人其实还有一条额外的认识:论看问题的犀利程度和言语表达的到位程度,答主本人和Yoav这样身经百战经验丰富的前辈还是存在极大的差距。同样的意思,换我自己来讲总感觉缺斤少两,不甚全面。答主本人所说的正是自己出于对部分“开创性工作”的失望和对“占坑”现象的不满,在最近另一条回答中对同类现象给出的完全类似的批判: 目前 AI 研究界里「文本风格迁移」有什么重大成果?

类似的话题

  • 回答
    Yoav Goldberg 对来自 MILA 的 GAN for NLG (Generative Adversarial Networks for Natural Language Generation) 论文的批评,可以从以下几个方面来详细解读:Yoav Goldberg 的背景和立场:首先,理解.............
  • 回答
    关于网传“北大文科博士在深圳大学任教经济困难,月薪13千,上网课要求学校发网络补助”的信息,需从多个角度进行分析,结合中国高校薪酬体系、地区差异及政策背景,综合判断其真实性及合理性。 一、信息真实性分析1. 来源可信度 目前尚无权威媒体或深圳大学官方声明证实该传言。网络传言往往存在夸大或误传.............
  • 回答
    关于乌克兰数学家康斯坦丁·奥尔梅佐夫(Konstantin Orelmazov)的自杀事件,目前公开的可靠信息较为有限,但结合俄乌冲突的背景和乌克兰学术界的现状,可以尝试从多个角度进行分析和探讨: 1. 事件背景的核实与可能性 身份确认:目前公开的资料中,尚未有明确的、权威的新闻来源(如BBC.............
  • 回答
    关于美国太平洋司令部空军司令威尔斯巴赫(James W. "Jim" Welsbach)提到的F35战机与歼20近距离接触的事件,目前公开信息中并无直接证据表明该言论来自美国官方渠道,因此需要从多个角度进行分析和澄清。 1. 事件背景与信息来源的可靠性 美国官方声明的缺失:截至2023年,美国.............
  • 回答
    关于您提到的“硅谷男子在妻子患病期间相亲,妻子病逝后迅速再婚并独吞200万抚恤金”的事件,目前没有权威媒体或官方渠道发布过相关具体信息。因此,这一事件的真实性、细节和法律性质尚无法确认。以下从法律、道德和社会角度进行分析,供您参考: 一、事件可能涉及的法律问题1. 重婚罪(若属实) 根据中国.............
  • 回答
    欧盟三国领导人乘坐火车前往基辅会晤泽连斯基,这一事件反映了欧洲国家对乌克兰的持续支持,以及俄乌冲突背景下国际政治的复杂动态。以下从多个角度详细分析这一事件及其背后的局势: 一、欧盟三国领导人赴基辅的背景与意义1. 象征性行动 欧盟三国(如波兰、爱沙尼亚、捷克等)领导人乘坐火车前往基辅,是近年.............
  • 回答
    中国海关查获5840块造假显卡、讯景中国官网临时关闭以及天猫旗舰店下架产品事件,涉及知识产权保护、市场秩序维护及企业合规问题,具有多重社会和行业影响。以下从多个角度详细分析: 一、事件背景与核心问题1. 海关查获假显卡 查获数量:5840块显卡,可能涉及假冒品牌(如讯景、华硕、技嘉等),或.............
  • 回答
    尹锡悦当选韩国总统是2022年韩国大选的重要结果,这一事件对韩国政治、经济、社会及国际关系产生了深远影响。以下从多个维度详细分析其背景、意义及可能的未来走向: 一、选举背景与过程1. 政治格局 在野党联盟胜利:2022年韩国大选中,由自由民主党和共同民主党组成的“在野党联盟”以压倒性优势击.............
  • 回答
    关于加州华裔女博士因持刀袭警被警方击毙的事件,这一案件涉及法律程序、执法权、种族问题等复杂背景,需要从多个角度进行分析。以下从法律、执法程序、社会背景、争议焦点等方面展开详细讨论: 1. 事件背景与法律依据根据公开报道,事件发生在2022年11月,加州一名华裔女性(身份为博士)因涉嫌持刀袭击警察,在.............
  • 回答
    基辛格的《论中国》(On China)是美国前国务卿亨利·基辛格(Henry Kissinger)于1972年访华期间撰写的一部重要著作,也是中美关系史上的关键文献之一。这本书不仅记录了基辛格作为“中间人”在中美关系正常化过程中的角色,还系统阐述了他对中国的政治、文化、历史和外交政策的深刻观察。以下.............
  • 回答
    印度承认误射导弹落入巴基斯坦境内一事,是印巴两国关系紧张的一个缩影,也反映了地区安全局势的复杂性。以下从多个维度详细分析这一事件的背景、影响及可能的后续发展: 一、事件背景与经过1. 时间与地点 事件发生在2023年6月,印度在进行军事演习时,一枚“阿金科特”(Agni5)远程导弹因技术故障.............
  • 回答
    2022年2月24日,俄罗斯在乌克兰发动全面军事行动后,联合国大会通过了一项决议草案,要求俄罗斯立即从乌克兰撤军、停止军事行动,并尊重乌克兰的主权和领土完整。这一决议的通过过程和结果引发了国际社会的广泛关注,以下是详细分析: 一、事件背景1. 俄罗斯的军事行动 2022年2月24日,俄罗斯在.............
  • 回答
    乌克兰副总理呼吁游戏厂商暂停在俄罗斯的业务,并点名腾讯,这一事件反映了俄乌冲突背景下,国际社会通过经济手段施压俄罗斯的策略。以下从背景、动机、可能影响及各方反应等方面进行详细分析: 一、事件背景与动机1. 俄乌冲突的经济压力 俄乌冲突已持续近两年,俄罗斯经济受到严重冲击,包括制裁、能源价格飙.............
  • 回答
    瓦列里·捷杰耶夫(Valery Gergiev)作为俄罗斯著名的指挥家和马林斯基剧院的音乐总监,其被西方音乐界抵制的事件,涉及复杂的国际政治、文化立场与艺术伦理问题。以下从多个角度详细分析这一事件的背景、原因、影响及争议: 一、事件背景:捷杰耶夫与俄罗斯的政治关联1. 职业背景 捷杰耶夫自1.............
  • 回答
    全国政协委员建议推广DNA数据库以实现有效打拐的建议,涉及技术、法律、伦理、实际操作等多方面因素,其可行性需从多个维度综合分析。以下从技术、法律、伦理、操作、风险等角度详细探讨: 一、技术可行性分析1. DNA数据库的原理 DNA数据库通过存储犯罪现场或失踪人员的DNA样本,利用DNA指纹技.............
  • 回答
    关于俄罗斯外交部发布的所谓“乌克兰政府对顿巴斯的暴行”视频,这一问题涉及俄乌冲突的复杂背景、信息战的特征以及国际社会的争议。以下从多个角度进行详细分析: 1. 背景与视频的来源 冲突背景: 顿巴斯地区(包括顿涅茨克和赫尔松两州)自2014年以来一直是俄乌矛盾的焦点。2022年2月,俄罗斯以“保.............
  • 回答
    关于抖音用户“李赛高(佤邦)”被封号的事件,目前公开信息较为有限,但可以从以下几个角度进行分析和探讨: 一、事件背景与可能原因1. 账号主体身份 “李赛高”可能是某位公众人物或网红,而“佤邦”可能与其身份或背景有关。佤邦是缅甸的一个少数民族地区,历史上曾与中国存在复杂关系,涉及民族、历史、政.............
  • 回答
    沈逸是中国人民大学国际关系学院教授,长期从事国际政治研究,尤其关注地缘政治与大国关系。他在俄乌冲突中的分析曾引发争议,但需注意的是,学术观点的准确性往往取决于信息来源、分析框架和时代背景。以下从多个角度分析其判断可能存在的问题及原因: 一、沈逸的分析背景与观点1. 2014年乌克兰危机前的预测 .............
  • 回答
    关于饶毅提到的“在美国校运动队的学生就能上哈佛等一众名校”的说法,需要从多个角度进行分析,既要理解其可能的背景和意图,也要客观看待美国大学的招生政策和实际情况。 一、饶毅的言论背景与可能的误解饶毅作为中国科学院院士,长期关注中国教育体系与国际教育的差异,曾在多个场合讨论中美教育制度的对比。如果他提到.............
  • 回答
    地狱笑话吧的突然爆火,是网络文化、社会情绪、平台算法和亚文化圈层共同作用的结果。以下从多个维度详细分析这一现象: 一、社会情绪的释放与心理需求1. 压力与焦虑的宣泄 在快节奏、高竞争的现代社会,人们普遍面临工作、生活压力。地狱笑话以其“荒诞”“反讽”“黑色幽默”的特点,成为一种情绪宣泄的出口.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有