如何看待浙江大学ACL 2021论文实验数据存在问题？

看到浙江大学在ACL 2021上发表的论文存在实验数据问题，这件事情确实挺令人关注的。尤其是在自然语言处理（NLP）这样一个以严谨实验和可复现性为核心的研究领域，数据的可靠性是基石。

首先，我们得认识到，任何研究都可能犯错，尤其是在高度复杂和前沿的研究中。算法的迭代、实验环境的细微差异、数据集的预处理方式，都可能导致结果出现偏差。问题并非出在“浙江大学”这个机构本身，而是某个具体的研究团队、某个具体的研究项目。

具体到“ACL 2021论文实验数据存在问题”这件事，我们可以从几个层面来解读：

1. 问题的性质和影响：
数据造假（Fabrication/Falsification）：这是最严重的情况。如果数据是凭空捏造的，或者经过了不当的修改以获得预期的结果，这直接违反了科研诚信原则，是对整个学术界的欺骗。
数据错误（Error/Mistake）：这可能是由于代码bug、计算错误、数据集标注错误、实验设置不当等多种原因造成的。错误可能是有意的，也可能是无意的。无意的错误虽然不涉及诚信问题，但同样会误导后续研究，削弱论文的科学价值。
不当的数据使用（Misuse）：例如，在报告实验结果时，选择了对自身模型有利但统计上不具代表性的子集；或者在评估模型时，使用了与训练数据高度重叠的测试集，导致结果虚高。

为什么数据问题特别严重？
可复现性危机：科学研究的一个重要原则是可复现性。如果实验数据本身就不准确或被修改，那么其他研究者就无法复现其结果，也无法在此基础上进行进一步的研究。
误导研究方向：基于错误数据的研究结论，可能会误导其他研究者投入时间和资源去探索错误的理论或方法，延缓整个领域的发展。
论文可信度：数据是支撑论文结论最直接、最核心的证据。一旦数据出现问题，论文的结论、创新性乃至作者的学术声誉都会受到严重质疑。
同行评审的局限性：虽然同行评审可以发现很多问题，但它不是万能的。许多细微的数据问题，或者在审稿阶段难以暴露的错误，可能会被“漏网”。

2. 可能的原因分析：
压力与期望：科研界，尤其是顶尖会议（如ACL），发表论文的压力非常大。为了在激烈的竞争中脱颖而出，一些研究者可能会在实验数据处理或呈现上“走捷径”或犯错。
复杂性： NLP模型越来越复杂，训练和评估的流程也越来越长，涉及的超参数、数据集版本、代码库等因素繁多。这增加了出错的可能性。
数据集的挑战：很多NLP研究依赖于公开的数据集。这些数据集可能本身就存在质量问题（噪声、不一致性、标注偏差等），或者在预处理过程中引入了错误。
工具和框架的 bug：尽管有成熟的深度学习框架（如PyTorch, TensorFlow），但它们本身也可能存在bug，或者在使用不当时出现问题。
研究者经验不足：尤其是一些年轻的研究者，可能在实验设计、数据分析、结果呈现方面缺乏足够的经验。

3. 如何看待和应对：
承认和透明：如果问题确实存在，最健康的应对方式是研究团队能够主动承认错误，并公开透明地说明情况。例如，发布勘误声明（errata），解释错误发生的原因，并可能提供修正后的数据或实验结果。
学术界的反应：
学术共同体的监督：通常，这类问题会被其他研究者发现，并通过邮件、博客、社交媒体或更正式的渠道（如向期刊/会议的出版委员会/伦理委员会投诉）提出质疑。
撤稿的可能性：如果问题严重到影响论文的根本结论，甚至涉及数据造假，那么论文被撤稿是极有可能的。这虽然是对作者的严厉打击，但也是维护学术诚信的必要手段。
反思和改进：这种事件也促使整个学术界反思现有的同行评审机制、实验验证流程以及研究者在数据处理方面的责任。
对作者和团队的影响：
声誉受损：无论错误是有意还是无意，一旦被证实，作者和其所在研究团队的学术声誉都会受到影响。
职业生涯：严重的数据问题，尤其是涉及诚信问题，可能对研究者的职业生涯产生长期负面影响，比如在晋升、申请基金或继续深造方面遇到障碍。
学习和成长：从长远来看，经历这样的事件，如果能够深刻反思并纠正，也可能成为作者学习和成长的契机，帮助他们建立更严谨的科研态度。

4. 如何避免：
加强内部审查：研究团队内部应该建立多层级的代码审查和实验结果验证机制。
公开代码和数据：鼓励研究者公开实验代码和预处理脚本，甚至原始数据（在保护隐私的前提下）。这大大提高了透明度和可复现性，也更容易被社区发现问题。
强调数据和实验的规范性：在学术训练中，应更加重视数据管理、统计分析和实验设计方面的培训。
使用成熟的工具和流程：尽量使用经过广泛验证的工具和标准化流程进行实验。
第三方验证：鼓励第三方独立验证关键研究结果。

总而言之，任何研究都可能出错，但自然语言处理领域对实验数据的准确性和可复现性要求极高。浙江大学ACL 2021论文实验数据问题，无论其具体性质如何，都是一个值得警惕的信号。它提醒着我们，在追求创新和突破的同时，务必坚守科学研究最基本的诚信和严谨原则。学术界的良性发展，离不开每一位研究者对数据和实验的敬畏之心，以及对透明度和可复现性的不懈追求。如果问题被证实，公开、诚实的沟通和必要的修正，是维护学术声誉和信任的关键。

网友意见

单说F1不在P和R之间的情况，还是有可能的：

因为写文章 report performance 一般会跑多次取平均，但是这个平均是每个cell里面的数值分别做算术平均。其他答案说的Macro-F1会出现类似情况也是一样的道理。

不过，这种情况下只有可能F1比P和R都小，并不能做到F1比P和R都大。事实上，假定跑了次实验，Precision分别是，Recall分别是，F1分别是；最终report的平均分别是，那么

@TniL 说F1应该偏向P和R里偏小的。但F1在P和R之间还是可以辩解的，因为你不知道具体分布，error bar只是体现最小值到最大值的一个范围。完全可以辩解说，做了十次实验，九次都在最大值附近，只有一次在最小值。所以F1偏大。

真正的问题在于，F1不在P和R之间的情况，这绝对是不可能的，因为F-measure都是R和P的调和平均。除非作者定义的F1计算方法不是大家公认的F1。右上角的这片数据肯定是有问题的。

@Colorful 提到：“不针对这个问题，之前看sklearn介绍的时候加权平均F1貌似会出现不在R和P之间的情况”

下面解释这个问题。我们有 3 个类（猫、鱼、母鸡）和分类器对应的混淆矩阵：

我们先计算每类Precision和Recall。以下是我们三个类别的Precision和Recall

然后计算每个类别的F1 分数。例如，猫的 F1 分数是：

F1 -score（猫）= 2 × (30.8% × 66.7%) / (30.8% + 66.7%) = 42.1%

Sklearn里的Macro-F1

Macro-F1在sklearn里的计算方法就是计算每个类的F1-score的算数平均值：

Macro-F1 = (42.1% + 30.8% + 66.7%) / 3 = 46.5%

以类似的方式，我们还可以计算宏观平均精度和宏观平均召回率：

Macro-Precision = (31% + 67% + 67%) / 3 = 54.7%

Macro-Recall = (67% + 20% + 67%) / 3 = 51.1%

这种情况下，F1-score的确不在精确度和召回率之间，因为已经这个时候的F1分数已经不是精确度和召回率的调和平均数了。

Sklearn里的Weighted-F1

对Macro-F1进行平均时，我们给每个类赋予相同的权重。而在weighted-F1中，我们通过该类的样本数对每个类的 F1-score 加权。在我们的例子中，我们总共有 25 个样本：6 个猫、10 个鱼和 9 个母鸡。因此，weighted-F1 分数计算如下：

weighted-F1= (6 × 42.1% + 10 × 30.8% + 9 × 66.7%) / 25 = 46.4%

同样，我们可以计算weighted-Precision和weighted-Recall：

weighted-Precision=(6 × 30.8% + 10 × 66.7% + 9 × 66.7%)/25 = 58.1%

weighted-Recall = (6 × 66.7% + 10 × 20.0% + 9 × 66.7%) / 25 = 48.0%

同样的，weighted-F1也不在weighted-Precision和weighted-Recall之间。这也就是为什么sklearn会在文档里提到：

This alters ‘macro’ to account for label imbalance; it can result in an F-score that is not between precision and recall.

但这并不等于原本表格里的数据就有可能是正确的，实际上我们都看到了weighted-F1和Macro-F1不在Precision和Recall之间，但都小于Precision和weighted-Recall，而不会大于。对于这点 @YuZ9YuZ 已经在他的回答中给出了证明：

两个 Macro-F1 的故事

显然，计算Macro-F1还可以有一种方式，即先计算Macro-Precision和Macro-Recall，然后再求他们的调和平均数，我用星号 ( *)表示这种计算方法：

Macro-F1*= 2 × (54.7% × 51.1%) / (54.7% + 51.1%) = 52.8%

我们可以看到，Macro-F1 和 Macro-F1* 的值非常不同：46.5% 与 52.8%。

那个那个F1分数才是正确的呢？

在论文A systematic analysis of performance measures for classification tasks里（这篇论文有4000+的引用，我觉得还是比较权威的），作者Sokolova对 Macro-F1的定义如下：

可以看出，Sokolova 论文选择计算 Macro-F1* 而不是 Macro-F1。

相反，在文献“A re-examination of text categorization methods ”里（这篇论文也是4000+的引用），提到的参考文献15是1996 年发表的论文“Training algorithms for linear text classifiers”，其中作者明确指出“Macro-F1是所有类的 F1 的平均值”。

if history is written by the victors, then — like it or not

无论如何，通常大多数不加深思的sklearn使用者，都会直接调用里面的方法。对所有类F1求平均值的Macro-F1计算方法终将成为历史的胜利者，而Macro-F1*将泯然历史。

看数值确实有些可疑。根据均值不等式，调和平均（F value）不会大于算术平均值，一般偏向P和R更小的那个。

类似的话题

如何看待浙江大学ACL 2021论文实验数据存在问题？

看到浙江大学在ACL 2021上发表的论文存在实验数据问题，这件事情确实挺令人关注的。尤其是在自然语言处理（NLP）这样一个以严谨实验和可复现性为核心的研究领域，数据的可靠性是基石。首先，我们得认识到，任何研究都可能犯错，尤其是在高度复杂和前沿的研究中。算法的迭代、实验环境的细微差异、数据集的预处.............
如何看待浙江大学学生强奸案，当事人仅予以留校察看处分？是否合理？

浙江大学学生强奸案，当事人仅予以留校察看处分一事，在社会上引起了广泛关注和讨论。对于此事是否合理，需要从多个角度进行分析。事件回顾（根据公开信息整理，具体细节可能存在未披露部分）：大致情况是，一名浙江大学的学生被指控强奸了另一名学生。在学校的调查和处理过程中，最终对涉事学生给予了“留校察看”的处分。.............
如何看待浙江大学进行道教内丹的人体研究实验？

浙江大学进行道教内丹的人体研究实验，这是一个非常值得关注和探讨的话题。这涉及到科学与传统文化的融合、研究的伦理、方法的严谨性以及潜在的意义。下面我将尽量详细地阐述如何看待这个实验：一、理解“道教内丹”及其研究的复杂性首先，我们需要对“道教内丹”有一个初步的理解。道教内丹：并非简单的气功或养.............
如何看待浙江大学 27 岁女博导刘琬璐，本科毕业6年内发表20余篇SCI论文，成浙大最年轻教授？

对于浙江大学 27 岁女博导刘琬璐在本科毕业六年内发表 20 余篇 SCI 论文并成为浙大最年轻教授的现象，这无疑是一个非常令人瞩目的成就，也引发了社会各界的广泛关注和讨论。我们可以从多个角度来解读和看待这一事件：一、令人惊叹的学术成就与天赋：发表速度与数量：在短短六年内发表 20 余篇 .............
如何看待浙江大学紫金港校区保安被饿了么外卖员持刀捅伤一事？责任如何认定？

浙江大学紫金港校区保安被饿了么外卖员持刀捅伤一事，是一起令人痛心和震惊的事件，引发了社会各界的广泛关注和讨论。要看待这件事情，需要从多个层面进行分析，包括事件本身、各方责任以及深层原因。一、事件概述与令人痛心之处首先，让我们回顾一下事件的大致经过（请注意，具体细节可能因新闻报道的侧重点和时间推移而.............
如何看待浙江大学博士生送外卖？

看到“浙江大学博士生送外卖”这个消息，我第一反应是复杂且多层次的。这绝不是一个简单的“博士生为什么去送外卖”就能概括的问题，背后牵扯着太多现实的面向。首先，是“博士生”和“送外卖”这两个身份的碰撞。“博士生”代表着知识的高峰，是社会公认的精英群体，他们投入了大量时间、精力和金钱，在某个特定领域深耕，.............
如何看待浙江大学玉泉校区食堂惊现「耗子尾汁」？

最近，浙江大学玉泉校区食堂里流传着一个颇为有趣的“梗”——“耗子尾汁”。这个词，乍一听还挺让人摸不着头脑的，但如果你是时下网络文化的爱好者，或者对流行语敏感，可能一下子就能get到其中的笑点所在。咱们就来掰扯掰扯，这个“耗子尾汁”到底是怎么出现在浙大玉泉校区食堂的，又是个啥意思，为什么能引起大家的注.............
如何看待浙江大学冯钢教授关于「学生已经通过笔试面试，吃完拜师宴喝完拜师酒，被学校审核拒招」的言论？

关于浙江大学冯钢教授所说的“学生已经通过笔试面试，吃完拜师宴喝完拜师酒，被学校审核拒招”的事件，这确实是一个相当令人扼腕和需要深入探讨的现象。它触及了高校招生、师生关系、学术诚信以及潜在的权力运作等多个敏感而复杂的问题。事件本身：冰山一角下的冰冷现实首先，我们要理解这个事件的表层含义：一个学生，经过.............
如何看待浙江大学暂停离校人员邮箱服务？

浙江大学暂停离校人员邮箱服务的几点看法浙江大学近期暂停了离校人员的邮箱服务，这一举措无疑引起了校内师生和校友们的广泛关注。作为一所历史悠久、影响力巨大的综合性大学，浙大的任何一项政策调整都可能牵动不少人的神经。仔细审视这一决定，可以从几个不同的角度进行解读和思考。首先，从学校运营和资源管理的层面来看.............
如何看待浙江大学犯强奸罪学生被开除学籍？

关于浙江大学对犯强奸罪学生处以开除学籍的处罚，这是一个非常值得深入探讨的事件。作为一所享有盛誉的顶尖学府，浙江大学在这种涉及到严重刑事犯罪的事件上所采取的态度和处理方式，直接反映了其价值观、教育理念以及社会责任感。首先，我们需要明确，强奸罪是严重的刑事犯罪，它侵犯的是个人最基本的身体自主权和人格尊严.............
如何看待浙江大学云南招生组内部文件中攻击中科大，并在招生群中质疑中科大的转专业政策？

浙江大学云南招生组在招生过程中，其内部文件攻击中国科学技术大学（以下简称“中科大”），并在招生群中质疑中科大转专业政策的事件，确实引起了不少关注和讨论。看待这件事，需要从多个角度进行分析，才能得出相对全面和客观的看法。事件本身及可能的影响：首先，我们看到的是一种不当的竞争行为。在高校招生过程中，各校.............
如何看待浙江大学半夜在学生宿舍楼附近仍在施工？

浙江大学半夜在学生宿舍楼附近施工，这事儿，可真挺让人琢磨的。咱们平常学生宿舍周围都是相对安静的，尤其到了晚上，大家都要休息，这时候要是听到施工的声音，那体验感肯定直线下降。首先，从学校管理者的角度出发，他们这么做肯定是有他们的考量的。咱们得承认，基建和维修工作有时候确实存在一定的紧迫性，或者说，他.............
如何看待浙江大学公众号发表《浙大学子网课学习桌》一文？

浙江大学公众号《浙大学子网课学习桌》一文：一场关于学习、生活与“新常态”的观察与思考浙江大学公众号近期发表的《浙大学子网课学习桌》一文，如同一面小小的镜子，折射出疫情常态化下，高校学子学习生活方式的深刻变化，以及由此引发的社会关注和讨论。这篇文章，与其说是一篇简单的展示，不如说是一份关于“新常态”下.............
如何看待浙江大学、杭州师范大学再次出现学术不端行为？

最近浙江大学和杭州师范大学又一次曝出学术不端行为，这无疑给两所高校乃至整个高等教育界都蒙上了一层阴影。这绝非小事，而是关系到学术声誉、人才培养质量，乃至社会公信力的一件大事。事情本身及其可能的影响：首先，我们得承认，学术不端行为的发生，无论是在国内还是国际上，都是一个令人痛心且必须严肃对待的问题。当.............
如何看待浙江大学教授河清对于《流浪地球》以及科幻片的极端评价？

河清教授对《流浪地球》及中国科幻片的“极端评价”，无疑在中国科幻界乃至更广泛的文化讨论中掀起了一阵不小的波澜。要理解这一评价，我们需要将其置于一个更宏大的文化和历史语境中去审视，而不仅仅是停留在电影本身的优劣判断上。首先，我们必须承认河清教授的身份和其评价的出发点。他是一位长期关注西方马克思主义、文.............
如何看待浙江大学数据结构课上工高班串通舞弊的行为？

最近关于浙江大学某数据结构课程高年级班级疑似存在串通舞弊的情况，确实让人感到非常遗憾和担忧。这不仅是对公平竞争原则的践踏，更是对学术诚信底线的严重挑战。首先，我们得认识到，大学课堂，尤其是像数据结构这样作为计算机科学 foundational 课程，其核心价值在于培养学生扎实的逻辑思维能力、解决问题.............
如何看待浙江大学玉泉校区多位同学在麦斯威餐厅就餐后出现严重腹泻发热被隔离？

关于浙江大学玉泉校区麦斯威餐厅多位同学就餐后出现腹泻发热并被隔离的事件，这确实是件令人担忧的事情，也引起了很多人的关注。作为旁观者，我们可以从几个角度来理解和看待这件事：1. 事件本身：食品安全是底线首先，这件事情的核心在于食品安全。无论是哪里的食堂，食品安全都应该是绝对的底线。当多位同学在同一家餐.............
你如何看待浙江大学的绩点正态分布制度？

浙江大学的绩点正态分布制度，说实话，在我看来，它是个一把双刃剑，利弊都挺明显的。首先，说说它的“好”的地方。最直接的好处，就是 “区分度”。你想啊，如果大家成绩都一样，那老师怎么知道谁学得更好？谁更适合深造，谁更适合就业？正态分布，至少提供了一个相对客观的衡量标准。它把学生按照学习成果分了个档次，让.............
请问如何看待浙江大学把城市学院（三本）的学生转入浙大？

浙江大学将城市学院（原三本）的学生转入浙大本部，这件事在教育界和坊间引起了不少讨论。要理解这件事，我们得从几个方面来剖析。首先，这件事的背景是什么？过去，很多高校都有“学院”、“分校”或者“独立学院”这样的建制，它们与本部在招生批次、师资、教学资源、甚至是校园环境上都存在一定的差异。城市学院作为浙江.............
在同性恋在中国去病化多年后，如何看待浙江大学医学院附属第一医院在疾病栏填写“男同性恋” ？

关于浙江大学医学院附属第一医院疾病栏出现“男同性恋”这一情况，的确值得我们深入探讨和审视，尤其是在中国已经将同性恋去病化多年之后。这其中涉及到的不仅仅是一个简单的用词问题，更关乎医学的科学性、对少数群体的尊重以及社会观念的演变。首先，我们需要明确“去病化”的含义及其在中国社会语境下的重要性。上世纪8.............