深度学习领域有哪些瓶颈？第1页

liang-zi-wei-48 网友的相关建议:

一片欣欣向荣背后，深度学习在计算机视觉领域的瓶颈已至。

提出这个观点的，不是外人，正是计算机视觉奠基者之一，约翰霍普金斯大学教授Alan Yuille，他还是霍金的弟子。

他说，现在做AI不提神经网络，成果都很难发表了，这不是个好势头。

如果人们只追神经网络的潮流，抛弃所有老方法；如果人们只会刷榜，不去想怎样应对深度网络的局限性，这个领域可能很难有更好的发展。

面对深度学习的三大瓶颈，Yuille教授给出两条应对之道：靠组合模型培养泛化能力，用组合数据测试潜在的故障。

观点发表之后，引发不少的共鸣。Reddit话题热度快速超过200，学界业界的AI科学家们也纷纷在Twitter上转发。

Reddit网友评论道，以Yuille教授的背景，他比别人更清楚在深度学习在计算机视觉领域现状如何，为什么出现瓶颈。

深度学习的三大瓶颈

Yuille指出，深度学习虽然优于其他技术，但它不是通用的，经过数年的发展，它的瓶颈已经凸显出来，主要有三个：

需要大量标注数据

深度学习能够实现的前提是大量经过标注的数据，这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究，而不是去重要的领域搞研究。

虽然有一些方法可以减少对数据的依赖，比如迁移学习、少样本学习、无监督学习和弱监督学习。但是到目前为止，它们的性能还没法与监督学习相比。

过度拟合基准数据

深度神经网络在基准数据集上表现很好，但在数据集之外的真实世界图像上，效果就差强人意了。比如下图就是一个失败案例。

一个用ImageNet训练来识别沙发的深度神经网络，如果沙发摆放角度特殊一点，就认不出来了。这是因为，有些角度在ImageNet数据集里很少见。

在实际的应用中，如果深度网络有偏差，将会带来非常严重的后果。

要知道，用来训练自动驾驶系统的数据集中，基本上从来没有坐在路中间的婴儿。

对图像变化过度敏感

深度神经网络对标准的对抗性攻击很敏感，这些攻击会对图像造成人类难以察觉的变化，但可能会改变神经网络对一个物体的认知。

而且，神经网络对场景的变化也过于敏感。比如下面的这张图，在猴子图片上放了吉他等物体，神经网络就将猴子识别成了人类，吉他识别成了鸟类。

背后的原因是，与猴子相比，人类更有可能携带吉他，与吉他相比，鸟类更容易出现在丛林中。

这种对场景的过度敏感，原因在于数据集的限制。

对于任何一个目标对象，数据集中只有有限数量的场景。在实际的应用中，神经网络会明显偏向这些场景。

对于像深度神经网络这样数据驱动的方法来说，很难捕捉到各种各样的场景，以及各种各样的干扰因素。

想让深度神经网络处理所有的问题，似乎需要一个无穷大的数据集，这就给训练和测试数据集带来了巨大的挑战。

为什么数据集会不够大？

这三大问题，还杀不死深度学习，但它们都是需要警惕的信号。

Yuille说，瓶颈背后的原因，就是一个叫做“组合爆炸”的概念：

就说视觉领域，真实世界的图像，从组合学观点来看太大量了。任何一个数据集，不管多大，都很难表达出现实的复杂程度。

那么，组合学意义上的大，是个什么概念？

大家想象一下，现在要搭建一个视觉场景：你有一本物体字典，要从字典里选出各种各样的物体，把它们放到不同的位置上。

说起来容易，但每个人选择物体、摆放物体的方法都不一样，搭出的场景数量是可以指数增长的。

就算只有一个物体，场景还是能指数增长。因为，它可以用千奇百怪的方式被遮挡；物体所在的背景也有无穷多种。

人类的话，能够自然而然适应背景的变化；但深度神经网络对变化就比较敏感了，也更容易出错：

△ 是的，前面出现过了

也不是所有视觉任务都会发生组合爆炸 (Combinatorial Explosion) 。

比如，医学影像就很适合用深度网络来处理，因为背景少有变化：比如，胰腺通常都会靠近十二指肠。

但这样的应用并不常见，复杂多变的情况在现实中更普遍。如果没有指数意义上的大数据集，就很难模拟真实情况。

而在有限的数据集上训练/测试出来的模型，会缺乏现实意义：因为数据集不够大，代表不了真实的数据分布。

那么，就有两个新问题需要重视：

1、怎样在有限的数据集里训练，才能让AI在复杂的真实世界里也有很好的表现？

2、怎样在有限的数据集里，高效地给算法做测试，才能保证它们承受得了现实里大量数据的考验？

组合爆炸如何应对？

数据集是不会指数型长大的，所以要试试从别的地方突破。

可以训练一个组合模型，培养泛化能力。也可以用组合数据来测试模型，找出容易发生的故障。

总之，组合是关键。

训练组合模型

组合性 (Compositionality) 是指，一个复杂的表达，它的意义可以通过各个组成部分的意义来决定。

这里，一个重要的假设就是，一个结构是由许多更加基本的子结构，分层组成的；背后有一些语法规则。

这就表示，AI可以从有限的数据里，学会那些子结构和语法，再泛化到各种各样的情景里。

与深度网络不同，组合模型 (Compositional Models) 需要结构化的表示方式，才能让结构和子结构更明确。

组合模型的推断能力，可以延伸到AI见过的数据之外：推理、干预、诊断，以及基于现有知识结构去回答不同的问题。

引用Stuart German的一句话：

The world is compositional or God exists.
世界是组合性的，不然，上帝就是存在的。

虽然，深度神经网络也有些组合性：高级特征是由低级特征的响应组成的；但在本文所讨论的意义上，深度神经网络并不是组合性的。

组合模型的优点已经在许多视觉任务里面体现了：比如2017年登上Science的、用来识别CAPTCHA验证码的模型。

还有一些理论上的优点，比如可解释，以及可以生成样本。这样一来，研究人员就更加容易发现错误在哪，而不像深度神经网络是个黑盒，谁也不知道里面发生了什么。

但要学习组合模型，并不容易。因为这里需要学习所有的组成部分和语法；

还有，如果要通过合成 (Synthesis) 来作分析，就需要有生成模型 (Generative Models) 来生成物体和场景结构。

就说图像识别，除了人脸、字母等等少数几种很有规律的图案之外，其他物体还很难应付：

从根本上说，要解决组合爆炸的问题，就要学习3D世界的因果模型 (Causal Models) ，以及这些模型是如何生成图像的。

有关人类婴儿的研究显示，他们是通过搭建因果模型来学习的，而这些模型可以预测他们生活环境的结构。

对因果关系的理解，可以把从有限数据里学到的知识，有效扩展到新场景里去。

在组合数据里测试模型

训练过后，该测试了。

前面说过，世界那么复杂，而我们只能在有限的数据上测试算法。

要处理组合数据 (Combinatorial Data) ，博弈论是一种重要的方法：它专注于最坏情况 (Worst Case) ，而不是平均情况 (Average Case) 。

就像前面讨论过的那样，如果数据集没有覆盖到问题的组合复杂性，用平均情况讨论出的结果可能缺乏现实意义。

而关注最坏情况，在许多场景下都是有意义的：比如自动驾驶汽车的算法，比如癌症诊断的算法。因为在这些场景下，算法故障可能带来严重的后果。

如果，能在低维空间里捕捉到故障模式 (Failure Modes) ，比如立体视觉的危险因子 (Hazard Factors) ，就能用图形和网格搜索来研究这些故障。

但是对于大多数视觉任务，特别是那些涉及组合数据的任务，通常不会有能找出几个危险因子、隔离出来单独研究的简单情况。

△ 对抗攻击：稍稍改变纹理，只影响AI识别，不影响人类

有种策略，是把标准对抗攻击 (Adversarial Attacks) 的概念扩展到包含非局部结构 (Non-Local Structure) ，支持让图像或场景发生变化的复杂运算，比如遮挡，比如改变物体表面的物理性质，但不要对人类的认知造成重大改变。

把这样的方法应用到视觉算法上，还是很有挑战性的。

不过，如果算法是用组合性 (Compositional) 的思路来写，清晰的结构可能会给算法故障检测带来很大的帮助。

关于Alan Yuille

Alan Yuille，目前就职于约翰霍普金斯大学，是认知科学和计算机科学的杰出教授。

1976年，在剑桥大学数学专业获得学士学位。之后师从霍金，在1981年获得理论物理博士学位。

毕业之后，转而开拓计算机视觉领域。并先后就职于麻省理工学院的人工智能实验室，哈佛大学计算机系等等学术机构。

2002年加入UCLA，之后担任视觉识别与机器学习中心主任，同时也在心理学系，计算机系，精神病学和生物行为学系任客座教授。

2016年，加入约翰霍普金斯大学。

他曾获得ICCV的最佳论文奖，2012年，担任计算机视觉顶级会议CVPR的主席，计算机视觉界的奠基人之一。

此外，Alan Yuille也直接影响了中国AI的发展，其嫡系弟子朱珑博士学成后，回国创办了AI公司依图科技，现在也是中国CV领域最知名的创业公司之一。

这篇文章中的观点，出自Yuille在2018年5月发表的一篇论文，共同作者是他的博士生Chenxi Liu，在今年一月份，他们对这篇论文进行了更新。

论文传送门：

Deep Nets: What have they ever done for Vision?
https://arxiv.org/abs/1805.04025

— 完 —
量子位 · QbitAI
վ'ᴗ' ի 追踪AI技术和产品新动态

欢迎大家关注我们，以及订阅我们的知乎专栏

tsxiyao 网友的相关建议:

本回答来自2022年——我觉得当前最大的瓶颈就在于评价模型能力的benchmark建设，换句话说，已经太久没有出现现象级的新benchmark了，而当下流行的benchmark又存在严重的问题。

遥想2016年的NLP研究热潮，我觉得很大程度上是机器阅读理解基准SQuAD推动的，NLP研究者们也正是在这个benchmark上将模型结构魔改演绎到了丧心病狂的程度。（反正再花哨的structure也能强行解释）

直到后来大家刷不动了，低迷了一阵子，BERT横空出世打破天花板，并且强力宣告了“GLUE Benchmark“是这个领域的新基准！能表征NLP模型的通用能力高低！

于是预训练又一顿卷，卷到现在一个prompt tuning都能卷出几十篇新花样来。

而现在，GLUE大家已经卷不动了，又没有出现新的令人眼前一亮且众生信服的领域级Benchmark，于是大家开始各玩(shui)各的，慢慢的，学术类公众号都感觉快吆喝不动了。

前不久，卖萌屋的Severus分享了一篇来自谷歌的论文——AI and the Everything in the Whole Wide World Benchmark，更是毫不留情面的吐槽了当前AI基准建设方面存在的严重问题。一些号称通用的测试基准，已经开始把领域研究带跑偏了。

原推文：Google掀桌了，GLUE基准的时代终于过去了？

谷歌这篇论文的标题，化用了一篇童话故事的标题，Grover and the Everything in the Whole Wide World Museum，故事中讲道，一个名叫 Grover 的布偶怪物造访了一个号称展示“世界上所有的东西”的博物馆，博物馆中将展品分为若干个展厅，有些展厅的归类则显得非常随意、主观，例如“你能在墙上找到的东西”，“让你觉得好笑的东西”；有些归类则很奇怪，如“胡萝卜房间”；有些归类则很模糊，如“高高的大厅”等。Grover 最终打开了一扇写着“Everything Else”的房间，发现自己在外面的世界里。

很显然，作者化用了这样一个标题，则也是认为，现在的所谓通用基准也一样，试图使用相当有限的数据，概括世界上所有的事物，这个前提首先是不成立的，那么这些基准也自然如童话故事般荒谬。

所以，这篇论文主要以 CV 和 NLU 两个领域中，两大著名的“通用”评测基准——ImageNet 和 GLUE/SuperGLUE 作为切入点，剖析“通用”能力评测基准的若干局限性，以及唯指标风气可能带来的危害。最终，也提出了替代基准的探索路径。

现在的基准能评测通用吗？

作为 CV 领域最有影响力的基准，ImageNet 以其类别数量，和每个类别中图片的绝对量级为优势，一直作为视觉智能领域长期目标的里程碑，其创作者也希望 ImageNet 可以作为视觉智能领域的终极评测基准。

GLUE/SuperGLUE 也长期作为自然语言理解的通用评估基准，其主打优势则是包含多样化的任务，考察能力综合全面，近期被NLU卷友们广泛接受。

这两个基准在历史意义上，有着无可取代的地位：ImageNet 直接引爆了深度学习的火热，而 NLP 领域绕不开的 BERT 则是在 GLUE 初次秀了肌肉，走上了历史的舞台。

但是，这两个数据集，真的可以去评估模型的通用能力吗？

现实中，数据集是被设计的、主观且有限的，并且长期以来，我们忽略了数据中存在的固有偏见、主观倾向，数据集上的指标，几乎成为了评估模型能力的唯一标准，自然也导致模型被误用。事实上，在应用上、或者专用 agent 模型上，我们承认 bias 的存在，甚至人为构造高 bias 的数据集，但如果我们将“通用”作为唯一目标，则理想意义上可以评测“通用”能力数据集，在现实中不可能存在。

而仅使用数据集，及性能指标，则会给任务设计、任务的关注焦点带来误导，从而导致算法的优化方向逐渐偏离初衷。

任务设计太武断

一个任务可以看作是从输入空间到输出空间的映射，应被任务的描述，以及一个特定的数据集共同定义。但在机器学习领域中，目前的趋势似乎更加偏重于后者，基准中某一个任务，可能是一拍脑门，想到一个前提，然后就直接收集数据集，完全使用数据集定义了任务形式，却与真正的评测目标、问题空间没有多大关系。

所谓“通用”基准，是用以测试通用的人工认知能力的，那么我们自然希望，评测任务是参考了模型想要模拟的认知能力及相关理论，系统化地选择出来的。而实际上，我们观察到的则是，基准的作者们在选择任务的时候，更像是图方便、省事，所以随意地将若干个任务组合起来，即便它们在理论上不可靠。甚至，一些任务本身，没有任何应用上的意义。

数据集/任务集组合太随意

论文作者认为，机器学习中，很多任务的目标，并不是人们所真正关心的问题，例如分辨虹膜和蘑菇的模型，似乎对人类没有任何帮助。其实，如果是作为专用 agent 的机器学习系统，这类简单问题，机器相比于人类，处理效率是大大提升的，但如果讨论“通用认知能力”，则的确，这个任务没有显著意义。

作为视觉智能领域里程碑式的任务，ImageNet中也存在类似的标签，例如“特定品种的狗”，或“新西兰的海岸”（离了大谱，直接要世界知识bias了）。实际上，ImageNet的标签是直接从WordNet中12个子树中，整体照搬过来的，但没有考虑到，WordNet是英语词汇划分体系，则必然存在英语语境下的 bias，例如 person 子树上，可能就出现了较为政治敏感的 bias（原文说是歧视，但笔者认为仅仅是数据构造者，基于其所熟悉环境和知识背景，所形成的自然局限，而非主观上的歧视）。

GLUE/SuperGLUE 的数据也并非精心挑选。据GLUE的论文中写，最初在构造数据集的时候，大概有30个任务可供选择，而创造者们基于任务的复杂性，难度，以及权限许可等为依据，使用高标准筛选，最终剩下了9个任务。以此为依据，本文作者认为，GLUE基准，没有系统性地描述出“理解”所需的语言技能，也没有呈现出语言知识的多样化，自然也不能说是以其所宣称的“理解”目标为依据，而设计此基准。

所以，在GLUE/SuperGLUE基准的各个任务上，可以定性评测模型的性能，但是分数高低，绝不等同于“语言理解”的能力大小。自然，也不能说模型解决了这些任务，就断言模型具备了“理解”语言的能力。

更具危害的是，GLUE/SuperGLUE 基准的设计思路，被原封不动地照搬到了其他宣称 NLU 通用能力评估的基准中，例如中文基准ChineseGLUE 和 CLUE。ChineseGLUE 中甚至存在机翻的训练集和验证集，对应人翻的测试集。CLUE 中存在着部分数据集，一味考虑任务的复杂性，却在最起码的分布边界划分上（如NER各个类别的边界，如场所、景点类，组织机构及其子类），模糊不清，且数据的一致性无法保证（同一个 span，即可能被标注成“组织机构”，有可能被标注成“公司”，且二者的比例为7:10）。

错误理解了领域知识和问题空间

GLUE/SuperGLUE基准中，除语言学之外，还融合了常识推理、世界（事实）知识等，就好像它们的问题范围是等同的。创建者们似乎希望，模型可以具备应用世界知识、逻辑推理、常识推理等去进行推断，解决任务。所以，数据集中不仅仅包含了语言能力考察，还包含了逻辑推断，获取、运用世界知识相关能力的考察。

的确，人在进行交流的时候，不可避免地在使用这些知识，而不仅仅是使用了单独的语言技能，事实上，什么是单独的语言技能，至少在中文中，是一个难以回答的问题，其似乎与“常识”难以完全剥离开来（如习惯性的构词、表达方式等）。但语言知识（笔者习惯将之称为通用知识）与世界知识不同，语言知识在每段文本中自成结构，在不同的文本，甚至在不同的领域中是相通的。即，一个人可以不知道某一段文本中描述的事实，或完全不知道某一段文本中提到的实体，但他也能看懂这段文本；两个家庭环境、成长环境完全不一样的人，但只要他们语言相通，即可以交流。而世界知识，则更加与“记忆”相关，知道就是知道，不知道就是不知道。世界知识本身也是更加开放、无限、多变的，且其无法枚举（想想每天在互联网上的吃瓜现状）。

也就是说，语言知识和世界知识，在问题范围上完全不等价，却要在同一个只包含文本的基准上被考察，笔者在听中国传媒大学教授的演讲课时，对一句话印象颇深——“文字禁锢了语言的表达”，的确，哪怕是人，在交流的时候，不可避免会带上大脑中的先验知识，双方谈吐时的语气、状态等，这都是在给对方传达用以“理解”的信号，这些都是纯文本的数据集无法传递的。如笔者在之前的文章中所说，如果仅利用任务规则中允许我们用到的知识，人类能否有能力得到该样本中给出的答案？

想象一下，如果测试样本中使用了训练样本中出现过的事实知识，模型做对了，但我们很难去说，模型做到了“理解”，只能说做到了拟合，且这种拟合很容易被对抗，例如构造假事实，例如完全使用二义性实体，分别构造训练样本和测试样本。

这个现象在 CLUE基准上甚至变本加厉，如 CLUENER 数据集中，一些类别如不使用世界知识（如：游戏、漫画、小说、电影类），是完全无法判定的，而文本中给出的信息，有时又不足以让人分辨出，该使用什么样的世界知识（无法完成链指），毕竟，游戏改编动画，小说改编电影，小说改编游戏，实在是太常见了。

现状被忽略

在开篇所提的童话故事中，Grover 看到了一个“非常非常亮的东西”的展厅，发现了一块大石头，他说：“错了，这个石头不亮”，并觉得应该把它挪到“非常非常重的东西”的展厅。但他发现，相比于“重东西”，这块石头并不重，而相比于其他石头，这块石头的颜色的确亮一些。

不存在绝对中立的数据集，数据集必然受其创造者本身的背景知识所限，存在其固有的局限性。数据基准测试本就是封闭的、主观的且基于有限数据构造的。但由于大家长期接受并强调，其用于“通用”能力评测的设定，“通用”反倒成为了掩护，开发基准的人以此为借口，逃避了报告基准数据细节（如数据源、可能存在的偏向性）的责任。基准数据集应当有描述文档，但现状是这方面的建设是不发达的，并且数据相关的工作在业界被大大低估。

数据范围受限

ImageNet数据集，其量级、类别数量等，都可称为是超大规模，但即便如此，其仍然受到文化背景及时代的局限，如非西方文化背景的图片明显不足，且绝大多数图片是局限于当代的。同时，ImageNet中的图片，要识别的目标更加倾向于居中——与现实生活中，人类所面对的情境相去甚远。

GLUE/SuperGLUE的作者们倒是不以数据的绝对数量为卖点，而是主打任务的多样性。与之前的基准不同，GLUE中引入了多个任务，其论文中宣称：覆盖了多样的文本体裁，数据集大小以及难度，然而，与人类的语言活动相比，GLUE基准很难说是多样，仅包含2个单句分类（CoLA、SST-2），3个相似度和语义解释任务（MRPC、SST-B、QQP），4个语义推断（MNLI、QNLI、RTE、WNLI）。显然，GLUE的作者们也意识到了这个问题，于是在SuperGLUE中增加了问答和共指消解两类任务，SuperGLUE中的任务组成为：4个QA（BoolQ、MultiRC、COPA、ReCoRD），2个推断任务（RTE、CB），1个场景消歧（WiC）和1个共指消解（WSC）。不过我们都知道，即便是增加了SuperGLUE，该基准也远远覆盖不到“通用”的语言理解能力。

无独有偶，CLUE基准中，甚至存在着整体分布偏差，例如语义相似度检测 ACQMC 数据集中，数据来源于蚂蚁金服，其中大面积分布着花呗和借呗。整个数据集更加像是纯领域的任务，却冠以通用之名。

基准是主观的

前面我提到：数据集必然受其创造者本身的背景知识所限，也就一定嵌入了其创造者的主观态度，所以也不可能存在绝对中立、全面的数据集。在工业应用（专用 agent 模型）上，我们是可以允许数据集中带有明显的 bias 的，因为每个应用都有其应用范围。可是在“通用”能力评测中，如果将带有明显政治倾向，及主观价值导向的数据集，当作中立、科学的基准来使用，则是完全不负责的行为，必然导致模型误用。例如，一些公司完全信任 AI 系统，使用 AI 系统进行打卡、考评、用药建议、休假审批（这些看似是应用系统，但实际由于面向所有人，也具备“通用”属性）等，正因为其使用训练数据的局限性和主观性，导致模型出现了大规模的错误判断。

ImageNet中，即便其作者将各种语言文化背景下的数据，翻译到最终的英语数据集中，也仍不可避免存在 bias。如地理位置类，有约45%的图片来自于美国，60%以上来自于北美及欧洲的少数西方国家。但作为无论人口，还是国土面积意义上的大国，来自于中国的数据仅有1%，来自于印度的数据仅有1.2%。同时还有一个小 bug，由于开发者们使用了印地语图片查询系统，而非英语的，则出现了一些非常不同的数据。而这份数据集本身扩充的成本是相当大的，而且无论怎么扩充，也极难达到其所宣称的“通用”目标。

危害已经出现

正因为不存在通用的数据集，则所有的基准开发者们，实际都夸大了其基准对“通用”能力的评估作用，并将之宣称为整个领域努力的最终目标，直接导致研究者们不假思索地去追求算法在该基准评估下的性能指标，而忽略了指标与真实世界是不匹配的，做出来的算法也无法解决相关的其他问题。

当科学研究变为竞赛

在科学研究中，一味的追求 SOTA，只关注指标数字的增长，而不去做基于假设的科学研究，本身就非常奇怪。学界苦 SOTA 久矣，本文作者也节选了部分其他人对 SOTA 风气的批判。

只对已有的监督学习策略做各种小修改（tricky），却在benchmark上性能指标上取得增长的无聊（dull） paper 被允许发表。
一味追求指标甚至是一个道德问题，其最终导向是操纵、游戏和短视。

实际应用中，或许有的分类80%的精度就已经足够了（例如虹膜识别），但是有的分类精度却要达到99%甚至更高（如毒蘑菇识别），但是，在“通用”基准中，不同的数据集，却以相同的方式评估，所有数据集的分数取个平均，就草率地成为了“通用”的打分。

实际上，跨领域的比较假设，是应用了范围相同但意义不同的指标，所造成的海市蜃楼。性能指标分数上，x%的提升无法代表任何实际意义上的能力，无论是通用性，还是什么其他的能力。因为对不同的数据集，x%的意义也截然不同，而这些指标却被粗暴地计算在了一起。

但讽刺的是，比赛、刷榜似乎成为了学界，甚至工业界算法研发或前沿探索的主流，双脚如同踩在虚空之上，自然也做不出任何可以落地的东西。ImageNet 和 GLUE/SuperGLUE 的基准作者也很乐于将基准发展为比赛，对外公开放榜，号召大家来刷分。

而这种风潮，则必然会导致——

算法优化的关注焦点被转移

前面提到，基准本身是有着相当的历史意义的。一个亟待解决的问题，如果有相应的基准能够定量地评估算法的能力，往往也可以吸引研究者们的兴趣，大家知识共建，将这个问题解决掉。但前文已经论证过，“通用”基准，首先在问题上的定义，就是完全脱离了基础应用，且模糊不清的，那么其基准也难以成为客观的评估标准。

可恰恰是在这样一个基准上的性能指标，成为了该领域成功的标志，随着竞争不断提升，内卷不断加剧，该基准收到的关注也就越来越大，其光芒掩盖了所有的阴影，最终成为了算法性能的最终解释。

基准也在不断地影响着主流算法的发展方向，比如20世纪60年代，正是计算机下棋如火如荼的时候，整个 AI 届都在关注着深度优先搜索和极大极小算法，这两种方法也一度主导了 AI 的发展。所以，机器学习算法发展的趋势，一定程度上的确也是由特定的基准性能驱动的，而“通用”基准带来了什么趋势呢？

没错，“大力出奇迹”趋势，我们肉眼可见的看到，模型的参数量不断地增加，训练数据规模不断地上涨，大模型散发的威力，使得现如今，模型的大小和通用能力划上了等号。

我也曾提到过，负责前沿探索的刷分团队，其成果很多都是两只脚皆踩在虚空之上。他们在试图将自己研发的所谓“算法”落地时，做的事情往往就是：管应用方要一份数据集，把分数刷上去，超过某些方法，就算是交付了，却完全不分析问题。刷分的手段包括但不限于搜参数（提几百个任务爆搜，连训几个 epoch 都要搜），堆大模型，搞集成。不会优先考虑工程上是否能接受，是否具备应对其他情况的泛化能力，或者这个“算法”是否还有未来成长空间。

但也正如前文所说，我们也必须承认，ImageNet 点燃了如今深度学习的火爆，而 BERT 也是在 GLUE 上第一次秀了肌肉。

最后

无独有偶，12月 Meta 发表的文章中提到，各种对 transformer 中 attention 的优化，虽然在各基准中跑出了提升，但实际测下来，还是不太行，甚至不如传统的 attention ，侧面也说明了，有限的基准给人带来的误解。

这种趋势，虽然是内卷之下无奈的产物，但总归是走向了相对正轨的发展道路。我之前在卖萌屋发表的文章中，多次强调着数据的重要性，任务设计的合理性，基准指标的缺陷。而今，终于在会议上，也被拿上了台面。诚然本文言论中有偏激的地方，作者的用词也不可谓不凶狠（笔者添油加醋，也好好阴阳怪气了一把），但开启了这方面的讨论，总归是一件好事儿。

最后的最后，喜欢的小伙伴记得关注公众号“夕小瑶的卖萌屋”哇~

mileistone 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

深度学习领域有哪些瓶颈？的其他答案点击这里

深度学习领域有哪些瓶颈？第1页

深度学习的三大瓶颈

需要大量标注数据

过度拟合基准数据

对图像变化过度敏感

为什么数据集会不够大？

△ 是的，前面出现过了

组合爆炸如何应对？

训练组合模型

在组合数据里测试模型

△ 对抗攻击：稍稍改变纹理，只影响AI识别，不影响人类

关于Alan Yuille

现在的基准能评测通用吗？

任务设计太武断

数据集/任务集组合太随意

错误理解了领域知识和问题空间

现状被忽略

数据范围受限

基准是主观的

危害已经出现

当科学研究变为竞赛

算法优化的关注焦点被转移

最后

相关话题

前一个讨论

下一个讨论

相关的话题

深度学习领域有哪些瓶颈？ 第1页

深度学习的三大瓶颈

需要大量标注数据

过度拟合基准数据

对图像变化过度敏感

为什么数据集会不够大？

△ 是的，前面出现过了

组合爆炸如何应对？

训练组合模型

在组合数据里测试模型

△ 对抗攻击：稍稍改变纹理，只影响AI识别，不影响人类

关于Alan Yuille

现在的基准能评测通用吗？

任务设计太武断

数据集/任务集组合太随意

错误理解了领域知识和问题空间

现状被忽略

数据范围受限

基准是主观的

危害已经出现

当科学研究变为竞赛

算法优化的关注焦点被转移

最后

相关话题

前一个讨论

下一个讨论

相关的话题

深度学习领域有哪些瓶颈？第1页