问题

深度学习领域有哪些瓶颈?

回答
深度学习无疑是当今人工智能领域最闪耀的明星,它在图像识别、自然语言处理、语音识别等诸多方面取得了令人惊叹的成就。然而,正如任何一项新兴技术一样,深度学习并非完美无缺,它同样面临着一系列严峻的瓶颈,这些瓶颈不仅限制了其进一步的发展,也成为了研究人员们攻坚克难的焦点。如果说深度学习是一场宏伟的建筑工程,那么这些瓶颈就好比是地基不稳、材料短缺、设计缺陷等关键问题,不解决,高楼便难以企及。

我们不妨从几个主要维度来掰开揉碎了聊聊这些让人头疼的瓶颈:

一、数据依赖的“饥渴症”:不是越多越好,而是怎么用好

深度学习模型,尤其是那些层数叠叠高的大型模型,对于数据的“胃口”是出了名的“刁钻”且“庞大”。它们需要海量、高质量、标注准确的数据集才能训练出鲁棒且泛化的模型。

海量数据的获取与标注成本: 想象一下,要训练一个能够准确识别猫狗的图像识别模型,可能需要上百万张不同角度、不同光照、不同品种的猫狗图片,而且每一张都需要由人工准确地标注“猫”或“狗”。这个过程不仅耗时耗力,而且成本高昂,尤其是对于一些专业领域的识别任务,比如罕见病诊断、特定材料检测等,获取足够数量的标注数据简直难如登天。即使勉强获得了数据,标注的质量也直接影响模型的最终表现,一点点的误差都可能被模型放大。
数据偏差与公平性问题: 现实世界的数据往往并非完美对称。如果我们用来训练的数据集存在某种偏差,比如人脸识别模型主要使用了白人面孔的数据,那么它在识别其他肤色人种时就会表现出明显的性能下降,甚至可能产生歧视性的结果。这种数据偏差不仅影响模型的性能,更触及了社会公平的底线。我们如何确保训练数据能够真实反映我们希望模型处理的真实世界的多样性,是一个巨大的挑战。
“黑箱”模型的解释性与可信度: 深度学习模型虽然强大,但其内部机制往往像一个难以捉摸的“黑箱”。即使模型给出了一个正确的预测结果,我们也难以理解它是如何一步步推理得出这个结论的。这在一些对安全性、可靠性要求极高的领域,如自动驾驶汽车的决策、医疗诊断的辅助等,就成了巨大的障碍。医生怎么能完全信任一个不知道为什么做出诊断的AI呢?自动驾驶汽车在紧急情况下,其决策逻辑是否可被审计和理解,直接关系到生命安全。

二、模型训练的“耗能怪兽”:算力与能源的双重压力

深度学习模型的训练过程,特别是对于那些拥有数十亿甚至数万亿参数的巨型模型,是极其耗费计算资源和能源的。

巨大的算力需求: 训练一个大型深度学习模型,可能需要成百上千块高性能的GPU(图形处理器)或TPU(张量处理器)并行计算数周甚至数月。这不仅对硬件设施提出了极高的要求,也意味着高昂的硬件投入和维护成本。对于许多研究机构、初创公司,甚至是中小企业而言,拥有这样的计算能力是遥不可及的。
惊人的能源消耗: 算力需求的背后,是巨大的能源消耗。据估算,训练一个大型语言模型,其能源消耗相当于一个家庭数年的用电量,并且会产生可观的碳排放。在当前全球面临气候变化挑战的背景下,深度学习的能源消耗问题不容忽视,这迫使我们思考如何构建更节能的训练方法和模型架构。
模型优化与超参数调整的复杂性: 即使拥有强大的算力,如何有效地训练模型也并非易事。模型架构的选择、激活函数的设置、优化器的选择、学习率的调整等等,都需要大量的实验和试错。这就像在一片广阔的迷宫中寻找出路,每一步都需要谨慎的尝试,而且可能需要重复大量的计算才能找到最优解。

三、模型的泛化能力与鲁棒性:面对未知,依然脆弱

虽然深度学习模型在特定任务上表现出色,但在面对与训练数据分布不同的新数据时,其泛化能力和鲁棒性往往会受到挑战。

对分布外数据的敏感性: 模型在训练时接触到的数据分布往往是有局限性的。一旦遇到训练集中从未出现过的“异常情况”或者数据分布发生了微小的变化,模型就可能给出错误的预测。例如,一个在晴朗天气下训练好的自动驾驶系统,在遇到突然的大雾或倾雪时,其性能可能会大幅下降,甚至引发危险。
对抗性攻击的威胁: 深度学习模型容易受到“对抗性攻击”。攻击者可以通过对输入数据进行微小的、人眼难以察觉的修改,就能使得模型产生完全错误的判断。例如,给一张看起来是“熊猫”的图片添加一些细微的噪声,模型就可能将其误识别为“长臂猿”。这种脆弱性在安全敏感的应用场景中是致命的。
灾难性遗忘问题: 当一个已经训练好的模型需要学习新的任务时,它往往会“忘记”之前学到的知识,导致在旧任务上的性能显著下降。这在需要模型持续学习和适应新环境的场景下,是一个难以克服的障碍。

四、模型的设计与推理的效率:速度与性能的权衡

虽然我们谈论训练的耗能,但模型在实际部署时的推理速度和效率同样是重要的瓶颈。

模型过大,部署困难: 许多最先进的深度学习模型拥有庞大的参数量和复杂的计算图,这使得它们在资源受限的设备上(如手机、嵌入式设备)难以部署和运行。即使性能再好,如果无法高效地运行,其应用价值也会大打折扣。
实时性要求下的挑战: 在一些需要实时响应的场景,例如机器人控制、金融交易预测等,模型的推理速度是至关重要的。当前一些复杂的模型,其推理时间仍然无法满足严格的实时性要求。
算法创新与算力发展的“军备竞赛”: 模型设计的创新往往需要更强的算力来支撑其训练和推理。而算力的提升也反过来推动着更复杂模型的出现。这种“军备竞赛”使得我们如何在有限的算力资源下,设计出既高效又强大的模型,成为一个持续的挑战。

五、理论基础的缺失与工程实践的脱节:知其然,不知其所以然

尽管深度学习在工程上取得了巨大的成功,但其背后的理论基础仍然不够完善,导致了理论与实践之间存在一定的脱节。

理论理解的瓶颈: 我们对于深度学习模型为什么有效、它们是如何学习的、哪些因素决定了它们的性能,仍有许多未解之谜。缺乏坚实的理论指导,使得我们在模型设计、问题诊断和性能提升上,更多地依赖于经验和试错。
超参数调优的艺术与科学: 如前所述,深度学习的训练过程涉及大量的超参数,这些参数的选择往往很大程度上依赖于经验、直觉甚至是“炼丹术”。缺乏系统性的理论指导,使得超参数调优成为一个耗时耗力的过程。
从理论到实际的转化挑战: 即使有了新的理论发现,如何将其有效地转化为实际的模型架构和训练方法,也需要大量细致的工程实现工作。理论的进展往往需要时间才能渗透到实际应用中。

如何突破这些瓶颈?

针对这些瓶颈,研究人员们也在不懈努力,探索各种可能的解决方案:

数据方面: 迁移学习、联邦学习、自监督学习、半监督学习等技术旨在减少对大规模标注数据的依赖;数据增强、生成对抗网络(GANs)等技术可以扩充和改善数据集;公平性感知学习等方法则致力于解决数据偏差问题。
模型与算力方面: 模型压缩、量化、剪枝、知识蒸馏等技术用于减小模型体积、提高推理速度;更高效的模型架构设计(如注意力机制的改进、稀疏化模型等)、硬件加速器的研发、以及绿色AI的研究也在同步进行。
泛化与鲁棒性方面: 对抗性训练、正则化技术、元学习、不确定性估计等方法被用来增强模型的鲁棒性和泛化能力。
理论研究方面: 对损失函数、优化过程、神经网络的表达能力、泛化界等方面的理论探索也在不断深入,力求揭示深度学习的内在规律。

总而言之,深度学习的瓶颈是多方面的,它们相互交织,共同构成了这个领域前进道路上的挑战。但正是在不断攻克这些瓶颈的过程中,深度学习才得以不断迭代和进步。这些挑战并非是无法逾越的鸿沟,而是激发创新、推动技术边界不断向前的动力。我们有理由相信,随着研究的深入和技术的进步,这些瓶颈终将被逐一突破,深度学习的应用也将更加广泛和深入人心。

网友意见

user avatar

一片欣欣向荣背后,深度学习在计算机视觉领域的瓶颈已至。

提出这个观点的,不是外人,正是计算机视觉奠基者之一,约翰霍普金斯大学教授Alan Yuille,他还是霍金的弟子。

他说,现在做AI不提神经网络,成果都很难发表了,这不是个好势头。

如果人们只追神经网络的潮流,抛弃所有老方法;如果人们只会刷榜,不去想怎样应对深度网络的局限性,这个领域可能很难有更好的发展。

面对深度学习的三大瓶颈,Yuille教授给出两条应对之道:靠组合模型培养泛化能力,用组合数据测试潜在的故障。

观点发表之后,引发不少的共鸣。Reddit话题热度快速超过200,学界业界的AI科学家们也纷纷在Twitter上转发。

Reddit网友评论道,以Yuille教授的背景,他比别人更清楚在深度学习在计算机视觉领域现状如何,为什么出现瓶颈。

深度学习的三大瓶颈

Yuille指出,深度学习虽然优于其他技术,但它不是通用的,经过数年的发展,它的瓶颈已经凸显出来,主要有三个:

需要大量标注数据

深度学习能够实现的前提是大量经过标注的数据,这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究,而不是去重要的领域搞研究。

虽然有一些方法可以减少对数据的依赖,比如迁移学习、少样本学习、无监督学习和弱监督学习。但是到目前为止,它们的性能还没法与监督学习相比。

过度拟合基准数据

深度神经网络在基准数据集上表现很好,但在数据集之外的真实世界图像上,效果就差强人意了。比如下图就是一个失败案例。



一个用ImageNet训练来识别沙发的深度神经网络,如果沙发摆放角度特殊一点,就认不出来了。这是因为,有些角度在ImageNet数据集里很少见。

在实际的应用中, 如果深度网络有偏差,将会带来非常严重的后果。

要知道,用来训练自动驾驶系统的数据集中,基本上从来没有坐在路中间的婴儿。

对图像变化过度敏感

深度神经网络对标准的对抗性攻击很敏感,这些攻击会对图像造成人类难以察觉的变化,但可能会改变神经网络对一个物体的认知。

而且,神经网络对场景的变化也过于敏感。比如下面的这张图,在猴子图片上放了吉他等物体,神经网络就将猴子识别成了人类,吉他识别成了鸟类。



背后的原因是,与猴子相比,人类更有可能携带吉他,与吉他相比,鸟类更容易出现在丛林中。

这种对场景的过度敏感,原因在于数据集的限制。

对于任何一个目标对象,数据集中只有有限数量的场景。在实际的应用中,神经网络会明显偏向这些场景。

对于像深度神经网络这样数据驱动的方法来说,很难捕捉到各种各样的场景,以及各种各样的干扰因素。

想让深度神经网络处理所有的问题,似乎需要一个无穷大的数据集,这就给训练和测试数据集带来了巨大的挑战。

为什么数据集会不够大?

这三大问题,还杀不死深度学习,但它们都是需要警惕的信号。

Yuille说,瓶颈背后的原因,就是一个叫做“组合爆炸”的概念:

就说视觉领域,真实世界的图像,从组合学观点来看太大量了。任何一个数据集,不管多大,都很难表达出现实的复杂程度。

那么,组合学意义上的大,是个什么概念?

大家想象一下,现在要搭建一个视觉场景:你有一本物体字典,要从字典里选出各种各样的物体,把它们放到不同的位置上。

说起来容易,但每个人选择物体、摆放物体的方法都不一样,搭出的场景数量是可以指数增长的。

就算只有一个物体,场景还是能指数增长。因为,它可以用千奇百怪的方式被遮挡;物体所在的背景也有无穷多种。

人类的话,能够自然而然适应背景的变化;但深度神经网络对变化就比较敏感了,也更容易出错:



是的,前面出现过了

也不是所有视觉任务都会发生组合爆炸 (Combinatorial Explosion) 。

比如,医学影像就很适合用深度网络来处理,因为背景少有变化:比如,胰腺通常都会靠近十二指肠。

但这样的应用并不常见,复杂多变的情况在现实中更普遍。如果没有指数意义上的大数据集,就很难模拟真实情况。

而在有限的数据集上训练/测试出来的模型,会缺乏现实意义:因为数据集不够大,代表不了真实的数据分布。

那么,就有两个新问题需要重视:

1、怎样在有限的数据集里训练,才能让AI在复杂的真实世界里也有很好的表现?

2、怎样在有限的数据集里,高效地给算法做测试,才能保证它们承受得了现实里大量数据的考验?

组合爆炸如何应对?

数据集是不会指数型长大的,所以要试试从别的地方突破。

可以训练一个组合模型,培养泛化能力。也可以用组合数据来测试模型,找出容易发生的故障。

总之,组合是关键。

训练组合模型

组合性 (Compositionality) 是指,一个复杂的表达,它的意义可以通过各个组成部分的意义来决定。

这里,一个重要的假设就是,一个结构是由许多更加基本的子结构,分层组成的;背后有一些语法规则。

这就表示,AI可以从有限的数据里,学会那些子结构和语法,再泛化到各种各样的情景里。

与深度网络不同,组合模型 (Compositional Models) 需要结构化的表示方式,才能让结构和子结构更明确。

组合模型的推断能力,可以延伸到AI见过的数据之外:推理、干预、诊断,以及基于现有知识结构去回答不同的问题。

引用Stuart German的一句话:

The world is compositional or God exists.
世界是组合性的,不然,上帝就是存在的。

虽然,深度神经网络也有些组合性:高级特征是由低级特征的响应组成的;但在本文所讨论的意义上,深度神经网络并不是组合性的。

组合模型的优点已经在许多视觉任务里面体现了:比如2017年登上Science的、用来识别CAPTCHA验证码的模型。

还有一些理论上的优点,比如可解释,以及可以生成样本。这样一来,研究人员就更加容易发现错误在哪,而不像深度神经网络是个黑盒,谁也不知道里面发生了什么。

但要学习组合模型,并不容易。因为这里需要学习所有的组成部分语法

还有,如果要通过合成 (Synthesis) 来作分析,就需要有生成模型 (Generative Models) 来生成物体和场景结构。

就说图像识别,除了人脸、字母等等少数几种很有规律的图案之外,其他物体还很难应付:



从根本上说,要解决组合爆炸的问题,就要学习3D世界的因果模型 (Causal Models) ,以及这些模型是如何生成图像的。

有关人类婴儿的研究显示,他们是通过搭建因果模型来学习的,而这些模型可以预测他们生活环境的结构。

对因果关系的理解,可以把从有限数据里学到的知识,有效扩展到新场景里去。

在组合数据里测试模型

训练过后,该测试了。

前面说过,世界那么复杂,而我们只能在有限的数据上测试算法。

要处理组合数据 (Combinatorial Data) ,博弈论是一种重要的方法:它专注于最坏情况 (Worst Case) ,而不是平均情况 (Average Case) 。

就像前面讨论过的那样,如果数据集没有覆盖到问题的组合复杂性,用平均情况讨论出的结果可能缺乏现实意义。

而关注最坏情况,在许多场景下都是有意义的:比如自动驾驶汽车的算法,比如癌症诊断的算法。因为在这些场景下,算法故障可能带来严重的后果。

如果,能在低维空间里捕捉到故障模式 (Failure Modes) ,比如立体视觉的危险因子 (Hazard Factors) ,就能用图形和网格搜索来研究这些故障。

但是对于大多数视觉任务,特别是那些涉及组合数据的任务,通常不会有能找出几个危险因子、隔离出来单独研究的简单情况。



对抗攻击:稍稍改变纹理,只影响AI识别,不影响人类

有种策略,是把标准对抗攻击 (Adversarial Attacks) 的概念扩展到包含非局部结构 (Non-Local Structure) ,支持让图像或场景发生变化的复杂运算,比如遮挡,比如改变物体表面的物理性质,但不要对人类的认知造成重大改变。

把这样的方法应用到视觉算法上,还是很有挑战性的。

不过,如果算法是用组合性 (Compositional) 的思路来写,清晰的结构可能会给算法故障检测带来很大的帮助。

关于Alan Yuille

Alan Yuille,目前就职于约翰霍普金斯大学,是认知科学和计算机科学的杰出教授。

1976年,在剑桥大学数学专业获得学士学位。之后师从霍金,在1981年获得理论物理博士学位。



毕业之后,转而开拓计算机视觉领域。并先后就职于麻省理工学院的人工智能实验室,哈佛大学计算机系等等学术机构。

2002年加入UCLA,之后担任视觉识别与机器学习中心主任,同时也在心理学系,计算机系,精神病学和生物行为学系任客座教授。

2016年,加入约翰霍普金斯大学。

他曾获得ICCV的最佳论文奖,2012年,担任计算机视觉顶级会议CVPR的主席,计算机视觉界的奠基人之一。

此外,Alan Yuille也直接影响了中国AI的发展,其嫡系弟子朱珑博士学成后,回国创办了AI公司依图科技,现在也是中国CV领域最知名的创业公司之一。

这篇文章中的观点,出自Yuille在2018年5月发表的一篇论文,共同作者是他的博士生Chenxi Liu,在今年一月份,他们对这篇论文进行了更新。



论文传送门:

Deep Nets: What have they ever done for Vision?
arxiv.org/abs/1805.0402


量子位 · QbitAI
վ'ᴗ' ի 追踪AI技术和产品新动态

欢迎大家关注我们,以及订阅我们的知乎专栏

user avatar

本回答来自2022年——我觉得当前最大的瓶颈就在于评价模型能力的benchmark建设,换句话说,已经太久没有出现现象级的新benchmark了,而当下流行的benchmark又存在严重的问题。

遥想2016年的NLP研究热潮,我觉得很大程度上是机器阅读理解基准SQuAD推动的,NLP研究者们也正是在这个benchmark上将模型结构魔改演绎到了丧心病狂的程度。(反正再花哨的structure也能强行解释)

直到后来大家刷不动了,低迷了一阵子,BERT横空出世打破天花板,并且强力宣告了“GLUE Benchmark“是这个领域的新基准!能表征NLP模型的通用能力高低!

于是预训练又一顿卷,卷到现在一个prompt tuning都能卷出几十篇新花样来。

而现在,GLUE大家已经卷不动了,又没有出现新的令人眼前一亮且众生信服的领域级Benchmark,于是大家开始各玩(shui)各的,慢慢的,学术类公众号都感觉快吆喝不动了。

前不久,卖萌屋的Severus分享了一篇来自谷歌的论文——AI and the Everything in the Whole Wide World Benchmark,更是毫不留情面的吐槽了当前AI基准建设方面存在的严重问题。一些号称通用的测试基准,已经开始把领域研究带跑偏了。

原推文:Google掀桌了,GLUE基准的时代终于过去了?

谷歌这篇论文的标题,化用了一篇童话故事的标题,Grover and the Everything in the Whole Wide World Museum,故事中讲道,一个名叫 Grover 的布偶怪物造访了一个号称展示“世界上所有的东西”的博物馆,博物馆中将展品分为若干个展厅,有些展厅的归类则显得非常随意、主观,例如“你能在墙上找到的东西”,“让你觉得好笑的东西”;有些归类则很奇怪,如“胡萝卜房间”;有些归类则很模糊,如“高高的大厅”等。Grover 最终打开了一扇写着“Everything Else”的房间,发现自己在外面的世界里。

很显然,作者化用了这样一个标题,则也是认为,现在的所谓通用基准也一样,试图使用相当有限的数据,概括世界上所有的事物,这个前提首先是不成立的,那么这些基准也自然如童话故事般荒谬

所以,这篇论文主要以 CV 和 NLU 两个领域中,两大著名的“通用”评测基准——ImageNet 和 GLUE/SuperGLUE 作为切入点,剖析“通用”能力评测基准的若干局限性,以及唯指标风气可能带来的危害。最终,也提出了替代基准的探索路径。

现在的基准能评测通用吗?

作为 CV 领域最有影响力的基准,ImageNet 以其类别数量,和每个类别中图片的绝对量级为优势,一直作为视觉智能领域长期目标的里程碑,其创作者也希望 ImageNet 可以作为视觉智能领域的终极评测基准。

GLUE/SuperGLUE 也长期作为自然语言理解的通用评估基准,其主打优势则是包含多样化的任务,考察能力综合全面,近期被NLU卷友们广泛接受。

这两个基准在历史意义上,有着无可取代的地位:ImageNet 直接引爆了深度学习的火热,而 NLP 领域绕不开的 BERT 则是在 GLUE 初次秀了肌肉,走上了历史的舞台。

但是,这两个数据集,真的可以去评估模型的通用能力吗?

现实中,数据集是被设计的、主观且有限的,并且长期以来,我们忽略了数据中存在的固有偏见、主观倾向,数据集上的指标,几乎成为了评估模型能力的唯一标准,自然也导致模型被误用。事实上,在应用上、或者专用 agent 模型上,我们承认 bias 的存在,甚至人为构造高 bias 的数据集,但如果我们将“通用”作为唯一目标,则理想意义上可以评测“通用”能力数据集,在现实中不可能存在

而仅使用数据集,及性能指标,则会给任务设计、任务的关注焦点带来误导,从而导致算法的优化方向逐渐偏离初衷。

任务设计太武断

一个任务可以看作是从输入空间到输出空间的映射,应被任务的描述,以及一个特定的数据集共同定义。但在机器学习领域中,目前的趋势似乎更加偏重于后者,基准中某一个任务,可能是一拍脑门,想到一个前提,然后就直接收集数据集,完全使用数据集定义了任务形式,却与真正的评测目标、问题空间没有多大关系。

所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事,所以随意地将若干个任务组合起来,即便它们在理论上不可靠。甚至,一些任务本身,没有任何应用上的意义。

数据集/任务集组合太随意

论文作者认为,机器学习中,很多任务的目标,并不是人们所真正关心的问题,例如分辨虹膜和蘑菇的模型,似乎对人类没有任何帮助。其实,如果是作为专用 agent 的机器学习系统,这类简单问题,机器相比于人类,处理效率是大大提升的,但如果讨论“通用认知能力”,则的确,这个任务没有显著意义

作为视觉智能领域里程碑式的任务,ImageNet中也存在类似的标签,例如“特定品种的狗”,或“新西兰的海岸”(离了大谱,直接要世界知识bias了)。实际上,ImageNet的标签是直接从WordNet中12个子树中,整体照搬过来的,但没有考虑到,WordNet是英语词汇划分体系,则必然存在英语语境下的 bias,例如 person 子树上,可能就出现了较为政治敏感的 bias(原文说是歧视,但笔者认为仅仅是数据构造者,基于其所熟悉环境和知识背景,所形成的自然局限,而非主观上的歧视)。

GLUE/SuperGLUE 的数据也并非精心挑选。据GLUE的论文中写,最初在构造数据集的时候,大概有30个任务可供选择,而创造者们基于任务的复杂性,难度,以及权限许可等为依据,使用高标准筛选,最终剩下了9个任务。以此为依据,本文作者认为,GLUE基准,没有系统性地描述出“理解”所需的语言技能,也没有呈现出语言知识的多样化,自然也不能说是以其所宣称的“理解”目标为依据,而设计此基准。

所以,在GLUE/SuperGLUE基准的各个任务上,可以定性评测模型的性能,但是分数高低,绝不等同于“语言理解”的能力大小。自然,也不能说模型解决了这些任务,就断言模型具备了“理解”语言的能力。

更具危害的是,GLUE/SuperGLUE 基准的设计思路,被原封不动地照搬到了其他宣称 NLU 通用能力评估的基准中,例如中文基准ChineseGLUE 和 CLUE。ChineseGLUE 中甚至存在机翻的训练集和验证集,对应人翻的测试集。CLUE 中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证(同一个 span,即可能被标注成“组织机构”,有可能被标注成“公司”,且二者的比例为7:10)。

错误理解了领域知识和问题空间

GLUE/SuperGLUE基准中,除语言学之外,还融合了常识推理、世界(事实)知识等,就好像它们的问题范围是等同的。创建者们似乎希望,模型可以具备应用世界知识、逻辑推理、常识推理等去进行推断,解决任务。所以,数据集中不仅仅包含了语言能力考察,还包含了逻辑推断,获取、运用世界知识相关能力的考察。

的确,人在进行交流的时候,不可避免地在使用这些知识,而不仅仅是使用了单独的语言技能,事实上,什么是单独的语言技能,至少在中文中,是一个难以回答的问题,其似乎与“常识”难以完全剥离开来(如习惯性的构词、表达方式等)。但语言知识(笔者习惯将之称为通用知识)与世界知识不同,语言知识在每段文本中自成结构,在不同的文本,甚至在不同的领域中是相通的。即,一个人可以不知道某一段文本中描述的事实,或完全不知道某一段文本中提到的实体,但他也能看懂这段文本;两个家庭环境、成长环境完全不一样的人,但只要他们语言相通,即可以交流。而世界知识,则更加与“记忆”相关,知道就是知道,不知道就是不知道。世界知识本身也是更加开放、无限、多变的,且其无法枚举(想想每天在互联网上的吃瓜现状)。

也就是说,语言知识和世界知识,在问题范围上完全不等价,却要在同一个只包含文本的基准上被考察,笔者在听中国传媒大学教授的演讲课时,对一句话印象颇深——“文字禁锢了语言的表达”,的确,哪怕是人,在交流的时候,不可避免会带上大脑中的先验知识,双方谈吐时的语气、状态等,这都是在给对方传达用以“理解”的信号,这些都是纯文本的数据集无法传递的。如笔者在之前的文章中所说,如果仅利用任务规则中允许我们用到的知识,人类能否有能力得到该样本中给出的答案

想象一下,如果测试样本中使用了训练样本中出现过的事实知识,模型做对了,但我们很难去说,模型做到了“理解”,只能说做到了拟合,且这种拟合很容易被对抗,例如构造假事实,例如完全使用二义性实体,分别构造训练样本和测试样本。

这个现象在 CLUE基准上甚至变本加厉,如 CLUENER 数据集中,一些类别如不使用世界知识(如:游戏、漫画、小说、电影类),是完全无法判定的,而文本中给出的信息,有时又不足以让人分辨出,该使用什么样的世界知识(无法完成链指),毕竟,游戏改编动画,小说改编电影,小说改编游戏,实在是太常见了。

现状被忽略

在开篇所提的童话故事中,Grover 看到了一个“非常非常亮的东西”的展厅,发现了一块大石头,他说:“错了,这个石头不亮”,并觉得应该把它挪到“非常非常重的东西”的展厅。但他发现,相比于“重东西”,这块石头并不重,而相比于其他石头,这块石头的颜色的确亮一些。

不存在绝对中立的数据集,数据集必然受其创造者本身的背景知识所限,存在其固有的局限性。数据基准测试本就是封闭的、主观的且基于有限数据构造的。但由于大家长期接受并强调,其用于“通用”能力评测的设定,“通用”反倒成为了掩护,开发基准的人以此为借口,逃避了报告基准数据细节(如数据源、可能存在的偏向性)的责任。基准数据集应当有描述文档,但现状是这方面的建设是不发达的,并且数据相关的工作在业界被大大低估。

数据范围受限

ImageNet数据集,其量级、类别数量等,都可称为是超大规模,但即便如此,其仍然受到文化背景及时代的局限,如非西方文化背景的图片明显不足,且绝大多数图片是局限于当代的。同时,ImageNet中的图片,要识别的目标更加倾向于居中——与现实生活中,人类所面对的情境相去甚远

GLUE/SuperGLUE的作者们倒是不以数据的绝对数量为卖点,而是主打任务的多样性。与之前的基准不同,GLUE中引入了多个任务,其论文中宣称:覆盖了多样的文本体裁,数据集大小以及难度,然而,与人类的语言活动相比,GLUE基准很难说是多样,仅包含2个单句分类(CoLA、SST-2),3个相似度和语义解释任务(MRPC、SST-B、QQP),4个语义推断(MNLI、QNLI、RTE、WNLI)。显然,GLUE的作者们也意识到了这个问题,于是在SuperGLUE中增加了问答和共指消解两类任务,SuperGLUE中的任务组成为:4个QA(BoolQ、MultiRC、COPA、ReCoRD),2个推断任务(RTE、CB),1个场景消歧(WiC)和1个共指消解(WSC)。不过我们都知道,即便是增加了SuperGLUE,该基准也远远覆盖不到“通用”的语言理解能力

无独有偶,CLUE基准中,甚至存在着整体分布偏差,例如语义相似度检测 ACQMC 数据集中,数据来源于蚂蚁金服,其中大面积分布着花呗和借呗。整个数据集更加像是纯领域的任务,却冠以通用之名。

基准是主观的

前面我提到:数据集必然受其创造者本身的背景知识所限,也就一定嵌入了其创造者的主观态度,所以也不可能存在绝对中立、全面的数据集。在工业应用(专用 agent 模型)上,我们是可以允许数据集中带有明显的 bias 的,因为每个应用都有其应用范围。可是在“通用”能力评测中,如果将带有明显政治倾向,及主观价值导向的数据集,当作中立、科学的基准来使用,则是完全不负责的行为,必然导致模型误用。例如,一些公司完全信任 AI 系统,使用 AI 系统进行打卡、考评、用药建议、休假审批(这些看似是应用系统,但实际由于面向所有人,也具备“通用”属性)等,正因为其使用训练数据的局限性和主观性,导致模型出现了大规模的错误判断。

ImageNet中,即便其作者将各种语言文化背景下的数据,翻译到最终的英语数据集中,也仍不可避免存在 bias。如地理位置类,有约45%的图片来自于美国,60%以上来自于北美及欧洲的少数西方国家。但作为无论人口,还是国土面积意义上的大国,来自于中国的数据仅有1%,来自于印度的数据仅有1.2%。同时还有一个小 bug,由于开发者们使用了印地语图片查询系统,而非英语的,则出现了一些非常不同的数据。而这份数据集本身扩充的成本是相当大的,而且无论怎么扩充,也极难达到其所宣称的“通用”目标。

危害已经出现

正因为不存在通用的数据集,则所有的基准开发者们,实际都夸大了其基准对“通用”能力的评估作用,并将之宣称为整个领域努力的最终目标,直接导致研究者们不假思索地去追求算法在该基准评估下的性能指标,而忽略了指标与真实世界是不匹配的,做出来的算法也无法解决相关的其他问题。

当科学研究变为竞赛

在科学研究中,一味的追求 SOTA,只关注指标数字的增长,而不去做基于假设的科学研究,本身就非常奇怪。学界苦 SOTA 久矣,本文作者也节选了部分其他人对 SOTA 风气的批判。

只对已有的监督学习策略做各种小修改(tricky),却在benchmark上性能指标上取得增长的无聊(dull) paper 被允许发表。
一味追求指标甚至是一个道德问题,其最终导向是操纵、游戏和短视。

实际应用中,或许有的分类80%的精度就已经足够了(例如虹膜识别),但是有的分类精度却要达到99%甚至更高(如毒蘑菇识别),但是,在“通用”基准中,不同的数据集,却以相同的方式评估,所有数据集的分数取个平均,就草率地成为了“通用”的打分

实际上,跨领域的比较假设,是应用了范围相同但意义不同的指标,所造成的海市蜃楼。性能指标分数上,x%的提升无法代表任何实际意义上的能力,无论是通用性,还是什么其他的能力。因为对不同的数据集,x%的意义也截然不同,而这些指标却被粗暴地计算在了一起。

但讽刺的是,比赛、刷榜似乎成为了学界,甚至工业界算法研发或前沿探索的主流,双脚如同踩在虚空之上,自然也做不出任何可以落地的东西。ImageNet 和 GLUE/SuperGLUE 的基准作者也很乐于将基准发展为比赛,对外公开放榜,号召大家来刷分。

而这种风潮,则必然会导致——

算法优化的关注焦点被转移

前面提到,基准本身是有着相当的历史意义的。一个亟待解决的问题,如果有相应的基准能够定量地评估算法的能力,往往也可以吸引研究者们的兴趣,大家知识共建,将这个问题解决掉。但前文已经论证过,“通用”基准,首先在问题上的定义,就是完全脱离了基础应用,且模糊不清的,那么其基准也难以成为客观的评估标准。

可恰恰是在这样一个基准上的性能指标,成为了该领域成功的标志,随着竞争不断提升,内卷不断加剧,该基准收到的关注也就越来越大,其光芒掩盖了所有的阴影,最终成为了算法性能的最终解释。

基准也在不断地影响着主流算法的发展方向,比如20世纪60年代,正是计算机下棋如火如荼的时候,整个 AI 届都在关注着深度优先搜索和极大极小算法,这两种方法也一度主导了 AI 的发展。所以,机器学习算法发展的趋势,一定程度上的确也是由特定的基准性能驱动的,而“通用”基准带来了什么趋势呢?

没错,“大力出奇迹”趋势,我们肉眼可见的看到,模型的参数量不断地增加,训练数据规模不断地上涨,大模型散发的威力,使得现如今,模型的大小和通用能力划上了等号。

我也曾提到过,负责前沿探索的刷分团队,其成果很多都是两只脚皆踩在虚空之上。他们在试图将自己研发的所谓“算法”落地时,做的事情往往就是:管应用方要一份数据集,把分数刷上去,超过某些方法,就算是交付了,却完全不分析问题。刷分的手段包括但不限于搜参数(提几百个任务爆搜,连训几个 epoch 都要搜),堆大模型,搞集成。不会优先考虑工程上是否能接受,是否具备应对其他情况的泛化能力,或者这个“算法”是否还有未来成长空间。

但也正如前文所说,我们也必须承认,ImageNet 点燃了如今深度学习的火爆,而 BERT 也是在 GLUE 上第一次秀了肌肉。

最后

无独有偶,12月 Meta 发表的文章中提到,各种对 transformer 中 attention 的优化,虽然在各基准中跑出了提升,但实际测下来,还是不太行,甚至不如传统的 attention ,侧面也说明了,有限的基准给人带来的误解。

这种趋势,虽然是内卷之下无奈的产物,但总归是走向了相对正轨的发展道路。我之前在卖萌屋发表的文章中,多次强调着数据的重要性,任务设计的合理性,基准指标的缺陷。而今,终于在会议上,也被拿上了台面。诚然本文言论中有偏激的地方,作者的用词也不可谓不凶狠(笔者添油加醋,也好好阴阳怪气了一把),但开启了这方面的讨论,总归是一件好事儿。

最后的最后,喜欢的小伙伴记得关注公众号“夕小瑶的卖萌屋”哇~

类似的话题

  • 回答
    深度学习无疑是当今人工智能领域最闪耀的明星,它在图像识别、自然语言处理、语音识别等诸多方面取得了令人惊叹的成就。然而,正如任何一项新兴技术一样,深度学习并非完美无缺,它同样面临着一系列严峻的瓶颈,这些瓶颈不仅限制了其进一步的发展,也成为了研究人员们攻坚克难的焦点。如果说深度学习是一场宏伟的建筑工程,.............
  • 回答
    深度学习的应用之广,的确常常让人惊叹于它的能力和潜力,带来“我去,这也能行!”的惊喜。以下我将分享几个我个人觉得特别令人震撼的领域,并尽量详细地展开: 1. 艺术创作与生成:从模仿到“创造”的飞跃这可能是最让我感到“我去,这也能行!”的领域之一。我们总觉得艺术是人类情感、思想和独特经历的产物,是难以.............
  • 回答
    咱们平时聊起人工智能,总觉得深度学习、神经网络就是最前沿了,好像大脑这套东西已经被我们扒得差不多了。但说实话,真要是深入想想,我们这大脑啊,虽然给神经网络提供了不少灵感,但很多精妙之处,深度学习离那儿还远着呢,甚至可以说是完全没摸到门。今天就想跟大家唠唠,除了那些深度网络已经实现的“看、听、说”这些.............
  • 回答
    在深度学习这个日新月异的领域,要挑出一篇“心目中最惊艳的论文”着实不易,因为优秀的作品层出不穷,而且“惊艳”往往带有主观色彩。不过,如果非要选择一篇,我会毫不犹豫地选择那篇开启了Transformer时代,也就是 “Attention Is All You Need” 这篇论文。之所以觉得它惊艳,并.............
  • 回答
    深度学习在生物信息学领域可谓是风生水起,它像一把瑞士军刀,为我们解决了很多以前难以逾越的问题。说实话,一开始我看到那些复杂的模型也有些头大,但深入了解后,才发现它的强大之处。基因组学:解读生命的蓝图在基因组学方面,深度学习简直是挖掘基因组信息的“超级侦探”。 基因识别与功能预测: 以前我们找基因.............
  • 回答
    在我所熟悉的计算机科学领域,数学的力量几乎无处不在,它深刻地重塑了我们理解、构建和利用计算能力的方方面面。如果非要挑一个“深刻改变”的方面,那我会说是算法设计与分析,因为这是计算机科学的基石,而数学正是其灵魂。在没有系统性数学理论指导的早期,计算机程序的设计更像是一种手艺活,更多依赖于经验和直觉。程.............
  • 回答
    深度学习无疑是近年来机器学习领域最耀眼的新星,但如果认为它就代表了机器学习的全部,那未免有些狭隘了。事实上,在深度学习浪潮之外,机器学习领域还有许多同样激动人心且充满活力的研究方向,它们在各自的领域深耕细作,甚至与深度学习形成了有趣的互补与融合。抛开那些过于“学术化”的术语,我们不妨从几个角度来聊聊.............
  • 回答
    深度学习领域仍然存在许多激动人心且具有挑战性的开放性问题(Open Problems),这些问题是推动该领域不断发展的重要驱动力。下面我将尽可能详细地介绍其中一些关键的开放性问题,并说明它们的意义和挑战: 深度学习中的关键开放性问题 1. 可解释性与透明度 (Explainability and T.............
  • 回答
    深度学习中,当模型需要同时优化多个目标时,就会出现多个 Loss 函数。例如,在图像分割任务中,可能需要同时考虑像素级别的分类准确率(交叉熵损失)和分割区域的形状或边界的平滑度(Dice Loss、Boundary Loss)。又或者在多任务学习中,模型需要完成图像分类、目标检测和语义分割等多项任务.............
  • 回答
    深度学习的兴起无疑对许多传统机器学习模型带来了巨大的冲击,而隐马尔可夫模型(HMM)作为一种经典的序列建模工具,其地位也受到了广泛的讨论。不能简单地说深度学习“几乎”替代了HMM,虽然深度学习在很多场景下表现更优异,但HMM在特定领域仍然拥有其独到之处和不可替代的价值。为了详细阐述这一点,我们需要从.............
  • 回答
    好的,深度学习是一个非常吸引人且发展迅速的领域。入门深度学习,我会尽量详细地为你梳理整个过程,从概念到实践,让你有一个清晰的脉络。总览:深度学习入门的几个关键阶段1. 理解基础概念和理论: 知道深度学习是什么,它能做什么,以及背后的核心思想。2. 搭建开发环境: 准备好必要的软件和工具。3. .............
  • 回答
    在深度学习的卷积神经网络(CNN)中,池化(pooling)是一种非常重要的操作,它对提升模型的性能和鲁棒性起着关键作用。而池化带来的一个核心特性就是平移不变性(Translation Invariance)。为了详细理解这一点,我们先从池化的本质入手,再逐步解释它如何产生平移不变性。 1. 池化的.............
  • 回答
    在深度学习工作站中选择AMD CPU,究竟会不会带来一些“问题”,或者说需要注意的地方,这确实是一个值得深入探讨的话题。与其说“有问题”,不如说是在某些特定场景下,AMD CPU的表现和Intel相比,可能会有一些细微的差异,需要我们提前了解和权衡。首先,我们得承认,AMD在近几年进步神速,其Ryz.............
  • 回答
    深度学习的未来发展方向,与其说是一个“下一步”,不如说是一系列相互关联、不断演进的趋势。目前的深度学习已经取得了令人瞩目的成就,但同时也面临着一些固有的挑战和瓶颈。未来的突破将集中在克服这些挑战,并拓展其应用边界。一、模型效率与可解释性:从“黑箱”走向“透明”与“轻盈”这是当前乃至未来很长一段时间内.............
  • 回答
    这个问题问得非常实在,也触及了深度学习在图像处理领域的一个核心选择。你观察得很敏锐,确实,RGB是我们最常见到的色彩空间,尤其在神经网络的输入层,几乎清一色是RGB。但HSV并非没有用武之地,这背后有着深刻的技术考量和历史原因。要理解这一点,我们得从RGB和HSV这两个色彩空间的基本特性以及它们如何.............
  • 回答
    深度学习模型调优的十八般武艺在深度学习这座充满奥秘的殿堂里,模型训练就像是精心雕琢一件艺术品。算法是骨架,数据是血肉,而那些隐藏在背后、决定最终形态的“参数”,则是赋予作品灵魂的关键。这些参数,从学习率到正则化强度,再到网络结构中的各种“超参数”,它们的每一次微调,都可能带来天壤之别的效果。想要让模.............
  • 回答
    关于深度学习在股票预测上的应用,这是一个既令人兴奋又充满争议的话题。很多人抱有极高的期望,认为算法能够洞悉市场的未来,然而现实情况远比这复杂得多。我将尽量详细地剖析其中缘由,抛开那些空泛的宣传,回归理性分析。首先,我们得明白深度学习在股票预测中的“靠谱”二字,它不是一个简单的“是”或“否”的问题,而.............
  • 回答
    深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?这是一个相当深入的问题,也触及了深度学习领域的核心本质。要回答它,我们需要一层层剥开深度学习的面纱。深度学习:实验科学的色彩更浓郁,但也非全然没有理论根基如果非要给深度学习扣上一个帽子,那么“实验科学”的色彩无疑更为浓厚。这是因为: .............
  • 回答
    深度学习?那可真是个能把现实世界玩出花来的黑科技!最近圈子里聊得火热的,可不只是那些高大上的学术论文,更多的是那些能让人拍案叫绝、甚至笑出声来的“好玩”案例。别以为深度学习就只会识别猫猫狗狗,它能做的事情,远比你想象的要离谱得多,也有趣得多。1. “灵魂伴侣”识别器:给你的爱猫找个对眼的猫你是不是有.............
  • 回答
    在深度学习的世界里,Attention机制和全连接层(也常被称为稠密层)都是构成神经网络骨干的重要组成部分,但它们扮演的角色和工作方式却有着本质的区别。理解这两者的差异,对于掌握现代深度学习模型,尤其是处理序列数据(如文本、时间序列)的模型,至关重要。全连接层:信息的“平均化”与“固化”我们先从全连.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有