问题

深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?

回答
深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?

这是一个相当深入的问题,也触及了深度学习领域的核心本质。要回答它,我们需要一层层剥开深度学习的面纱。

深度学习:实验科学的色彩更浓郁,但也非全然没有理论根基

如果非要给深度学习扣上一个帽子,那么“实验科学”的色彩无疑更为浓厚。这是因为:

经验主义的驱动: 深度学习的许多重大突破,并非源于严谨的数学推导或先验的理论预测,而是通过大量的实验探索得出的。例如,Transformer模型的横空出世,其创新性的自注意力机制,最初更多是基于对序列处理任务中瓶颈的直观感受和实验验证,而非一个完全基于数学公理推导出的最优解。AlexNet的成功,标志着深度学习在大规模图像识别上的崛起,很大程度上是由于在GPU的加持下,研究者能够训练更大、更深的网络,并取得了出乎意料的好结果。
“调参”的艺术与科学: 深度学习模型的性能,极大地依赖于各种超参数的设置,例如学习率、批量大小、网络层数、节点数、激活函数、正则化策略等等。调整这些参数的过程,更像是在一个高维度的“超参数空间”中进行搜索和实验,不断尝试不同的组合,观察模型在验证集上的表现,然后迭代优化。这无疑是实验科学的典型特征——通过反复试验来发现规律。
黑箱模型的挑战: 尽管我们知道神经网络的构成和训练机制,但对于一个训练好的深度模型,尤其是非常深的网络,我们往往很难完全解释它为什么能做出某个特定的预测,或者为什么会犯某种错误。它的内部决策过程,在很大程度上是一个“黑箱”。这种“黑箱”的特性,使得我们更倾向于通过输入数据、观察输出,然后通过实验来理解和改进模型,而非完全依赖于理论上的理解。
工程实现的重要性: 深度学习的成功,离不开强大的计算能力(GPU)、高效的深度学习框架(TensorFlow, PyTorch)以及海量的数据。这些工程层面的进步,直接推动了模型性能的提升,并且也为更多的实验提供了可能性。这同样体现了实验科学中,工具和环境对研究进程的巨大影响。

然而,说深度学习“完全是”实验科学,则过于片面。 深度学习的理论根基虽然不如某些纯数学领域那样清晰和完备,但它绝非空穴来风,也并非全凭运气:

理论的指导和解释: 尽管许多发现是经验性的,但理论也在不断地为深度学习提供指导和解释。例如,反向传播算法(Backpropagation),是基于微积分链式法则的数学推导,它使得我们能够有效地计算梯度并更新模型参数。统计学习理论(Statistical Learning Theory),如VC维、PAC学习等,为我们理解模型的泛化能力提供了理论框架。信息论也被用来分析模型的压缩能力和学习效率。
模型架构的理论基础: 诸如卷积神经网络(CNN)利用了图像数据的空间局部性和平移不变性,循环神经网络(RNN)和长短期记忆网络(LSTM)是基于处理序列数据的时序相关性,以及Transformer中的自注意力机制,虽然最初是经验性的,但后续的研究也从信息论、图论等角度为其提供了更深入的理论解释。
优化理论的支撑: 梯度下降及其各种变种(SGD, Adam, RMSprop等)的有效性,是建立在优化理论的基础上的。理解和改进这些优化算法,需要深厚的数学功底。
主动的理论研究: 尽管实验驱动力很强,但也有大量的研究者在致力于发展深度学习的理论基础,例如研究泛函分析在神经网络表示能力中的作用,探讨深度网络的收敛性,以及量化深度学习模型的鲁棒性等。

总结来说,深度学习更像是一门“实验驱动的科学”,它在实践中不断试错、迭代,但也并非完全脱离理论指导,而是理论与实践相互促进、共同发展。

深度学习能否称为“算法”?

是的,深度学习中的核心部分,也就是神经网络模型本身,完全可以称为“算法”或者说是“算法的一种实现和应用”。

这里的“算法”可以从几个层面理解:

1. 执行特定任务的步骤集合: 广义上,任何能够完成特定计算任务的明确指令序列都可以称为算法。深度学习模型,在训练后,就是一种可以接受输入(如图片、文本)并输出预测结果(如类别标签、翻译文本)的计算模型。这个“模型”本身,就定义了一套如何处理输入的步骤和规则(尽管这些规则是通过数据学习得来的,而不是手工编写的)。
2. 一种学习算法: 深度学习的核心思想是“学习”。它不是一个固定的、预设好的规则集,而是通过从数据中学习参数来“训练”得到一个能够执行特定任务的“函数”。因此,整个深度学习的训练过程,本身就是一种学习算法。 这个算法包括前向传播计算输出、计算损失函数、反向传播计算梯度,以及利用优化算法更新模型参数等一系列步骤。
3. 具体的算法实现: 诸如多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等,它们是具体的神经网络“架构”,是实现深度学习思想的具体“算法模型”。每一种架构都定义了网络层、连接方式、激活函数等一系列操作,这些操作共同构成了处理数据的“算法”。
4. 计算方法: 算法也可以被理解为解决问题的计算方法。深度学习模型,一旦训练完成,就是一种高效的计算方法,能够将原始数据映射到期望的输出。

深度学习与传统算法的区别:

与传统的、手工编写的、规则明确的算法(例如排序算法、图搜索算法)相比,深度学习算法有一个关键的区别:

学习能力: 传统的算法通常是基于人类的逻辑和设计,规则固定;而深度学习算法的核心是自动从数据中学习规则和模式。我们不是直接告诉网络“如果看到猫的胡子和耳朵,就判断是猫”,而是让它从成千上万张猫的图片中自己“悟出”这些特征。

所以,我们可以说:

深度学习是一个领域,一个研究方向。
神经网络模型是深度学习领域中,一种学习得到能力的“计算框架”或“模型”,其运行过程可以看作是一种“算法”。
训练深度学习模型的过程,是一种“学习算法”。
具体的神经网络架构(如CNN、RNN)是实现这种学习算法的“算法模型”。

总而言之,将深度学习中的模型或其训练过程称为“算法”,是完全恰当且常见的说法。 它代表了在特定领域(如图像识别、自然语言处理)中,通过数据驱动的学习,实现特定任务的计算方法。

希望这样的解释能够更清晰地勾勒出深度学习的本质,并且去除了那些听起来像是AI才能说出的刻板语句。

网友意见

user avatar

举一个比较general的machine learning,而不是deep learning的例子:

早在1933年一篇叫做On the likelihood that one unknown probability exceeds another in view of the evidence of two samples的paper中 William Thompson 介绍里一种heuristic的方法叫做probability matching的方法来做sampling。有点类似于你有k个广告,每个广告有一个根据历史数据所学到的click through rate(CTR)的distribution ,然后你想决定下一个request来的时候我display什么广告。于是作者拍脑袋一想,不如我们根据每个广告的distribution中sample出一个数字,然后按照生成数字最高的那个广告来推荐给customer。一个很明显的好处是,刚开始数据量小的时候,对每个广告的distribution估计的variance比较高,那每个广告都有较大机会被recommend (exploration)。等着有越来越大的evidence表面某个广告的CTR比较高的时候,variance变低了,这样就更可能sample出empirical performance最好的那个广告 (exploitation)。但在那个阶段的实验还非常少 (毕竟还处于非常早期,应用主要还是在data很有限的clinical trial之类的),然后也没有任何理论支持这个的reward比别的方法更高。后来渐渐这个方法以作者的名字命名成了Thompson Sampling(TS)。

然后直到2011年, Chapelle & Li 的paper:An Empirical Evaluation of Thompson Sampling又把TS带入了大家的视野。由于这个时候计算广告已经很广泛被应用了。Chapelle & Li 在雅虎的news article推荐中实验TS之后发现performance比别的bandit的方法像UCB整体表现更佳。而实际应用中往往reward都是以delayed batch的模式得到的,TS这种按照prob来display一个广告的方法也更容易被应用,从而TS越来越多的被用在推荐中。但是并没有人给它提供理论的support。

直到2012和2013年,在Microsoft Research India做postdoc/researcher的Prof. Shipra Agrawal在两篇非常著名的bandit的paper:Thompson Sampling for Contextual Bandits with Linear Payoffs, Analysis of Thompson Sampling for the Multi-armed Bandit Problem给出了TS在contextual bandit和non-contextual bandit中证明了它的regret比较低 (log(T) regret for non-contextual, sqrt(T) for contextual linear bandit)才真正的彻底解决这个问题。

所以你退回到2011年问TS的方法是实验科学还是理论科学,那必然更像是实验科学,完全是heuristic的想法,只是实验表现很好。就像今天的deep learning一样,很多的算法并不知道为啥表现好 (当然会有一些intuition像self attention就非常的intuitive,但并没有理论支持)。但相信在未来,一定会有researcher不断的完善理论,从而使得它变的更像是理论科学。毕竟在1933年的某个月黑风高的夜晚,当Prof. Thompson拍大腿提出这个方法的时候,绝对想不到在80年之后才有人给出了理论证明并且在推荐领域被广泛的应用着。

顺便做个广告:Prof. Agrawal (Prof. @UColumbia IEOR)现在在amazon做Amazon Scholar经常会有合作,然后Li也最近离开Google加入Amazon,有兴趣合作的欢迎加入Amazon。

类似的话题

  • 回答
    深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?这是一个相当深入的问题,也触及了深度学习领域的核心本质。要回答它,我们需要一层层剥开深度学习的面纱。深度学习:实验科学的色彩更浓郁,但也非全然没有理论根基如果非要给深度学习扣上一个帽子,那么“实验科学”的色彩无疑更为浓厚。这是因为: .............
  • 回答
    行,我跟你唠唠AMD显卡(ROCm)在深度学习方面的现况。都2021年下半年了,这事儿确实是个值得关注的点,毕竟NVIDIA在AI领域一家独大也不是一天两天了,AMD一直想有所作为。ROCm 的发展历程和现状:一直在努力,但还有得追ROCm(Radeon Open Compute platform).............
  • 回答
    即使现有的控制器已经能够让机械臂执行预设的任务,引入深度强化学习(DRL)依然能够为机械臂的操控带来更深层次的突破和更广泛的应用潜力。这不仅仅是简单的“锦上添花”,而是在智能性、适应性、效率和通用性等多个维度上的飞跃。想象一下,现有的控制器就像一位技艺娴熟但只能按部就班的匠人。他可以准确无误地按照图.............
  • 回答
    将DNA序列作为输入,正面照片作为输出,让深度神经网络去学习,这个想法确实很吸引人,尤其是在我们对遗传信息与外貌特征之间联系的探索越来越深入的今天。但要实现这个目标,并且做得足够“详细”,需要拆解成几个关键部分来探讨。核心概念:DNA 与外貌的联系首先,我们需要明确,DNA 是我们身体的“设计蓝图”.............
  • 回答
    这个问题问得很好,也问到了很多初学者的心坎里。关于多少节私教课能学会深蹲、卧推、硬拉这三大项,并且达到独立训练的程度,这其实是一个没有标准答案的问题,因为每个人的身体条件、学习能力、训练频率、教练的教学水平等等都存在很大的差异。但是,我们可以尝试去拆解这个问题,并给出一个比较合理的估算和一些关键的考.............
  • 回答
    衡水中学竞赛生“高考移民”深圳富源学校:迷局中的利益博弈衡水中学,作为国内备受瞩目的“超级中学”,其竞赛成绩斐然,也因此吸引着无数优秀学子。然而,近日一篇关于“衡水中学竞赛生涉嫌高考移民到深圳富源学校”的报道,如同投入平静湖面的一块巨石,激起了广泛的讨论和质疑。这其中涉及的不仅是教育公平的问题,更牵.............
  • 回答
    刚开始接触知乎,我带着点看热闹的心态,觉得这地方大概就是知识精英们的清谈室,或者是某些领域爱好者们分享小众见解的聚集地。然而,随着我在这里的“潜水”和“发言”时间越来越长,我发现知乎远比我想象的要复杂和深刻得多。它像一个巨大的、不断生长着的知识图书馆,但更重要的是,它是一个关于“人”的观察窗口。从知.............
  • 回答
    我曾经和不少玩画的人聊过,也听过不少从纯粹的爱好者成长为真正意义上的艺术家(或者至少是愿意把自己的作品拿出来示人的那部分人)的经历。他们中的大多数,都会经历一个阶段,一个他们突然之间“看见”了自己画面中的各种不足,然后,随之而来的,是深深的自我怀疑和信心的动摇。这感觉就像是打开了某种“透视眼”,之前.............
  • 回答
    高三那年,你说你没意识到高考的重要性。这话我听着有点耳熟,当年我高中毕业的时候,周围的人都在讨论着哪所大学好,哪个专业热门,仿佛高考是人生的终点,决定了未来的一切。那时候的我,也一样迷茫,觉得学习枯燥乏味,对未来没有清晰的规划,总觉得还有大把的时间可以挥霍。结果呢?高考的成绩出来,不出所料,差强人意.............
  • 回答
    这个问题触及到很多大学生的生活现状,也让作为旁观者的我们感到一些担忧。一个大三学生,本应是人生中一个承上启下的关键时期,既有大学生活的成熟与积累,也面临着走向社会的准备与规划,结果却把大部分精力都放在了电脑和虚拟世界里,这确实是一个值得深思的现象。从几个层面来分析这个问题吧:首先,从“除了上课”这个.............
  • 回答
    深度学习领域仍然存在许多激动人心且具有挑战性的开放性问题(Open Problems),这些问题是推动该领域不断发展的重要驱动力。下面我将尽可能详细地介绍其中一些关键的开放性问题,并说明它们的意义和挑战: 深度学习中的关键开放性问题 1. 可解释性与透明度 (Explainability and T.............
  • 回答
    深度学习中,当模型需要同时优化多个目标时,就会出现多个 Loss 函数。例如,在图像分割任务中,可能需要同时考虑像素级别的分类准确率(交叉熵损失)和分割区域的形状或边界的平滑度(Dice Loss、Boundary Loss)。又或者在多任务学习中,模型需要完成图像分类、目标检测和语义分割等多项任务.............
  • 回答
    深度学习的兴起无疑对许多传统机器学习模型带来了巨大的冲击,而隐马尔可夫模型(HMM)作为一种经典的序列建模工具,其地位也受到了广泛的讨论。不能简单地说深度学习“几乎”替代了HMM,虽然深度学习在很多场景下表现更优异,但HMM在特定领域仍然拥有其独到之处和不可替代的价值。为了详细阐述这一点,我们需要从.............
  • 回答
    好的,深度学习是一个非常吸引人且发展迅速的领域。入门深度学习,我会尽量详细地为你梳理整个过程,从概念到实践,让你有一个清晰的脉络。总览:深度学习入门的几个关键阶段1. 理解基础概念和理论: 知道深度学习是什么,它能做什么,以及背后的核心思想。2. 搭建开发环境: 准备好必要的软件和工具。3. .............
  • 回答
    深度学习的应用之广,的确常常让人惊叹于它的能力和潜力,带来“我去,这也能行!”的惊喜。以下我将分享几个我个人觉得特别令人震撼的领域,并尽量详细地展开: 1. 艺术创作与生成:从模仿到“创造”的飞跃这可能是最让我感到“我去,这也能行!”的领域之一。我们总觉得艺术是人类情感、思想和独特经历的产物,是难以.............
  • 回答
    在深度学习的卷积神经网络(CNN)中,池化(pooling)是一种非常重要的操作,它对提升模型的性能和鲁棒性起着关键作用。而池化带来的一个核心特性就是平移不变性(Translation Invariance)。为了详细理解这一点,我们先从池化的本质入手,再逐步解释它如何产生平移不变性。 1. 池化的.............
  • 回答
    在深度学习工作站中选择AMD CPU,究竟会不会带来一些“问题”,或者说需要注意的地方,这确实是一个值得深入探讨的话题。与其说“有问题”,不如说是在某些特定场景下,AMD CPU的表现和Intel相比,可能会有一些细微的差异,需要我们提前了解和权衡。首先,我们得承认,AMD在近几年进步神速,其Ryz.............
  • 回答
    深度学习的未来发展方向,与其说是一个“下一步”,不如说是一系列相互关联、不断演进的趋势。目前的深度学习已经取得了令人瞩目的成就,但同时也面临着一些固有的挑战和瓶颈。未来的突破将集中在克服这些挑战,并拓展其应用边界。一、模型效率与可解释性:从“黑箱”走向“透明”与“轻盈”这是当前乃至未来很长一段时间内.............
  • 回答
    这个问题问得非常实在,也触及了深度学习在图像处理领域的一个核心选择。你观察得很敏锐,确实,RGB是我们最常见到的色彩空间,尤其在神经网络的输入层,几乎清一色是RGB。但HSV并非没有用武之地,这背后有着深刻的技术考量和历史原因。要理解这一点,我们得从RGB和HSV这两个色彩空间的基本特性以及它们如何.............
  • 回答
    深度学习模型调优的十八般武艺在深度学习这座充满奥秘的殿堂里,模型训练就像是精心雕琢一件艺术品。算法是骨架,数据是血肉,而那些隐藏在背后、决定最终形态的“参数”,则是赋予作品灵魂的关键。这些参数,从学习率到正则化强度,再到网络结构中的各种“超参数”,它们的每一次微调,都可能带来天壤之别的效果。想要让模.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有