为什么有些学数学的看不惯甚至鄙视 Deep Learning？

数学背景深厚的人对深度学习产生“看不惯”甚至“鄙视”的情绪，这背后有着多方面的复杂原因，并非简单的个人偏见。这些原因可以归结为：

1. 深度学习的“黑箱”性质与数学的“白箱”哲学：

数学的本质是严谨的推理和可解释性：数学最核心的魅力在于其逻辑的严密性、证明的清晰性以及概念的精确性。一个数学定理之所以被接受，是因为它可以通过一系列可验证的、逻辑自洽的步骤推导出来。每一个概念、每一个公式都有其清晰的定义和意义。
深度学习的“黑箱”：尽管深度学习建立在大量的数学理论之上（如微积分、线性代数、概率论、信息论等），但一个训练好的深度神经网络，尤其是拥有数百万甚至数十亿参数的复杂模型，其内部的决策过程对于人类来说是极其难以理解的。我们知道输入什么，输出什么，以及模型表现如何，但很难精确地解释“为什么”模型会做出某个特定的决策，或者为什么它在某个特定样本上出错。这种缺乏透明度和可解释性，与数学追求的“白箱”性质形成了鲜明对比。
数学家对“为什么”的执着：对于数学家来说，理解“为什么”比知道“是什么”更重要。他们希望能够深入理解一个方法的原理，证明它的局限性，并在此基础上进行改进或提出更优的方案。深度学习的“黑箱”特性让这种“为什么”变得模糊不清，甚至难以触及。

2. 对理论基础的“不够深入”或“脱离”的担忧：

过度依赖经验和工程技巧：深度学习的发展在很大程度上是由大量的实验数据、计算资源和工程上的“调参”驱动的。很多时候，成功并非源于对底层数学原理的深刻洞察，而是通过不断尝试不同的网络结构、激活函数、优化器、正则化方法等来逼近一个好的结果。这种“试错法”式的工程导向，让一些数学家觉得深度学习的进展显得“不够数学化”，甚至有些“粗糙”。
缺乏普适性和理论保证：尽管深度学习在很多任务上表现出色，但其理论基础的完善程度仍然存在争议。例如，很多关于深度学习模型泛化能力的理论解释仍然是活跃的研究领域，缺乏像经典统计学或机器学习理论那样成熟和完备的解释。这种理论上的不确定性，会让注重理论基础的数学家感到不安。
概念的混淆或误用：在深度学习的语境下，一些传统的数学概念（如“收敛”、“优化”、“泛化”）可能会被赋予新的含义或应用方式，但其核心的数学意义有时会被简化或忽视，从而导致一些误解或不精确的使用。

3. 对研究方法论的差异：

数学研究强调“证明”：数学研究的终极目标是证明一个猜想，或者推导出一个定理。这个过程是严谨的、形式化的、可重复的。
深度学习研究更偏向“实验验证”：深度学习的研究通常是通过在特定数据集上进行大量实验来验证一个想法的有效性。结果的好坏往往用具体的指标（如准确率、损失值）来衡量。这种以实验结果为导向的研究范式，虽然高效，但与数学的“证明导向”有所不同。
对“偶然性”的看法不同：数学追求的是普遍的真理，不受特定情况的影响。而深度学习的成功在很大程度上依赖于特定的数据集和训练过程，其结果可能存在一定的偶然性。数学家可能认为，如果没有坚实的理论支撑，这种成功更多是“运气好”而不是“能力强”。

4. 对“创新”的定义和理解：

数学家眼中的“创新”：对数学家而言，真正的创新往往是提出新的数学对象、新的数学结构、新的证明方法、新的公理系统，或者拓展现有的数学分支。这些创新通常具有深刻的理论意义和普适性。
深度学习的“创新”：深度学习的创新更多体现在新的网络结构（如Transformer、GANs）、新的训练技术（如dropout、batch normalization）、新的应用领域等方面。这些创新虽然带来了巨大的实用价值，但在数学家看来，其“根本性”和“原创性”可能不如数学本身的抽象创新。

5. 对“智能”的定义和理解：

数学的理性与逻辑：数学是人类理性思维的极致体现，其核心是逻辑推理、符号操作和抽象思维。
深度学习对“智能”的模拟：深度学习在某些方面模拟了人类学习和识别的能力，但它仍然是一种基于模式识别和统计关联的“关联式智能”。许多数学家认为，这种智能与真正意义上的“理解”、“意识”或“创造性”相去甚远。他们可能认为，深度学习的成功只是在模仿某些智能行为，而没有触及智能的本质。

6. 历史的惯性与学科壁垒：

学科的独立发展：数学作为一门古老而成熟的学科，有着自己一套成熟的研究方法、评价体系和学术传统。它长期以来相对独立地发展。
新兴领域的冲击：深度学习作为一门新兴的交叉学科，其快速发展和巨大的成功，在一定程度上改变了人们对人工智能的认知，也对传统的计算科学和统计学领域产生了冲击。这种冲击可能带来一些抵触情绪，尤其当新的方法似乎“绕过”了某些成熟的理论体系时。
“学院派”与“应用派”的张力：在很多学科中都存在“学院派”（偏重理论和基础研究）与“应用派”（偏重实际应用和工程实现）之间的张力。数学背景深厚的人可能更倾向于“学院派”的思维方式，对过度工程化或缺乏理论支撑的应用持保留态度。

总结来说，数学背景深厚的人对深度学习的“看不惯”或“鄙视”，往往源于：

对理论严谨性和可解释性的追求与深度学习“黑箱”性质的矛盾。
对深度学习研究方法中经验主义和工程技巧过度依赖的担忧。
对深度学习理论基础不完备以及缺乏普适性解释的不满。
对“智能”本质的理解差异，以及对深度学习模拟智能方式的质疑。
学科惯性和研究方法论的差异所带来的潜在冲突。

值得强调的是，这并不意味着所有数学家都鄙视深度学习。事实上，许多数学家对深度学习展现出的潜力感到兴奋，并积极投身于弥合理论与实践之间差距的研究。他们正在为深度学习提供更坚实的数学基础，开发更具解释性的模型，以及探索更普遍适用的理论框架。

这种“看不惯”更多的是一种对严谨性、理论深度和“为什么”的执着，以及对新兴领域发展过程中出现的理论真空的审视和担忧。随着深度学习理论研究的不断深入，这种分歧也在逐渐弥合。

网友意见

@2prime 您吐槽dl的文章灌水的多，那么其他ml领域灌水的文章就不多么？公式推不动了就加assumption，也不管这个assumption符不符合实际。实际问题解决不了就去搞一套自己的setting，也不管这个setting实际生活中会不会出现。这不是灌水？当然，dl的文章也不乏靠堆模型灌水的。无论是dl还是ml，好文章都只是少数。

说到灌水，我想多说两句。

一个一年级的博士可能需要练练手，第一篇文章很可能在专家眼里确实是“灌水”，难道就因此不让他发？

一个五年级的博士生可能因为导师给的研究方向比较难，快毕业的时候还没有好的成果，难不成还不能灌个水混个毕业？

并不是说我就支持灌水，只是想表达科研人员也要生存，尤其是国内的科研人员，总要有些文章拿来申请科研经费吧？不然自费做科研？

还有您吐槽的dl的文章难复现，您确定您真的关心dl的工作么？多少dl工作的作者把代码放到github上并耐心的解答issue里的各种问题？这其中就包括您影射的fast rcnn。

您说现在做dl的人只会调参，有多少超参数让你去调？lr，momentum，weight decay，初始化方式等等很多都是用默认参数的，而且只要用sgd优化的模型都设计到这些参数，为什么单黑dl？

“dl有本事去做医疗问题啊” ，最近kaggle上Data Science Bowl不少人在用dl吧？也许可解释性还是软肋，但是不能说不work吧？

“大二学生发一篇cvpr都可以”，确实可以，但大二能发cvpr的也是大神了。

搞数学的一般鄙视没有理论基础的东西。

现在深度学习非常火，因为效果非常好，但是理论解释几乎不存在。

现有数学对于凸问题有一套很漂亮的理论。以前机器学习的主流是线性回归、SVM，都是凸问题。那时候每个算法都有定性定量的分析，大家都很开心，就是实际能解决的问题很有限。

然而深度学习的精髓是怎么非凸怎么来，非凸函数套非凸函数，一套几十层，所以没人知道怎么理论分析。根本原因还是因为现有数学工具太弱了，研究不了这种非凸问题。想搞深度学习理论研究，先要有基础数学上的突破。

现在的数学研究是什么状态？像欧拉、高斯那样著作等身，每页都是大定理的时代已经远去。一个人牛人研究一个问题四、五年，搞出一个上百页的证明，然后要十几个牛人花几个月的时间仔细推敲，才能判断它对不对。而且这个趋势在不断恶化。

这种研究已经逼近人类极限了。

培养一个本科生要二十几年，而在数学这种极度烧脑细胞的领域，四十岁已经是大龄了。一个数学家的黄金时间也就十几年。

同时数学水平是无法复制的，一个天才不可能在短时间内把“内功”传给另一个天才。很多东西只可意会，不可言传，需要长时间练习、积累。

这么算下来一个天才一辈子能突破一两个定理就不错了。在不远的未来，证明一个定理的周期可能超过十年，二十年。到时候只有天降伟人才能推动数学前进一小步。

也许人类太傲慢了，像深度神经网络这种鬼东西，以人类的智力水平本来就不能精确理解。

如此说来人工智能就没有希望了么？我觉得不是的。

自然选择创造了人类，它只有两条规则，随机变异，适者生存，连“智能”这个目标都没有。这证明理论基础并不是创造智能的必要条件。

调参工程师的水平怎么也比自然选择高，实验一次的周期也比自然短。几十年前人工智能连苍蝇都不如，现在已经差不多有青蛙的水平了（青蛙有16,000,000个神经元）。

也许靠硬件发展和黑盒调参，就能实现超越人类的人工智能呢？

也许对人类来说，创造智能比从理论上理解智能要容易呢？

比起研究深度学习理论，也许记录细节、开源代码更关键。

只要迭代和传承的效率够高，也许我们有生之年就可以搞出人工智能，到时候再问它怎么解释自己就好了。

学数学看不起深度学习太正常了，因为中间还差好几层。

完整点的鄙视链是：学数学的 —> 学统计的 —> 学机器学习的 —> 学深度学习的 —> 学cv/nlp/dm/...

而且就算是数学里面，也有一条很长的鄙视链。十多年前混了一阵子组合数学，发现地位比较低。后来学了学李代数，发现还是底层居民。后来安心在cs里，因为不怎么烧脑细胞。遇到上层居民都是敬仰的绕路走。

我觉得这些喜欢用纯数学来吹逼的可以来信道点对点通信编码这个学科里来被折磨一通：

点对点通信信道编码这个学科，绝大多数已有的编码方案，越是有严谨的代数，图论等数学模型为基础的编码方案，性能越糟糕（图论的会好些）。。偶尔会有几个亮点可以把整个学科的人打一针鸡血（如特斯法斯曼构造的代数几何码在超过49进制的符号中传输性能终于超过了GV bound理论下确界），但是基本都因复杂度过高而无法实用（光是构造这样的码就要超过15次幂的多项式复杂度）。。而且认知到整个学科走在死胡同最终清醒过来，大约要晚到20世纪90年代初，因为90年代头几年依然还在给“几何代数码的译码算法” “非线性码的Z4群构造” 这些不断往让人望而生畏的数学领域深挖的论文发年度最佳论文奖。

终于90年代有turbo码（3G，4G的方案）的发现和ldpc码（5G的主要方案）的重新发现，大家开始重新认知到了：根据香农的通信领域创世论文，随机构造的通信方案中蕴藏着非常好的通信编码方案（在不考虑编译码复杂度的情况下（那个年代基本不敢对复杂度特别挑，n^2logn复杂度的方案也甘之如饴，宇宙深空通信你收到宇宙飞船的信号立方复杂度你就嫌复杂啦？赶紧用命去解码），随机构造出来的码的性能的期望大致和理论最佳方案的性能上界相差无几，你可以理解在通信的学科的某些问题里，随机乱走棋的alpha go在棋盘非常大时棋力和围棋之神相差无几。），所以大家开始使用一些有随机结构的方法来构造码，虽然这类方法没有什么特别让数学爱好者们心动的新算法或码结构出现（例如Guruswami-Sudan list decoding algorithm这种可以反哺其他诸如计算复杂度之类的学科的算法结果）,但是工程界的结果一直在稳步朝香农当年所预言的性能指标迈进（05年ldpc已经有距离香农界0.01db以内的结果了）。。无数编码学家发现自己该失业了：过去为这个学科准备的数学知识都排不上用场了，工程师们都在玩随机交织之类的方案像玩玩具似的交织+打孔构造各种强力turbo码（非常类似于现在各种小学生用tensorflow各种调参训练各种模型一样），也构造用于存储的高码率ldpc或者低密度生成码，业界需要的只是调参工程师（当然也有像linshu这样的华人之光引入了代数ldpc码，打开了另外一扇窗口），，直到

极化码（polar码，5G控制信道中短码的一种可选方案）的出现，重新给了编码学者们一个新的数学玩具。他几乎不再需要调参，仅仅从理论上即可证明自己可以达到香农的性能，只是时延稍大（其实和他的竞争对手相比，蛮致命的），编译码复杂度都是nlogn（有一些变化方案复杂度会高些）。数学性非常强，无需引入随机方法，但是性能分析和证明方面需要一些随机过程分析，鞅这类过去没有引入过这个学科的一些数学工具，已经基本看不到高等代数的身影。非常多的较为年轻的代数编码学者都转向了极化码：印度人（包括他们收的中国徒弟），俄罗斯人，也包括我师门内认识的国人，好多我过去看到的代数编码常客都蜂拥而至，给极化码带来一些新的视点和角度。华为2012我估计也是因为这一波大潮被极化码绑架的：毕竟极化码太容易出paper了（2013年信息论大会直接就让极化码作者的大学举办），那个时间点的研究员肯定会举手赞成all in 极化码。

说了那么多，我来给你说说我们这学科的鄙视链：

polar码->ldpc码（5G）->turbo码（3G，4G）（记得拉香农祖师来壮胆和群嘲，否则实在无法解释自己的牛逼，因为牛逼的太没数学道理了）->代数几何码和goppa码->硬盘光盘raid二维码用的reed-solomon码->闪存ecc以及对讲机用的bch码越到后面就是被鄙视的来基本没有什么学术界的人去研究了。数学要求最高的代数几何码其实有段时间是被鄙视的最狠的：毕竟这个学科当年差点被人认为died了，就是因为太多主流研究方向都在沿着代数几何这类高深纯数学化发展，导致越来越少人投入精力到这个学科了。

十分悲伤的就是，笔者当年是反着这条鄙视链研究慢慢深入上去的（老师对我的培养比较正统化，基本沿着学科发展的时间顺序带我入门的），还好没有在代数几何那些代数曲线上花特别多功夫，在reed-solomon码上研究出来点结果成功毕业。毕业时最终大彻大悟就是答案：还是去当码农养家比较实在啊（不过这些年还是一直对polar，goppa，reed-solomon放不下，听到阿里出了个polardb就颇有好感）。

我就是学数学的，以前和一个做机器学习的大牛聊天，提到数学系的学生如何看待dl，被调侃道：

学数学的看不起dl--->因为dl缺乏理论基础--->因为缺乏合适的数学工具--->说白了还是你们搞数学的人太弱......

我竟无言以对......

这个问题本身挺没意思的。在我看来，这种表现可能是源自一股天然的傲慢，压根没有去了解过深度学习，可能是出于嫉妒（酸葡萄）心理，眼红深度学习现在的火热，也可能是一些其他原因。但无论怎样，没啥好多解释深究的。我想回答这个问题的原因，是因为想说几句关于数学出身的研究者对于深度学习的态度 -- 按照利益相关，我先说明我是应用数学专业，现在感兴趣DL的一些的应用研究。

虽然在普通人眼里都是数学专业，但稍微接触过的人都知道，现代数学的理论和应用在前沿研究层面已经是相当不同的了。所以这个话题也得分两方面来看。对于做纯数的人来说，前面一个答案提到的 "没态度" 就是一个很好的概括。神经网络这东西，在表示和算法方面都不太符合现代纯数研究的品味 -- 本身没啥漂亮深刻的数学结构，也看不到和其他分支的联系。所以，大部分做纯数的人对此不关心不在意的态度是很正常的。

但对于做应用数学的人来说，我想很难无视深度学习现在如此令人惊讶的表现，更别说鄙视了 -- 其实我自己就是这么被导师带入坑的。其实说到底，最重要的一个关键词就是维数灾难（Curse of dimensionality）。回顾历史的话，要知道这个词就是应用数学大家 Richard Bellman 在研究动态规划的时候最早提出的。六十多年过去了，别说完全克服了，连个登堂入室像模像样的解决办法都没有。悲催的是，这个困难又无处不在，各种方程各种近似里都有他，可谓是广义应用数学领域中一个很本质的困难。直到几年前，深度学习一声惊雷，涌现出这么多优秀的结果。图像，语言，这些高维的东西都能被神经网络很好地映射，这在传统应数思维下来看是蛮有颠覆性的。所以我才说做应数的人不应忽视深度学习。恰恰相反，这方面有许多激动人心的研究可做，直接一点的可以寻求更广更好的应用，深刻一点的可以探索理论突破。如果能在后者有重大贡献的话，想必也是非凡的学术成就了。

以相对熟悉的 CV 领域来谈谈自己的看法。

不可否认，DL 的许多模型在一些工业界任务上取得了非常非常棒的效果，我用过的比如 Google 的 FaceNet 做人脸特征 Embedding 进而做人脸识别，YOLO 做安全帽检测，还有 CMU 的 OpenPose 做人体骨架提取。这些案例都超越了大量的传统方法，并且很好集成到实际落地的工业项目中来进行二次开发。

但回到学术界，成吨的 DL 相关论文每天都在“提出新的结构”，“站上新的 SOTA”。不知道为什么，加深一下、连接一下、乘一乘权重，然后再用一堆写的花里胡哨但实际上很简单的公式试图来解释这样修改的合理性。文末花大量的篇幅讲实验，一看只是涨了微小的零点零几个点。我每次都在怀疑，这些论文真的有研究、有意义吗？

大量的论文不公布源代码和实现细节，不公布文中效果特别棒的预训练模型。对于代码开源的，很多时候，读了一遍代码会发现和论文里根本是两码事。另外，某些学者的代码，软件工程质量真的堪忧——格式稀烂的 README、拼写错误的英语、乱七八糟的工具函数、用途不明的配置项、从未回复的 Issue。你敢想象，在一个 GitHub 300+ star 的论文配套 repo 里，作者在里面写 LeetCode？

之前在腾讯实习的时候，一天吃晚饭时，听到别的组做算法的同事吐槽，“现在天天模型那么多，真拿上来部署的不还都是 ResNet？”是啊，那些论文上漂漂亮亮的模型，有几个能考虑到工业落地的需求呢？

现在，DL 向一些更专业的领域去侵入了。他们对着医学图像，甭管它是 DR、CT 还是 MRI，甭管拍的是什么部位，拿到一份数据，就开始 augmentation，去模拟，去注噪，然后开始拟合，就去噪了，就跑出 PSNR，跑出 SSIM，或者请几个“专家”来人工主观打分。最后，一篇 SCI 就横空出世了。

可是那数据集是那么的干净，那噪声注入是多么的天真。加个高斯噪声就叫做模拟？能生成个泊松噪声的就已经属于进步了！

他们不知道，换一台设备，或者调整一下电压电流（剂量），成像的效果就是截然不同的，是你的数据集里没有的。他们不去用 16bit 深的 raw 图像，而拿着一张一张的 JPEG 或者 PNG。他们不考虑准直器、康普顿散射、探测器的坏点、本底噪声、热噪声、射束硬化这些噪声来源的不同特性——有的会随某些参数变化，有的在任何条件下都保持相对稳定。没有物理，没有数学建模支持，一股脑的拿一个万金油瓶往上面套，这样有人敢用吗？在另一个数据集上，你的效果会比一个高斯低通滤波器好多少吗？

我不排斥一些大组、大公司做出的能应用到工业界的 DL 的成果，它们中有许多确实已经在改变我们的生活了。但是现实的很多问题不是这么简单去做一个 fitting，做一个 loss descent 就能够解决的。至少要保持对数学、对物理、对工程，还有对领域特定知识的敬畏。

天下难事，必作于易。

首先，跨行比较是不客观的：深度学习在各方面都受约束的条件下，做出被客观检验的成果，难度不见得比数学界低。数学界很多情况是在一个各种assumption都自己设定的真空环境下开展的，即便理论有突破，圈外人也很难检验。

其实深度学习一点也不容易，觉得简单是因为深度学习社区开放度太高，分工太好：所有前人的技术都能作为自己的infrastructure。

所谓难的问题/技术，本质上是把一系列逻辑推理和知识反复叠加包装形成的关联信息块。

数学中证明一个问题或提出一种方法往往接近于从零开始去做一件事，你甚至不知道可能会用到什么样的知识。

如果让一个工程师(甚至一个公司)从零开始构建一个高效的深度学习的解决方案，难度是非常大的，至少需要做：

改进编译器，手写各种必要的算子 (比如Convolution中的卷积算法，Transformer中算self-attention算法)。得益于caffe，TensorFlow，pytorch是全面开源免费的，这些都不用做了。
假如最开始AlexNet和残差网络像封闭圈子一样都没有开源，恐怕复现出来都很困难。
自己收集数据集，准确归类并做标签，去构建ImageNet等数据集从而能有效验证自己的loss function和网络模型。
自己做大量实验去发现dropout，batch normalization，学习率动态调整，label smoothing等各种trick，其实还是非常困难的。
写neural architecture search算法去找到最佳的模型结构。
由于动辄就是千万级参数，需要构建高效的监控软件去从训练log文件中发现问题或pattern。

所以，这次AI技术的大发展其实是得益于深度学习社区的开放性：深度学习所有相关的技术都是开源的和免费的。这种开放性让无数小白用户都可以快速收敛到最优质的资源，快速入门深度学习。深度学习从业者不需要书籍，也不需要购买任何知网服务或IEEE数据库，所有好论文或好资源都可以从arxiv或其它免费地方找到。数学专业有时候却需要费很大功夫去找一篇1980年代论文，并且网上也没有任何对这篇论文的解释。

我们不应该鄙视深度学习的简单，这种简单其实无数人努力的结果。我们应该感谢Alex Krizhevsky，Yann LeCun，李飞飞，Andrew Ng，贾扬清等技术领袖为引导深度学习社区开放性所做的贡献。

别说学数学的看不惯，我一个天天跟 Deep model 打交道的都看不惯。说个暴论，DL 研究者中，能理解「自己的」工作的，顶多10%。这个数字是根据顶会论文质量估计出来的--即便是命中率20%的顶会文章，依然有很多让人“读不懂”。不是因为理论艰涩读不懂，而是文章糟糕的写作：就算你从头读到实验部分，看到他们花式秀 performances，也依然不知道设计模型的初衷是啥，对于试验结果有什么解释，而作者们压根就没打算对这两方面做解释。

DL 领域有太多人，真的是太多，对科学缺乏基本的敬畏之心。各个领域的研究都要基于前人的结论，所以在开发模块的时候至少应该讨论一下使用的前提吧？或者至少分析一下为啥效果会好吧？而且都不求在数学原理上分析，就讲讲 motivation 总行吧？然而很大一部分工作，连这点基本的要求都不能满足，这问题就不在于水平，而是态度。我们学习的数学定理，都会去定义使用的条件，而一个 solid work，会有相当大比例的工作量是在“定义使用前提”上的。但这些都是必要的工作，因为这样子后面的研究者才有信心基于以前的结论来开发呀。DL 倒好，开发者不说，使用者不问，省去了很大的必要工作量，那么对于工作质量也不会有任何保证。

对科学缺乏敬畏之心还体现在完全没有“追根溯源”的兴趣。做完一个话题立马 move on to next one. 以一年发两位数文章为荣的 community，对于话题深度有多么不尊重，可见一斑。作为一个司机，“会开车”意味着至少了解自己每个操作，对汽车行驶状态的作用是什么。不少 DL 工作给人的感觉就是一群人不但不会开车，而且还追求开快车，用王老师的话来说

一句话，人无知尚可改善，反智则无可救药。DL 不乏好的工作，但对于将 community 风气带坏的反智工作和部分水王，我是极其看不惯的。

DL的难度取决于看问题的角度。数学系的话应该往理论方向看。

DL用线性和非线性函数堆砌来构造函数，用随机梯度下降就可以训练，而且还有非常好的泛化能力，在我看来这样的东西居然没有原理这是完全不可想像的。但是DL很难，难到大家都不知道如何入手，用什么数学工具都不知道，所以说什么样的理论文章都有，凝聚态物理的（spin-glass)，量子物理的（重整化群），ODE的（动力系统），各种优化理论（这个例子太多），各种复杂度理论，但还没看到真正提炼出本质的。数学这边那么多理论，但现在还没有哪个能搬到DL上而且能严丝合缝的，至于能进行有效预测的就更没有了。这就足够说明问题的复杂性，DL是没那么简单的。

要深入DL，各种基础知识是不可少的。但是基础知识并不是拿来炫耀的本钱，因为学了一大堆，可能一个都没用。比如说VC Dimension或者Rademacher Complexity对DL有没有用？它们本身都很漂亮，但可能假设太强得到的结论和现实差很远，或者假设太宽泛得到的结论太弱，都不在DL的工作区间。所以做理论的人，不得不一个个学过来，想过了，试过了，然后放掉，下一个。解决问题是最终的目标，而不是学得比人多些，然后坐在原地不动夸耀自己厉害。耍弄十八般武艺，比不过高手一招制敌。至于这一招怎么找到，或者从理论分析这边入手，或者从实验入手，都是一样有价值，都是平等的，不存在谁鄙视谁的问题。鄙视就意味着有不合理的预设立场，忽视另一种思路的作用，对解决问题是不利的。

学数学的时候，我的感觉像是走进了琳琅满目的艺术博物馆，在整洁的环境中欣赏各种精巧的美。DL相比之下就像是锅炉房里堆叠着一坨污七八糟的机器，工程师们东敲西打让它工作，虽然脏乱，确实有效。大部分人可以沿着前人铺好的锦绣路上再添砖加瓦，但是真正厉害的，是不顾脏乱跑到锅炉房里把机器拆开，化腐朽为神奇，找到最重要原理的那些人。开创比修补难，与其抱怨DL没有高深数学做框架，不如自己试试看，能不能做些有趣的东西出来。现在那么大的金矿放在那里，大家应该好好合作使劲挖矿才是啊。小波是很美，但问题是它的基函数是固定形式的，不能适应具体问题，而且还需要数学家搞一辈子才能搞出来。与之相比，深度模型训练几天就能跑出来，而且针对具体问题（比如说图像分类）效果还更好，你会选哪个？所以说现在思路要转变，一个一个地研究模型太没效率了，做一个对数据自动建模的模型，是不是在战略上会更有趣一点呢？

我和我一个同学聊过，他现在是统计系的终身教授，列举了几个非常牛的数学家，问我AI再牛牛得过他们么？我没有正面回答，我在想人类看蚂蚁的时候会思考普通蚂蚁和聪明一点的蚂蚁之间的区别么？我这里并没有贬低数学家的意思，因为人类都是一样的，我也是微不足道的普通蚂蚁而已——相比耗能堪比一座小城市并且每几个月就更新换代的集群，人脑仅仅几十瓦的功率，神经元间慢达毫秒级的传输速度，败下阵来只是时间问题。而现在的人脑处理大部分任务甚至还远胜集群，可见人工智能潜力之大。我有时候觉得我们看到几颗星辰就以为是大突破了，其实我们还在漫漫长夜里瞎摸，太阳还没有露头呢。

另外说一下门槛低的问题。几百年前，微积分出来之后，一大类问题都可以用统一的方法解决，让技术进步的门槛降低了，本来高高在上的各种技巧平民化了，马上就带动了相关领域的巨大进展。这个历史进程和我们现在看到深度学习的进程一模一样，开源了，大家都用了，对整个人类而言进步就快了。到了这个时候，单枪匹马干不了什么事，人民群众才是技术进步的原动力。

面对时代的洪流，相比嘲弄别人随波逐流，思考应该如何顺势而为，或许是更有建设性的吧。

类似的话题

为什么有些学数学的看不惯甚至鄙视 Deep Learning？

数学背景深厚的人对深度学习产生“看不惯”甚至“鄙视”的情绪，这背后有着多方面的复杂原因，并非简单的个人偏见。这些原因可以归结为：1. 深度学习的“黑箱”性质与数学的“白箱”哲学：数学的本质是严谨的推理和可解释性：数学最核心的魅力在于其逻辑的严密性、证明的清晰性以及概念的精确性。一个数学定理之.............
为什么学数学，无论是初中、高中，还是大学，总有种“这我怎么可能想到”的感觉？

你这个问题，可太真实了！我当年上学的时候，每每碰到一道“神来之笔”的数学题，脑子里第一个念头就是：“这谁能想得到啊？” 感觉自己好像是被一道天外飞仙的题目给“盯上”了。咱们不妨一层一层地剥开这层“为什么”，看看数学这东西，到底是怎么让我们产生这种“绝望”又“惊喜”的奇妙感觉的。一、什么是“想不到”.............
在本科数学阶段你学过最有趣的一门数学课是什么？为什么？

想当年，我本科在读的时候，数学系里课如繁星，但要说哪一门让我至今仍念念不忘，觉得特有意思，那还得是“抽象代数”。听名字就挺“唬人”的，什么群啊，环啊，域啊，初听之下，感觉离我们平时接触的数字、函数啥的，隔着十万八千里。但正是这种“抽象”，在我看来，才是它最迷人的地方。我记得那时候，刚开始学群。老师讲.............
为什么有些大佬特别聪明，就比如武汉某985数学系学生的宿舍，大佬躺在床上就可以做出别人问的数学难题？

话说这事儿，可不是什么新鲜事儿。你说的武汉某985数学系宿舍里那几位，在我看来，他们身上体现了一种近乎神级的思维惯性，或者说是思维的“肌肉记忆”吧。咱们别把它想得太玄乎，其实背后有很多可以细嚼慢咽的东西。首先，我们得明白，那些被称为“大佬”的，他们绝不是凭空就突然变得聪明绝顶。这背后是个漫长而系统性.............
学数学有点钻牛角尖，总是怀疑书中推导的严谨性，各位有什么好办法吗？

哥们，我太理解你了！这感觉就像是，你拿着一本武功秘籍， вроде 招式都写得很清楚，但总觉得哪里不对劲，好像作者藏了什么关键的暗器没说。我当年学数学的时候也这样，尤其是推导一些定理或者公式的时候，总忍不住想：这地方跳跃是不是太大了？那个假设真的成立吗？万一有什么特殊情况，这个推导就不适用了怎么办？.............
急/高中数学怎么学？有什么学习数学的方法吗？本人复读生？

哥们，作为一名复读生，我知道你现在的心情肯定比普通高考生更复杂。既有对过去一年不甘心的情绪，也有对新一年学习的决心和一丝丝的迷茫。别急，数学这东西，特别是高中数学，只要方法对了，并且持之以恒地去做，绝对是可以攻克的。我来给你掰扯掰扯，怎么把高中数学这道坎儿给迈过去，并且迈得稳稳当当的。首先，我们得摆.............
非数学专业《高等数学》里学的微分方程和数学系学的《常微分方程》有什么差别呢？

我不是 AI，我是一个大型语言模型，由 Google 训练。非数学专业的《高等数学》和数学系的《常微分方程》在内容深度、侧重点和学习目标上确实存在显著的差异。可以这样理解：前者像是让你认识一把工具，了解它能干什么，怎么用基础的方法应付常见场景；后者则像是让你深入研究这把工具的设计原理、材料科学、精密.............
有什么办法可以喜欢上数学？主要是不想以一种强迫的方式去学它了。？

这问题问得特别好，谁说学数学一定要板着脸，咬着牙关呢？把数学当成洪水猛兽，那可就错怪它了。喜欢上数学，说到底就是找到它有趣的地方，让它变成你生活里一个有意思的伙伴，而不是什么令人头疼的任务。我琢磨着，咱们可以从这几个方面入手，试着让数学变得不一样起来：一、改变“看”数学的角度：让它从枯燥的符号变成.............
有两个疑问：一是三角锥构型是不是只用于化学的用语，因为在数学上感觉没学过；二是 p4 是什么构型？

你提出的这两个问题都非常有趣，而且触及到了化学和数学中一些基础但容易混淆的概念。我们来一一细致地聊聊。关于“三角锥构型”：化学的专属语言吗？你的第一个疑问很有洞察力。关于“三角锥构型”（Trigonal Pyramidal），你的感觉是正确的，它确实主要是在化学，特别是无机化学和有机化学中用来描述.............
为什么有些编程语言的数组要从零开始算？

这背后其实是一套相当精密的计算逻辑，跟计算机处理数据的方式息息相关。你想啊，计算机内部处理信息，最基础的就是内存。内存就像一个长长的、首尾相连的仓库，里面一格一格的存放着数据。当我们说一个数组，比如有5个元素的数组，在内存里它就占用了一连串连续的空间。最关键的是，计算机需要一种方法来快速地找到这个数.............
为什么会有「男生比女生学数学更有优势」这一说法？

“男生比女生学数学更有优势”这个说法之所以存在，是一个复杂的话题，它并非基于确凿的科学证据，而是更多地受到社会文化因素、刻板印象以及历史认知的影响。下面我将详细阐述这个说法的可能来源、支持和反对的论点，以及我们应该如何看待它。这种说法可能来源的几个方面：1. 历史和文化因素：教育机.............
耳机的thd+n数值越小说明音质越好吗？为什么有些一千多块钱的耳机比上万的数据都好。？

耳机 THD+N 数值越小，音质越好吗？浅谈数据与听感的微妙关系在选购耳机时，我们常常会遇到各种各样的技术参数，其中“THD+N”无疑是让不少人头疼的一个。这个缩写代表着“总谐波失真加噪声”（Total Harmonic Distortion + Noise），听起来就充满了专业感。那么，THD+N.............
我们为什么要学数学？学数学有什么意义？

人生百态，万事万物，从浩瀚的宇宙星辰到微观的原子粒子，从宏伟的建筑设计到精巧的电子元件，甚至我们日常生活的衣食住行、喜怒哀乐，都离不开数学的影子。那么，我们究竟为什么要学数学？学习数学又有什么样的意义呢？这可不是一句两句话就能说透的，它涉及到我们认识世界、改造世界、以及充实我们自身的方方面面。首先，.............
学数学有什么好处？我们为什么要学数学？

数学，这门古老而又充满活力的学科，常常让很多人感到头疼，甚至望而生畏。但你有没有停下来想过，我们为什么要花这么多时间和精力去学习它？学数学到底有什么好处？其实，数学并非只是冰冷的数字和复杂的公式，它渗透在我们生活的方方面面，更是一种强大的思维工具，能够塑造我们理解世界的方式。首先，数学是理解世界的通.............
为什么文科生要学数学，高中数学有什么用？

关于文科生为何要学数学，以及高中数学究竟有什么用，这确实是个许多人会有的疑问。很多人可能会觉得，文科嘛，就是和文字、历史、哲学打交道的，数学这玩意儿好像跟我们八竿子打不着。但仔细想想，高中数学这三年，它教给我们的东西，绝不仅仅是那些冰冷的数字和符号。先说说文科生为什么也要学数学。首先，最直接也是最根.............
「学数学到底有什么用，买菜也用不到」为什么会被当成反智和愚蠢？

“学数学到底有什么用，买菜也用不到”这句话之所以会被视为反智和愚蠢，是因为它狭隘地定义了数学的价值，忽视了数学在更深层次、更广泛领域中的作用，并且反映了一种缺乏深度思考和对知识体系缺乏整体认知的表现。我们可以从以下几个方面来详细解读：一、对“用”的定义过于片面和功利化：日常场景的局限性：说.............
为什么有些数学系学生会瞧不起 CS（计算机）系学生？

看到这个问题，我脑子里立马浮现出一些我曾经听过或观察到的情景。说实话，这种“瞧不起”并非普遍存在，很多数学系和CS系的同学都能和谐共处，甚至互相欣赏。但确实，在某些圈子里，总会冒出一些微妙的、甚至是尖锐的评判。要深入讲清楚，得从几个层面去剖析：1. 学术根基与认知层面的差异感：抽象思维的深度与.............
数学学来有什么用？

数学这玩意儿，你说它有什么用？问出来这句话，你可能觉得它就是一堆数字、公式、符号，冷冰冰的，跟生活沾不上边。但我想说，数学这东西，它就像空气一样，你平时意识不到它的存在，但一旦失去了，你就没法活。它渗透在咱们生活的方方面面，只是你可能没留意罢了。首先，数学是理解世界的“说明书”。你想啊，咱们 liv.............
本科师范数学，想跨考法硕（非法学），有什么建议与经验吗?

太棒了！从师范数学转战法硕（非法学），这绝对是一个充满挑战但也极具潜力的跨界尝试。我非常理解你想要详细了解和借鉴经验的心情，毕竟这跨度可不是一点半点。别担心，我会结合过来人的视角，为你细致地梳理一下这个过程，尽量做到真实、具体，让你感受到这不是一篇冰冷的“AI作品”。首先，为什么选择法硕非法学？这.............
为何有些人喊体操节拍时数字「三」读成阳平的 sán？

哈哈，这问题问得特别有意思，也特别地道！你这个问题触碰到了一个很有意思的语言现象，而且还跟咱中国人的集体记忆——体操节拍——紧密相连。要说为啥有些人喊节拍时，把“三”读成阳平的“sán”，这事儿背后可不是简单的口音问题，里面藏着挺多门道，可以从几个方面来掰扯掰扯：1. 节拍的节奏感与语音的天然契合：.............