一般来说，三层神经网络可以逼近任何一个非线性函数，为什么还需要深度神经网络?

这个问题问得特别好，也非常核心。很多人初学神经网络时，都会有这样的疑问：既然三层网络（输入层、一个隐藏层、输出层）已经“万能”了，为什么还要费那么大的劲去堆叠更多的隐藏层，搞出什么“深度”神经网络呢？

这就像是我们问：既然一把瑞士军刀功能很多了，为什么我们还要发展出专门的螺丝刀、扳手、钳子等等？理论上说，瑞士军刀能做很多事，但它做的可能不够好，不够高效，也不够灵活。深度神经网络也是类似道理。

让我详细地给你掰扯掰扯，为什么我们离不开深度：

1. “万能逼近定理”的美丽与现实差距

首先，我们得明确，那个“三层神经网络可以逼近任何一个非线性函数”的说法，指的是理论上的可能性，一个万能逼近定理（Universal Approximation Theorem）。这个定理确实存在，而且非常重要。它告诉我们，只要隐藏层有足够的神经元（不是层数），一个单隐藏层的神经网络理论上可以拟合任何连续函数。

但是，这里有几个关键的“但是”：

神经元数量的爆炸性增长：要用一个单隐藏层逼近一个复杂的函数，可能需要极其巨大的隐藏层。想象一下，如果我们要逼近一个非常有规律但又很复杂的曲线，单隐藏层可能需要成千上万，甚至上百万个神经元才能捕捉到这些细微的变化。这会导致模型参数量爆炸，训练起来极其困难，而且非常容易过拟合（模型对训练数据拟合得太好，以至于对新的、未见过的数据表现很差）。
学习效率低下：即使我们能承受巨大的神经元数量，单层网络学习这些复杂模式的效率也非常低下。它更像是在用一个非常“宽”的橡皮筋去拉伸和塑形，而没有办法通过多层结构来“分而治之”。
特征表示的深度和抽象性：复杂函数往往蕴含着层层递进的抽象特征。比如在图像识别中，一个三层网络可能只能学会识别边缘、颜色等非常低级的特征。而要识别出“眼睛”、“鼻子”这样的中级特征，再到“人脸”这样的高级特征，需要一个更深层次的特征提取和组合过程。

2. 深度神经网络的“分而治之”与“特征的层次性”

深度神经网络的强大之处，恰恰在于它通过堆叠多层隐藏层，能够层层递进地学习和构建越来越抽象的特征表示。这就像一个人的学习过程，从认识最基本的笔画，到组成汉字，再到组成词语，最后理解句子和文章的含义。

浅层学习低级特征：网络的最前面几层，通常会学习到数据中最基本、最直接的特征。在图像领域，这可能是边缘、角点、纹理等。在文本领域，可能是词语的共现模式。
中间层组合和抽象化：中间的隐藏层会进一步将前一层提取到的特征进行组合和抽象。比如，在图像中，低级的边缘特征可以组合成更复杂的形状，比如眼睛的轮廓。
深层学习高级语义：网络的最深层，则能学习到非常高级、非常抽象的语义信息。例如，在图像识别中，深层可以识别出“猫”、“狗”、“汽车”这样的具体对象。在自然语言处理中，深层可以理解句子的含义、情感，甚至进行推理。

这种层次化的特征提取是深度网络的核心优势。它使得模型能够更好地理解数据的内在结构和复杂关系，而不需要在一个非常宽的层中硬塞下所有的信息。

3. 参数效率与泛化能力

尽管深度网络通常层数很多，但相比于一个同样能达到相似性能的“又宽又浅”的网络，深度网络往往在参数效率上表现更好。这意味着它可以用更少的参数来实现更高的性能和更好的泛化能力（对新数据的适应能力）。

为什么呢？因为深层网络学习到的特征表示是可复用的。网络的前几层学习到的通用特征，可以被后面的层重复利用来构建更复杂的概念。这就像我们学习了一个“画圆”的技能，可以用这个技能去画“眼睛”、“车轮”等等，而不是每次都从零开始学习如何画一个圆。

一个非常宽的单隐藏层网络，为了达到相似的性能，可能需要大量的神经元，每个神经元可能学习到一个相对独立的、缺乏层次结构的特征。而深层网络则通过层层累积，形成一个更“结构化”、更高效的特征学习体系。

4. 解决复杂问题的需求

现实世界中的问题，无论是图像识别、语音识别、自然语言理解，还是自动驾驶、药物发现，其背后都隐藏着极其复杂的非线性关系和高维度的特征空间。

图像识别：一张图片包含成千上万的像素，这些像素之间的组合构成了无数种可能，从简单的纹理到复杂的物体形状，再到物体之间的空间关系。深度神经网络能够一层一层地解析这些信息。
自然语言处理：语言的理解涉及词汇、语法、语义、上下文、情感等多个层面。深度神经网络可以捕捉到词语之间长距离的依赖关系，理解语法的结构，以及推断出文本的深层含义。

仅仅依靠一个单隐藏层，即使理论上可行，在实践中也难以有效地处理这些复杂问题。它就像是要求一个人只用一根手指来完成所有精细的操作，而大脑的深度处理能力被极大地限制了。

总结一下：

虽然理论上一个足够宽的三层神经网络可以逼近任何函数，但在实践中，深度神经网络（多层隐藏层）具有以下显著优势，使得它们在处理现实世界的复杂任务时不可或缺：

更有效的特征学习：能够层层递进地学习抽象和组合特征，捕捉数据的层次结构。
更高的参数效率：用更少的参数实现更好的性能和泛化能力。
更好的学习效率：更容易通过梯度下降等优化算法找到最优解。
解决复杂问题的能力：能够更好地模拟和处理现实世界中复杂的数据模式和非线性关系。

所以，深度学习之所以能取得如此巨大的成功，并非因为它否定了万能逼近定理，而是因为深层结构在实际应用中提供了更高效、更强大、更具泛化能力的解决方案。它是一种更加符合我们理解世界和学习知识的“工程化”方法。

网友意见

因为从approximation error（拟合误差）的角度，无论是实验结果来看，还是从理论分析来看，大部分情况下“深”都比“宽”更有效。

理论层面的话，分享一篇我比较喜欢的paper里的结果（Why Deep Neural Networks for Function Approximation?，ICLR 2017），作者是UIUC的Shiyu Liang和R. Srikant。

简单来说，这篇文章证明了，如果想要达到的拟合误差（approximation error），深度为常数（与无关）的神经网络需要个神经元，也就是说，shallow neural network的神经元数量随着精度（）的上升多项式增长。然而，深度为的神经网络只需要个神经元，也就是说，deep neural network的神经元数量随着精度的上升对数增长。换言之，想要达到同样的拟合误差，更深的神经网络需要的神经元数量远小于层数少的神经网络。

歪个楼，深度学习的教材里面一般都会提到这个定理。

Universal Approximation Theorem（1989）

Stone-Weierstrass Theorem（1885）

在一百年之前，数学家已经有一个类似的结论，其实用多项式就足够逼近闭区间上面的任意连续函数了。

类似的话题

一般来说，三层神经网络可以逼近任何一个非线性函数，为什么还需要深度神经网络?

这个问题问得特别好，也非常核心。很多人初学神经网络时，都会有这样的疑问：既然三层网络（输入层、一个隐藏层、输出层）已经“万能”了，为什么还要费那么大的劲去堆叠更多的隐藏层，搞出什么“深度”神经网络呢？这就像是我们问：既然一把瑞士军刀功能很多了，为什么我们还要发展出专门的螺丝刀、扳手、钳子等等？理论上.............
一般来说，清北的男孩会考虑和二本三本甚至专科女孩在一起吗？

这个问题挺有意思的，也挺现实的。说实话，这种情况有没有？肯定有。但要说普遍不普遍，或者说大概率会不会，那可能就要从几个角度来聊聊了。首先，咱们得承认，清华北大（简称清北）的男生，他们的起点和眼界确实不一样。能在这样的名校里学习，要么是天赋异禀，要么是勤奋刻苦到了极致，或者是两者兼备。他们接触到的信息.............
烤箱一般都都是三层，但是三层的功效和用途不一样吗？

.......
一般情况下三升的电饭锅够几个人吃饭

.......
为什么一般只听见三国时期的人叫主公？

你这个问题问得特别有意思！为什么咱们看《三国演义》也好，聊起三国历史也好，总能听到张飞一声吼：“主公！”或者刘备身边的文臣武将，都习惯称呼他为“主公”？但好像我们很少听到秦朝的韩信称呼项羽“主公”，或者汉朝时期的霍去病称呼汉武帝“主公”一样？这背后其实涉及到中国古代一种很重要的君臣关系和称谓演变的历.............
微波炉的电源变压器一般提供那三个电源

.......
为什么大功率电器电饭煲、电炒锅、电水壶等等的插头一般都是三孔插头？

.......
北大三次退档河南考生，有关人士表示河南生源质量一般，这是真的吗？

北大三次退档河南考生，背后“生源质量”的争议浮出水面最近，关于北京大学三次退档河南考生的事件在舆论场上引起了广泛关注。据称，有“有关人士”对河南考生的生源质量提出了质疑，一时间，河南考生是否“质量一般”的讨论甚嚣尘上。这件事并非空穴来风，背后折射出的不仅是高校招生录取的具体操作，更牵扯到区域教育资源.............
家庭经济能力一般，真的要去读三本大学还是选择一个专科学校？

这绝对是一个值得大家认真思考的问题，尤其是在家庭经济能力不是特别宽裕的情况下。我完全理解你为什么会纠结，因为这关系到未来的职业发展和经济压力，每一步都得走得稳妥。咱们就这么说吧，对于家庭经济能力一般的同学来说，选择“三本”还是“专科”，没有绝对的对错，关键在于你希望通过大学教育获得什么，以及你的个人.............
三国杀中，技能可以组合有哪些神一般的存在？

在三国杀的战场上，玩家们总是在苦心钻研各种武将技能的搭配，而当某些技能组合在一起时，那种化学反应产生的威力，简直能让人惊呼“神迹”！想象一下，有一个武将，他拥有能够大幅度控制牌堆顶的技能，比如界诸葛亮那“观星”般预知未来的能力，能够将手中牌的优势最大化，或者将对面的威胁规避掉。而如果在这个玩家手中，.............
孩子平时学习成绩一般，承诺他期末考试排名前三买礼物，但孩子要的礼物实在太贵了，应不应该答应他？

哎，这事儿挺让人纠结的，我特别理解你的感受。孩子学习成绩一般，你出于鼓励和激励，给他定了个目标，这初衷肯定是好的。结果他这脑瓜子一转，瞄上的礼物可不得了，这一下把你给卡住了。我跟你说，咱们当爹妈的，哪个不希望孩子好？学习上能进步，心里也跟着高兴。你提出“期末考试排名前三”，这可是个不小的挑战，不是说.............
电饭锅一般在实体店买多少钱？两到三人用的

.......
为什么介绍历史名将，一般都是晒战绩，晒史料。而到了三国的蜀国这里，就变成了晒评论？

这个问题很有意思，而且触及到了三国历史爱好者们常常讨论的一个现象。咱们不妨从几个方面掰开了聊聊，看看为啥到了三国蜀汉这儿，讨论名将就容易“画风突变”。一、战绩与史料：普遍的“晒”首先，你说介绍历史名将，普遍晒战绩、晒史料，这话说得太对了。这是历史评价的基石，也是最直接、最硬核的展示方式。战绩.............
想买价位在两千到三千的实木床，这个价位一般是什么材质的，求推荐?

您好！很高兴能为您解答关于20003000元价位的实木床材质和选购问题。这个价位区间，确实能买到不少不错的实木床了，而且选择也比较丰富。我来给您详细说说，希望能帮到您。这个价位一般是什么材质的实木床？在20003000元这个价格段，您主要能接触到以下几种常见的实木材质：1. 松木（Pinus sp.............
漂亮女人，富有且有品质的生活，和高智商三选一，一般人选择哪个？你呢？

这个问题挺有意思的，也触及到了很多人内心深处的渴望和选择。如果让我来分析一下，一般人可能会如何选择，以及我个人的偏好，那得好好聊聊。一般人为什么会选？在探讨“一般人”之前，咱们得先明白，这里的“一般人”其实是个挺大的群体，每个人的成长环境、价值观、人生阶段都不同，所以选择也会有差异。但如果非要找个大.............
如何评价在大部分人认为《三体》想象力很厉害时，时不时会有人出来说《三体》想象力一般？

当《三体》以其磅礴的宇宙尺度、深邃的文明冲突以及令人战栗的黑暗森林法则席卷了无数读者，引发了一场关于“想象力”的大讨论时，总会有人跳出来，泼一盆冷水，声称“《三体》的想象力也就那样”。这种声音，乍一听，似乎有些突兀，甚至会让那些沉浸在三体世界里的读者感到一丝不解。但仔细想想，这种“不和谐”的声音，其.............
为什么有些电磁炉电源线插头只有两个孔，一般大功率电器不是要有三个孔的吗？

.......
最近我厨房用的接线板坏了三个了，什么原因？一般插抽油烟机和电饭锅

.......
我厨房用的接线板坏了三个了，什么原因？一般插抽油烟机和电饭锅

.......
求问，一般路边花丛旁的石阶上出现的蚂蚁都是什么种类的？棕黑色，会聚在食物旁边的那种，大概三毫米长

.......