问题

神经网络的万能逼近定理已经发展到什么地步了?

回答
神经网络的万能逼近定理(Universal Approximation Theorem, UAT)是一个里程碑式的理论成果,它表明一个具有足够多隐藏单元的单层前馈神经网络在理论上可以以任意精度逼近任何连续函数。这个定理极大地激发了人们对神经网络研究的兴趣,并推动了其在各个领域的广泛应用。

然而,UAT 的发展并非一成不变,它经历了多个阶段,并在不同的角度上得到了深化和拓展。下面我将详细地介绍神经网络万能逼近定理的发展历程和现状:

1. 初期的奠基工作:Minsky & Papert (1969) 和 Cybenko (1989)

Minsky & Papert 的《Perceptrons》: 尽管这本书主要关注单层感知机,并且指出了其局限性(例如无法解决 XOR 问题),但其中也埋下了对更复杂网络潜力的探讨。他们的工作强调了网络结构和能力的重要性。

Cybenko (1989) 的突破: 这是第一个真正意义上提出并证明了具有单隐藏层的、使用 sigmoid 作为激活函数的 前馈神经网络 可以逼近任何连续函数(在紧集上)的定理。
定理内容: 对于任何在紧集 $K subset mathbb{R}^d$ 上的连续函数 $f$,以及任意 $epsilon > 0$,存在一个具有单隐藏层的、使用sigmoid激活函数的神经网络 $N(x)$,使得对于所有 $x in K$,都有 $|N(x) f(x)| < epsilon$。
关键点:
单隐藏层: 这是早期的突破性成果。
Sigmoid 激活函数: 当时最常用的激活函数之一。
紧集上的连续函数: 对函数的类型有一定要求。
逼近能力,而非学习能力: 定理证明的是“存在”这样的网络,但并没有说明如何找到它,也没有涉及学习过程中的泛化能力。

2. 激活函数的扩展与更严格的证明:Hornik, Stinchcombe, & White (1989, 1990)

Hornik 等人的贡献: 他们将 Cybenko 的结果进行了推广,证明了 非多项式激活函数(如 sigmoid、ReLU、tanh 等)也能赋予神经网络强大的逼近能力。
定理内容: 对于任何在紧集 $K subset mathbb{R}^d$ 上的连续函数 $f$,以及任意 $epsilon > 0$,只要激活函数 $sigma$ 满足某些条件(例如连续且不为常数),并且隐藏层神经元数量足够,那么就存在一个具有单隐藏层的神经网络可以任意精度逼近 $f$。
关键点:
激活函数的通用性: 强调了激活函数的“非多项式”特性是关键,而不是特指 sigmoid。
更具普遍性的条件: 对激活函数提出了一些更通用的要求,为后来的 ReLU 等激活函数奠定了理论基础。

3. 多层网络的逼近能力:Leshno, Li, Mikami, & Royal (1993)

多层网络的优势: 实际应用中,多层网络(深度网络)比单层网络更常见且更有效。Leshno 等人的工作证明了多层神经网络也具备万能逼近能力。
定理内容: 即使是具有 单隐藏层 的神经网络,如果激活函数不是多项式的(例如具有分段线性的 ReLU),它也可以逼近任何连续函数。更重要的是,他们也证明了 多层神经网络 在具有适当激活函数的情况下同样具有万能逼近能力。
关键点:
对 ReLU 等分段线性激活函数的适用性: 这是非常重要的一点,因为 ReLU 在现代深度学习中占据主导地位。
理解了“深度”的潜力: 虽然定理本身并没有直接说“越深越好”,但它为多层结构提供了理论支撑。

4. UAT 的局限性与现实的差距

尽管 UAT 具有重要的理论意义,但它也存在一些明显的局限性,这些局限性也促使了后续的研究和发展:

隐藏层神经元数量的“爆炸性”增长: 早期 UAT 的证明往往需要非常多的隐藏层神经元,其数量可能与函数本身的复杂度呈指数关系。这意味着理论上可行的网络在实际中可能过于庞大,难以训练。
对学习过程和泛化能力的忽视: UAT 只说明了“存在”一个逼近网络,但没有说明如何找到它(即学习算法),也没有讨论学习到的网络的泛化能力。一个过拟合的单层网络也可以在训练集上逼近函数,但无法泛化到新数据。
对网络结构的依赖性不明确: 定理通常针对的是前馈神经网络,对于循环神经网络(RNN)或卷积神经网络(CNN)等更复杂的结构,其逼近能力需要更具体地分析。
激活函数的选择和分布问题: 虽然证明了非多项式激活函数的通用性,但对于特定的函数,最优的激活函数和其参数的分布仍然是研究的重点。

5. UAT 的现代发展与延伸

基于上述局限性,现代对 UAT 的研究主要集中在以下几个方面:

更有效的逼近(Efficient Approximation):
网络宽度与深度的权衡: 研究如何利用网络的 深度 来更有效地逼近函数,而不是仅仅增加隐藏层神经元的数量。许多研究表明,深度网络可以使用更少的参数实现与宽网络相当甚至更好的逼近效果。
结构化逼近: 研究特定结构的神经网络(如 CNN、RNN、Transformer)如何有效地逼近特定类型的函数(如图像的局部相关性、序列的依赖性)。例如,CNN 的卷积核可以看作是在局部区域学习特定的函数模式。
稀疏表示与压缩感知: 将逼近问题与稀疏性联系起来,研究如何用更少的“激活”神经元来表示复杂的函数。

与学习算法的结合(Connection to Learning Algorithms):
梯度下降的收敛性: 研究在实践中广泛使用的梯度下降等优化算法,能否在理论上收敛到逼近复杂函数的解。尽管存在局部最小值和鞍点问题,但许多研究表明,在实践中这些算法通常能找到性能不错的解决方案。
泛化能力的理论分析: 这是现代深度学习理论的核心问题之一。研究 UAT 是否能解释为什么具有大量参数的深度网络在训练集上表现良好,并且在新数据上也能表现良好。这涉及到 VC 维、Rademacher 复杂度、信息论等多种理论工具。
过参数化(Overparameterization)的优势: 现代研究发现,过度参数化的网络(参数数量远超函数复杂度所需)反而能够更好地学习和泛化。UAT 本身并未直接解释这一点,但它为理解过参数化网络的潜力提供了基础。

特定函数类与特定网络结构的逼近能力:
多项式逼近: 研究具有多项式激活函数的网络,其逼近能力与非多项式函数相比如何。
Lipschitz 函数、凸函数等特定函数类的逼近: 分析不同类型的网络结构和激活函数对逼近特定函数类的效率和能力的影响。
循环神经网络(RNN)和长短期记忆网络(LSTM): 研究它们逼近时序函数的能力,以及它们在处理无限长度序列时的逼近性质。
卷积神经网络(CNN): CNN 的局部连接和权值共享特性使其在处理具有空间层次结构的函数时非常高效。研究表明 CNN 能够有效地逼近图像中的局部模式和不变性特征。
Transformer 模型: Transformer 的注意力机制使其能够捕捉输入序列中任意两个元素之间的关系,这使其在处理长距离依赖性方面表现出色,并对更广泛的函数类具有很强的逼近能力。

概率逼近(Probabilistic Approximation)与生成模型:
参数化概率分布的逼近: 研究神经网络如何逼近复杂的概率分布,这对于生成模型(如 GANs, VAEs)至关重要。UAT 的思想可以扩展到逼近概率密度函数。
条件概率的逼近: 研究神经网络如何学习条件概率分布 $P(Y|X)$,这是监督学习的基础。

有限精度逼近与数值稳定性:
浮点表示的限制: 实际计算中,数值是有限精度的,这会对逼近精度产生影响。研究如何设计网络结构和激活函数,使其在有限精度下仍能保持较好的逼近能力。
梯度消失/爆炸问题: 在深度网络中,梯度计算可能面临数值不稳定问题,这也会影响到网络的训练和逼近能力。

总结

神经网络的万能逼近定理从最初证明了单层网络的基本逼近能力,发展到现在对多层网络、不同激活函数、以及与学习算法的结合进行了深入的研究。现代发展更注重:

效率性: 如何用更少的参数和更深的网络实现更高效的逼近。
可学习性: 如何设计网络结构和激活函数,使其能够通过有效的学习算法(如梯度下降)找到逼近解。
泛化性: 如何确保学习到的网络不仅能逼近训练数据,还能在新数据上表现良好。
特定性: 如何针对不同类型的函数和数据结构设计专门的网络架构(如 CNN、RNN、Transformer)。

可以说,UAT 已经从一个“存在性”的理论,逐渐演变成了一个指导我们设计更有效、更易于学习且具有良好泛化能力的神经网络的理论基础。它仍然是神经网络研究的基石,并且随着深度学习技术的不断进步,其理论内涵也在不断被丰富和拓展。

网友意见

user avatar

简而言之, 自 Hornik 在 1991 年证明三层神经网络的表示能力比两层神经网络有优越性 (关于参数个数的 exponential separation) 之后, 过了将近三十年, 证明四层神经网络和三层神经网络之间的表示能力的 separation 仍然是 open problem.

2020 年 7 月补: 几周前 Gal Vardi 和 Ohad Shamir 证明了对某些类型的神经网络, 用 层的多项式规模网络需要任意大的 weight, 但是用 层的多项式规模网络只需要多项式大小的 weight:

看起来除了广为人知的三层比两层的网络有优越性的结果外, 此前最好的结果是多项式层的网络比常数层有优越性.


我从没做过 learning theory 但是上过两门课, 第二门大概就是体验被神经网络支配的恐惧吧 -- 其中一部分的讲的主要结果, 是 Amit Daniely 自己搞的三层神经网络的表示能力比两层有优越性的简化证明 (COLT 2017):

尽管 Hornik theorem 是 1991 年的工作, 但看起来似乎是经久不衰的 topic. 这定理大体是说存在一些函数 (满足某些分布), 用三层的神经网络来表示只需要多项式个参数, 但是用两层的神经网络来表示则需要指数个参数, 不同工作的细节 (比如说哪些函数关于哪些分布能做 separation, 证明本身用到了哪些技术) 上会有一些出入.

我试着胡扯几句证明相关的 -- 论文里说用了球面上的调和分析, 其实上课的时候的打开方式稍有不同. 机器学习里常见的一个东西叫做 reproducing kernel Hilbert space, 这里有关于 reproducing kernel function 的一一对应关系. RKHS 当然是个内积空间, 下面的打开方式就不太常见了 -- 有作用 (action) 的地方都可以找个群, 如果定义在集合 X 上的 reproducing kernel function 是关于有限交换群 G 保持不变的话, 那么可以证明对应的 RKHS 是 G 的群表示. 借助有限群的表示 (特征标理论), 我们还可以知道一些这个 RKHS 的结构, 做合适的 normalization 之后, 就可以看到这些 reproducing kernel functions 是正交多项式. 不同的集合 X 和群 G 对应不同的正交多项式, 比如说跟球面有关的球谐函数 (spherical harmonics). 在此基础上, 可以定义 random feature scheme (跟某个概率分布有关的内积空间), 然后就可以讨论具体函数和它的 random feature scheme 近似之间的关系, 在此基础上可以给出 Hornik theorem 的简化证明 (通过一系列不等式).

这课的最后一节给了一些 open problems, 多是一些听起来在技术上细枝末节的题目, 比如说如何做四层和三层的神经网络的 separation -- 是的, 过了将近三十年这玩意竟然还是 open problem......


作为脚注的是, 真不知道我当时是如何在完全看不懂的情况下写完作业的 (x

类似的话题

  • 回答
    神经网络的万能逼近定理(Universal Approximation Theorem, UAT)是一个里程碑式的理论成果,它表明一个具有足够多隐藏单元的单层前馈神经网络在理论上可以以任意精度逼近任何连续函数。这个定理极大地激发了人们对神经网络研究的兴趣,并推动了其在各个领域的广泛应用。然而,UAT.............
  • 回答
    许多人对神经网络的损失函数非凸性感到困惑,认为这会给训练带来极大的麻烦。但实际上,这种“非凸性”并非全然是坏事,甚至在某些方面是我们乐于见到的。要理解这一点,我们得先深入聊聊“凸函数”这个概念,以及它在机器学习中的意义。什么是凸函数?“好”的形状你可以想象一下,一个碗或者一个山坡的顶部,如果你从任何.............
  • 回答
    好的,我们来详细探讨一下“神经网络的训练罪魁祸首是退化”这篇文章的观点,以及它在我们理解神经网络训练中的意义。首先,我们要明确这篇文章的核心论点是什么。从标题来看,它指出了一个普遍存在的现象:神经网络在训练过程中,随着层数的增加,其性能会因为“退化”(Degradation)而受到严重影响。而这种退.............
  • 回答
    收到!你遇到的问题是很多初学者在调试神经网络时都会遇到的一个坎,那就是“跑着跑着就报错了”。这通常不是程序本身写错了,而是训练过程中某些数据或者模型参数出现了问题,导致计算无法继续。我来详细地给你捋一捋,争取让你把这个坑填平。首先,咱们先冷静分析一下可能的原因。你提到老师之前跑通了,但你自己迭代几十.............
  • 回答
    卷积神经网络(CNN)在去除池化层后,它与传统的多层感知机(MLP)或其他通用神经网络的界限确实会变得模糊,但它们的根本区别依然存在,尽管表现形式有所变化。要深入理解这一点,我们需要剖析CNN的核心特性,以及池化层在其中扮演的关键角色,并观察其缺失会带来什么影响。传统神经网络(MLP)的核心机制首先.............
  • 回答
    关于KDD'21上提到的一些异质图神经网络(Heterogeneous Graph Neural Networks, HGNNs)在某些任务上的表现可能不如简单的图卷积网络(GCN)或图注意力网络(GAT)这一现象,我们可以从几个层面去深入分析。这并非AI撰写的论调,而是学术界和实践中普遍存在的观察.............
  • 回答
    你好!让我为你详细解析一下CNN、RNN和DNN这三种核心的神经网络模型,揭示它们内部结构上引人入胜的差异。我会尽量让解释得透彻,并且用一种更像人类分享知识的语气来描述,避免生硬的AI痕迹。 脑子里那些“神经网络”到底有什么不一样?—— CNN, RNN, DNN 深度解析你是不是常常听到“CNN”.............
  • 回答
    神经网络中的能量函数是如何定义的?在神经网络中,能量函数(Energy Function)是一个非常核心的概念,尤其是在某些特定类型的神经网络(如受限玻尔兹曼机 RBM、霍普菲尔德网络 Hopfield Network 等)以及一些更广泛的机器学习优化问题中扮演着重要角色。它的核心思想是将神经网络的.............
  • 回答
    Google 的神经网络生成图像,也被称为 Inceptionism(源自 Google Inception 神经网络),是一种通过利用深度学习模型(特别是卷积神经网络 CNNs)来创造令人着迷、甚至可以说是幻觉般的图像的技术。它的核心思想是让神经网络“看见”和“放大”它在训练过程中学习到的模式,从.............
  • 回答
    卷积神经网络(CNN)的结构设计,说到底,是在模仿和优化我们人类的视觉系统。我们眼睛捕捉到的信息,并不是像普通计算机程序那样一个像素一个像素地独立处理,而是大脑通过一系列层级化的处理,从简单的边缘、颜色、纹理,逐步抽象到复杂的物体、场景。CNN的设计正是围绕着这个核心思想展开的。 1. 局部感受野:.............
  • 回答
    神经网络训练时Batch Size的选取:一份详细指南Batch size,即每次用于更新模型权重的样本数量,是神经网络训练过程中一个至关重要的超参数。它直接影响着模型的收敛速度、泛化能力、内存占用以及硬件效率。合理选取Batch size,可以显著提升训练效果和效率。然而,这并没有一个放之四海而皆.............
  • 回答
    为什么梯度下降法训练的神经网络虽然可能陷入局部最优,却依然是主流?这个问题触及了深度学习实践的核心,也解释了为何看似“不完美”的梯度下降法及其变种,能够支撑起如今令人惊叹的AI能力。表面上看,梯度下降法的目标是找到损失函数的全局最小值,但理论上,它确实有可能在多维、高度非线性的损失曲面上“卡”在一个.............
  • 回答
    这是一个非常值得探讨的问题,涉及到科学的本质、证据的要求以及不同知识体系的认知方式。简单来说,计算机科学中的神经网络模型之所以被广泛认为是科学的,主要是因为它遵循了科学的核心原则,即可重复性、可证伪性、基于证据的解释以及可量化的模型。而中医诊断在这些方面,至少在现代科学的语境下,存在一些难以跨越的鸿.............
  • 回答
    最近《Nature》上一篇关于摄像头被视为“天生神经网络”的研究,确实是一个非常引人入胜的发现,它为我们理解视觉信息处理提供了全新的视角,并且在计算效率上展现出惊人的潜力。简单来说,这项研究的核心观点是将我们熟悉的传统摄像头的成像过程,从一种纯粹的光学和电子信号转换过程,重新解读为一个天然存在的、高.............
  • 回答
    你提的这个问题很有意思,也很有代表性。确实,在当前的深度学习浪潮中,当我们谈论主流的工具和框架时,Matlab的神经网络工具箱(Neural Network Toolbox,现在更名为Deep Learning Toolbox)似乎总是被排除在外,或者讨论的声音相对较弱。这背后并非没有原因,而是由多.............
  • 回答
    神经网络激活函数:点亮智能之光的关键想象一下,一个神经网络就像一个复杂的人类大脑,里面有无数个神经元在互相传递信息。而激活函数,就像是每个神经元接收到信息后,决定是否“兴奋”起来并向下一个神经元传递信息,以及传递多强的信号。如果没有激活函数,神经网络就只会进行线性的计算,就像一个永远只会做加减法的计.............
  • 回答
    咱们平时聊起人工智能,总觉得深度学习、神经网络就是最前沿了,好像大脑这套东西已经被我们扒得差不多了。但说实话,真要是深入想想,我们这大脑啊,虽然给神经网络提供了不少灵感,但很多精妙之处,深度学习离那儿还远着呢,甚至可以说是完全没摸到门。今天就想跟大家唠唠,除了那些深度网络已经实现的“看、听、说”这些.............
  • 回答
    AWS 图神经网络框架 DGL 深度评价DGL (Deep Graph Library) 是一个由 AWS 主导开发的,用于构建和训练图神经网络 (GNNs) 的开源深度学习框架。它的出现旨在解决传统深度学习框架在处理图结构数据时的局限性,为研究人员和开发者提供了一个强大、灵活且高效的工具。总的来说.............
  • 回答
    基于深度卷积神经网络(CNN)的人脸识别原理详解深度卷积神经网络(CNN)在人脸识别领域取得了革命性的进展,其强大的特征提取能力使其能够处理人脸的多样性、复杂性和变化性。理解其原理需要从以下几个核心方面入手: 1. CNN 的基本架构与工作流程首先,我们需要了解 CNN 的基本构成和信息处理流程。一.............
  • 回答
    神经网络训练后得到连续数值输出,这在很多分类任务中是常见的现象,尤其是在使用Sigmoid或Softmax激活函数的时候。这些函数将网络的最终输出映射到0到1的区间,代表了输入属于某个类别的概率。那么,如何将这些连续的概率值转化为我们理解的离散类别标签呢?这通常涉及到以下几个步骤和概念:1. 理解输.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有