百科问答小站 logo
百科问答小站 font logo



神经网络的万能逼近定理已经发展到什么地步了? 第1页

  

user avatar   climberpi 网友的相关建议: 
      

简而言之, 自 Hornik 在 1991 年证明三层神经网络的表示能力比两层神经网络有优越性 (关于参数个数的 exponential separation) 之后, 过了将近三十年, 证明四层神经网络和三层神经网络之间的表示能力的 separation 仍然是 open problem.

2020 年 7 月补: 几周前 Gal Vardi 和 Ohad Shamir 证明了对某些类型的神经网络, 用 层的多项式规模网络需要任意大的 weight, 但是用 层的多项式规模网络只需要多项式大小的 weight:

看起来除了广为人知的三层比两层的网络有优越性的结果外, 此前最好的结果是多项式层的网络比常数层有优越性.


我从没做过 learning theory 但是上过两门课, 第二门大概就是体验被神经网络支配的恐惧吧 -- 其中一部分的讲的主要结果, 是 Amit Daniely 自己搞的三层神经网络的表示能力比两层有优越性的简化证明 (COLT 2017):

尽管 Hornik theorem 是 1991 年的工作, 但看起来似乎是经久不衰的 topic. 这定理大体是说存在一些函数 (满足某些分布), 用三层的神经网络来表示只需要多项式个参数, 但是用两层的神经网络来表示则需要指数个参数, 不同工作的细节 (比如说哪些函数关于哪些分布能做 separation, 证明本身用到了哪些技术) 上会有一些出入.

我试着胡扯几句证明相关的 -- 论文里说用了球面上的调和分析, 其实上课的时候的打开方式稍有不同. 机器学习里常见的一个东西叫做 reproducing kernel Hilbert space, 这里有关于 reproducing kernel function 的一一对应关系. RKHS 当然是个内积空间, 下面的打开方式就不太常见了 -- 有作用 (action) 的地方都可以找个群, 如果定义在集合 X 上的 reproducing kernel function 是关于有限交换群 G 保持不变的话, 那么可以证明对应的 RKHS 是 G 的群表示. 借助有限群的表示 (特征标理论), 我们还可以知道一些这个 RKHS 的结构, 做合适的 normalization 之后, 就可以看到这些 reproducing kernel functions 是正交多项式. 不同的集合 X 和群 G 对应不同的正交多项式, 比如说跟球面有关的球谐函数 (spherical harmonics). 在此基础上, 可以定义 random feature scheme (跟某个概率分布有关的内积空间), 然后就可以讨论具体函数和它的 random feature scheme 近似之间的关系, 在此基础上可以给出 Hornik theorem 的简化证明 (通过一系列不等式).

这课的最后一节给了一些 open problems, 多是一些听起来在技术上细枝末节的题目, 比如说如何做四层和三层的神经网络的 separation -- 是的, 过了将近三十年这玩意竟然还是 open problem......


作为脚注的是, 真不知道我当时是如何在完全看不懂的情况下写完作业的 (x


user avatar   wu-hai-bo 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  有尝试用多层自组织特征神经网络(MLSOM)来代替层次分析法(AHP)的吗?会有哪些问题需要注意? 
  只有正样本和未标签数据的机器学习怎么做? 
  卷积神经网络(CNN)的结构设计都有哪些思想? 
  到了 2022 年,人工智能有哪些真正可落地的应用? 
  新手如何入门pytorch? 
  基于深度卷积神经网络进行人脸识别的原理是什么? 
  batchsize=1时可以用BN吗? 
  如何看待北京交通大学学生在 ATM 机内学习? 
  为什么熵值最大的分布状态是正态分布而不是均匀分布? 
  深度学习对图像的处理,为什么大多基于RGB,而没有其他色彩空间,比如HSV? 

前一个讨论
996 对国家和社会而言,是利大于弊么?
下一个讨论
怎么看待8.18晚南京航空航天大学跳楼事件?





© 2025-01-27 - tinynew.org. All Rights Reserved.
© 2025-01-27 - tinynew.org. 保留所有权利