首页

为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？第1页

1

filestorm 网友的相关建议:
@li Eta

答得很好。

关于第一点

为什么陷入局部最优，根本不是NN的问题

貌似并没展开说。我正好得空，补充一下

大家以前认为，deep learning的loss的形状会是布满弹坑的样子:

于是，梯度下降到local minimum如果不是global minimum就出大问题了。

但其实对于deep learning，我们是在一个非常高维的世界里做梯度下降。这时的 local minimum 很难形成，因为局部最小值要求函数在所有维度上都是局部最小。更实际得情况是，函数会落到一个saddle-point上，如下图：

在saddle-point上会有一大片很平坦的平原，让梯度几乎为0，导致无法继续下降。

反倒是local/global minimum的问题，大家发现其实不同的local minimum其实差不多（反正都是over-fitting training data，lol）

推荐阅读Bengio组的这两篇：

On the saddle point problem for non-convex optimization

Identifying and attacking the saddle point problem in high-dimensional non-convex optimization

为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？的其他答案点击这里

1

相关话题

  物理学与数学在思维方式上有什么本质区别？
  数学不需要依赖任何观测吗?
  历史上由于技术进步而被淘汰的职业，都是如何处理失业率、社会稳定与再就业问题的？
  如何理解压缩感知(compressive sensing)？
  图像处理和机器学习有什么关系？
  对我这样的选手来讲，建议我读博士吗？
  柯洁与 AlphaGo 三场皆负，对围棋今后的发展会有哪些影响？
  AI在网络安全领域（尤其是威胁检测领域），有什么好的应用场景？
  如何通俗地解释什么是离散傅里叶变换？
  若 a=0.248163264128256...，请问 a 是否为有理数？理由是什么？

前一个讨论

in memory computing 存内计算是学术圈自娱自乐还是真有价值？

下一个讨论

现在互联网公司还有做特征工程的工作吗？

相关的话题

  证明「哥德巴赫猜想」到底有多难？
  做科研时，简化了领域内一个大佬的证明值得发表吗?
  是否存在一个函数，在它定义域内连续，递增，但处处不可导？
  如何利用拉式方程或者变分法导出悬链线方程？
  黎曼猜想有哪些等价命题？
  人工智能已在哪些领域超越了人类的表现？
  不等式如何证明?
  一年级的孩子数学不好，想帮助他构建数学思维，有相关的书籍推荐吗？
  我自认为自己证明了0可以作为除数，若是如此将会有哪些改变？
  为什么要引入弧度制？
  如何评价ST-GCN动作识别算法？
  为什么要把 mathematics 翻译成「数学」，导致中学生对「数字的学问」没兴趣？
  矩阵思维是什么意思？
  为什么要用文字定义多项式，而不是直接将多项式函数定义为多项式？
  数学专业大二怎么选后面的选修课？
  数学中反证法有没有可能正反都错？
  为什么迷宫从终点向起点走更容易？
  这个多项式问题从何入手进行求解？
  人类大脑的聪慧程度以 IQ 为标准，那么人工智能的水平用什么指标来衡量呢？
  根据这个四元四次方程组，计算 λ1 × λ2 × λ3 × λ4 的值。有什么简单方法？
  如何评价某伊利诺伊大学教授认为数学巩固了白人的特权？
  初中数学考19分还有救吗？
  如果高考去掉一科，你会选数学吗？
  请问大佬这个定积分怎么做？
  如果变量X Y独立怎么证明E(X+Y)=E(X)+E(Y),E(XY)=E(X)E(Y)？
  哪些看似毫不相干的事物具有相同的数学原理？
  如何看待国际数学联盟发表声明，取消在俄罗斯圣彼得堡线下举办国际数学家大会？其它国际组织会跟进吗？
  数学 PhD 有很多内容要学习吗？
  未来五年，数据科学家（Data Scientist）的岗位需求会如何变化？
  阶乘的概念能否推广到全体实数，甚至是全体复数？

© 2025-06-28 - tinynew.org. All Rights Reserved.
© 2025-06-28 - tinynew.org. 保留所有权利