首页

为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？第1页

1

filestorm 网友的相关建议:
@li Eta

答得很好。

关于第一点

为什么陷入局部最优，根本不是NN的问题

貌似并没展开说。我正好得空，补充一下

大家以前认为，deep learning的loss的形状会是布满弹坑的样子:

于是，梯度下降到local minimum如果不是global minimum就出大问题了。

但其实对于deep learning，我们是在一个非常高维的世界里做梯度下降。这时的 local minimum 很难形成，因为局部最小值要求函数在所有维度上都是局部最小。更实际得情况是，函数会落到一个saddle-point上，如下图：

在saddle-point上会有一大片很平坦的平原，让梯度几乎为0，导致无法继续下降。

反倒是local/global minimum的问题，大家发现其实不同的local minimum其实差不多（反正都是over-fitting training data，lol）

推荐阅读Bengio组的这两篇：

On the saddle point problem for non-convex optimization

Identifying and attacking the saddle point problem in high-dimensional non-convex optimization

为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？的其他答案点击这里

1

相关话题

  概率论中，为什么XY独立，X²Y²也独立？
  如图题，如何不用“强拆”的方式证明？
  既然数学研究不需要在设备、资源上花多少钱，为什么我国的数学水平在国际上也是凉凉的？
  两个有理数之间一定存在一个无理数吗？
  数学是中国人擅长的学科吗？为什么？
  如何评价 2021 年 12 月新改版的知识引擎 magi.com？
  有什么有趣的数学题？
  0.8＞ln2 怎么证明？
  什么是泊松过程？
  在离散数学中偏序关系和偏序集是什么意思？

前一个讨论

in memory computing 存内计算是学术圈自娱自乐还是真有价值？

下一个讨论

现在互联网公司还有做特征工程的工作吗？

相关的话题

  计算机在德州扑克比赛中可以战胜人类吗？
  如何看待网传依图科技集体降薪 10% 以上？还有哪些信息值得关注？
  一年级的孩子数学考试不读题目了，有没有什么小方法改善？
  数学领域做不同分支的是否隔行如隔山？
  这个数学分析的问题该如何求解？
  机器狗送快递目前还有哪些瓶颈？
  AlphaGo 下棋的策略套路与人类策略有哪些相似吗？
  数学和物理中这些符号到底念什么？来源是什么？
  请问是质数更多还是合数更多还是一样多？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  计算器或计算机如何进行比较复杂的数学计算？
  二次函数无实根的概率是多少？
  蝴蝶定理有多少种证法？
  (a+b)!/(a!b!) 的结果一定是整数吗？如果是，如何证明？
  如何理解n元线性方程组Ax=b,无解的充要条件为R（A）<R（A,b）?
  如何证明n+1~2n最大奇因子之和等于n²？
  10 × 10 的正方形最多可放入多少个直径为 1 的圆？
  如何评价深度学习相关顶级期刊论文难复现的问题？
  学数学有点钻牛角尖，总是怀疑书中推导的严谨性，各位有什么好办法吗？
  请问这题积分怎么求?
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果？
  机器学习能否用于综合评价？具体怎么操作？
  有没有目前不知道是否收敛的级数?
  不规则四边形内如何获得面积最大的椭圆？
  诺贝尔奖官方公布爱因斯坦成绩单：文理俱佳从小就是学霸，看完你有什么感受？
  计算机技术的进步与模拟运算，在未来真的可以解决磁约束核聚变技术中所有关键问题吗？
  如何看待大热的人工智能机器人 Sophia？
  大数据听着很牛，实际上也很牛吗？
  c4.5为什么使用信息增益比来选择特征？
  大家对人工智能医疗怎么看？人工智能医疗应该着重往那个方向发展比较好？

© 2025-06-28 - tinynew.org. All Rights Reserved.
© 2025-06-28 - tinynew.org. 保留所有权利