答得很好。
关于第一点
为什么陷入局部最优,根本不是NN的问题
貌似并没展开说。我正好得空,补充一下
大家以前认为,deep learning的loss的形状会是布满弹坑的样子:
于是,梯度下降到local minimum如果不是global minimum就出大问题了。
但其实对于deep learning,我们是在一个非常高维的世界里做梯度下降。这时的 local minimum 很难形成,因为局部最小值要求函数在所有维度上都是局部最小。更实际得情况是,函数会落到一个saddle-point上,如下图:
在saddle-point上会有一大片很平坦的平原,让梯度几乎为0,导致无法继续下降。
反倒是local/global minimum的问题,大家发现其实不同的local minimum其实差不多(反正都是over-fitting training data,lol)
推荐阅读Bengio组的这两篇:
On the saddle point problem for non-convex optimization
Identifying and attacking the saddle point problem in high-dimensional non-convex optimization
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有