百科问答小站 logo
百科问答小站 font logo



如何看待指出 神经网络的训练罪魁祸首是退化一文? 第1页

  

user avatar   sth4nth 网友的相关建议: 
      

我的理解,作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了,gradient就会vanish,而不是说随着迭代数变多会越来越vanish(当然也可能有这个问题,但是本来不是指这个)。所以gradient vanish随层数增多而变严重的,还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数,越迭代就会越degenerate。

所以说这是两个层面的问题,当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆,很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold,而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化,所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度,也就越来越不full rank,也就是越来越degenerate。这样gradient的方向会越来越不准,会指到manifold外面去。regularization会强行让Jacobian变full rank,但本质上还是接近degenerate,治标不治本,gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题,一个是gradient方向不准,一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了,方法就是在manifold上优化,也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆,计算量太大,不实用。而其实batch norm,layer norm都和natural gradient有潜在的关系,可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。




  

相关话题

  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode? 
  如何评价小米开源的移动端深度学习框架MACE? 
  人工智能会是泡沫吗? 
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」? 
  深度学习在无人驾驶汽车上面的运用有哪些? 
  编程达到什么水平才能编写出像caffe这样的深度学习框架? 
  老师给了一个神经网络的程序,他之前是跑通了的,但是我迭代几十次或者一百多次就报错。这个怎么解决? 
  AlphaGo 与李世石的对战会推动人类的极限还是机器学习的进步和觉醒? 
  如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作? 
  如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 

前一个讨论
向外星发信息,怎样才能假装自己文明已经很高级的样子?
下一个讨论
你在 GitHub 上看到过哪些有意思的 Issue?





© 2025-01-27 - tinynew.org. All Rights Reserved.
© 2025-01-27 - tinynew.org. 保留所有权利