百科问答小站 logo
百科问答小站 font logo



如何看待指出 神经网络的训练罪魁祸首是退化一文? 第1页

  

user avatar   sth4nth 网友的相关建议: 
      

我的理解,作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了,gradient就会vanish,而不是说随着迭代数变多会越来越vanish(当然也可能有这个问题,但是本来不是指这个)。所以gradient vanish随层数增多而变严重的,还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数,越迭代就会越degenerate。

所以说这是两个层面的问题,当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆,很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold,而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化,所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度,也就越来越不full rank,也就是越来越degenerate。这样gradient的方向会越来越不准,会指到manifold外面去。regularization会强行让Jacobian变full rank,但本质上还是接近degenerate,治标不治本,gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题,一个是gradient方向不准,一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了,方法就是在manifold上优化,也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆,计算量太大,不实用。而其实batch norm,layer norm都和natural gradient有潜在的关系,可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。




  

相关话题

  普通程序员如何正确学习人工智能方向的知识? 
  机器学习算法工程师如何自己接项目单干、并赚取比上班多得多的收入? 
  我决定进军期货市场,您有什么建议吗? 
  Partial Multi-Label Learning是什么?它的发展史又是怎样的?最新的进展如何? 
  GAN生成的数据没有标签怎么用来训练分类模型? 
  如何看待多模态transformer,是否会成为多模态领域的主流? 
  深度学习的多个loss如何平衡? 
  在计算资源有限的情况下,有什么深度学习的选题可以推荐/避免? 
  为什么计算注意力机制的时候不加偏置项? 
  人工智能在发展到极高的程度之后能否算得上是一种生命? 

前一个讨论
向外星发信息,怎样才能假装自己文明已经很高级的样子?
下一个讨论
你在 GitHub 上看到过哪些有意思的 Issue?





© 2025-04-06 - tinynew.org. All Rights Reserved.
© 2025-04-06 - tinynew.org. 保留所有权利