首页

如何看待指出神经网络的训练罪魁祸首是退化一文？第1页

1

sth4nth 网友的相关建议:

我的理解，作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了，gradient就会vanish，而不是说随着迭代数变多会越来越vanish（当然也可能有这个问题，但是本来不是指这个）。所以gradient vanish随层数增多而变严重的，还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数，越迭代就会越degenerate。

所以说这是两个层面的问题，当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆，很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold，而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化，所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度，也就越来越不full rank，也就是越来越degenerate。这样gradient的方向会越来越不准，会指到manifold外面去。regularization会强行让Jacobian变full rank，但本质上还是接近degenerate，治标不治本，gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题，一个是gradient方向不准，一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了，方法就是在manifold上优化，也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆，计算量太大，不实用。而其实batch norm，layer norm都和natural gradient有潜在的关系，可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。

如何看待指出神经网络的训练罪魁祸首是退化一文？的其他答案点击这里

1

相关话题

  有哪些相见恨晚的 TensorFlow 小技巧？
  如何评价 On Unifying Deep Generative Models 这篇 paper?
  如何评价生成模型框架 ZhuSuan?
  梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
  小样本学习中关于虚拟样本有效性的问题？
  机器学习中的 Bias（偏差）、Error（误差）、Variance（方差）有什么区别和联系？
  如何评价 Exploring Simple Siamese Learning?
  2021年深度学习哪些方向比较新颖，处于上升期或者朝阳阶段，没那么饱和，比较有研究潜力？
  从应用的角度来看，深度学习怎样快速入门？
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评？

前一个讨论

向外星发信息，怎样才能假装自己文明已经很高级的样子？

下一个讨论

你在 GitHub 上看到过哪些有意思的 Issue？

相关的话题

  什么是meta-learning?
  graph convolutional network有什么比较好的应用task？
  nlp有哪些值得完整实现一遍的算法?
  有哪些令你印象深刻的魔改transformer？
  欧洲有哪些统计机器学习比较强的大学或者研究院的？？
  如何通俗的解释交叉熵与相对熵？
  为什么说深度学习没有理论基础?
  我决定进军期货市场，您有什么建议吗？
  能否对卷积神经网络工作原理做一个直观的解释？
  NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？
  人工智能在发展到极高的程度之后能否算得上是一种生命？
  mxnet的并行计算为什么这么牛，是什么原理？
  如何可以通过自学来深入学习机器学习？
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？
  如何评价 7 月 31 日一流科技开源的深度学习框架 OneFlow？
  网络上一位长者提出了“完全不依靠人工神经网络与机器学习算法实现人工智能”的理论，大家怎么看？
  计算机视觉中，目前有哪些经典的目标跟踪算法？
  ICLR 2022有哪些值得关注的投稿？
  怎样衡量一个机器学习工程师对算法的掌握程度？
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  普通FPGA工程师怎样向人工智能靠拢？
  Batch Normalization 训练的时候为什么不使用 moving statistics？
  如何评价微软亚洲研究院提出的LightRNN？
  cygwin和mingw选哪个？
  有没有哪些人工的工作是无法被机器替代的？
  如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？
  机器学习的算法和普通《算法导论》里的算法有什么本质上的异同？
  2021年了，如何评价微软亚研提出的对偶学习（Dual Learning）？
  如何看待多所 985 大学开设人工智能专业？
  深度学习工作站中使用AMD的CPU会有问题吗？

© 2025-06-29 - tinynew.org. All Rights Reserved.
© 2025-06-29 - tinynew.org. 保留所有权利