首页

如何看待指出神经网络的训练罪魁祸首是退化一文？第1页

1

sth4nth 网友的相关建议:

我的理解，作者所说的degenerate问题和gradient vanish是两个层面的问题。

gradient vanish说的是只要层数高了，gradient就会vanish，而不是说随着迭代数变多会越来越vanish（当然也可能有这个问题，但是本来不是指这个）。所以gradient vanish随层数增多而变严重的，还没迭代什么事呢。

而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数，越迭代就会越degenerate。

所以说这是两个层面的问题，当然都会导致Deep network训练困难。

而其实这个degenerate问题我也不认为是作者发现的新大陆，很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold，而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化，所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度，也就越来越不full rank，也就是越来越degenerate。这样gradient的方向会越来越不准，会指到manifold外面去。regularization会强行让Jacobian变full rank，但本质上还是接近degenerate，治标不治本，gradient还是不准。

从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题，一个是gradient方向不准，一个是gradient大小变没了。

其实有好的方法能把俩问题一起解决了，方法就是在manifold上优化，也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆，计算量太大，不实用。而其实batch norm，layer norm都和natural gradient有潜在的关系，可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。

如何看待指出神经网络的训练罪魁祸首是退化一文？的其他答案点击这里

1

相关话题

  普通程序员如何正确学习人工智能方向的知识？
  机器学习算法工程师如何自己接项目单干、并赚取比上班多得多的收入？
  我决定进军期货市场，您有什么建议吗？
  Partial Multi-Label Learning是什么？它的发展史又是怎样的？最新的进展如何？
  GAN生成的数据没有标签怎么用来训练分类模型？
  如何看待多模态transformer，是否会成为多模态领域的主流？
  深度学习的多个loss如何平衡？
  在计算资源有限的情况下，有什么深度学习的选题可以推荐/避免？
  为什么计算注意力机制的时候不加偏置项？
  人工智能在发展到极高的程度之后能否算得上是一种生命？

前一个讨论

向外星发信息，怎样才能假装自己文明已经很高级的样子？

下一个讨论

你在 GitHub 上看到过哪些有意思的 Issue？

相关的话题

  机器学习里的 kernel 是指什么？
  分类机器学习中，某一标签占比太大（标签稀疏），如何学习？
  如何看待西安电子科技大学偷偷给贫困生打钱，大数据精准帮助贫困生是否值得推广？
  Python 如何画出漂亮的地图？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  医学生学习机器学习该如何入门？
  如何评价论文「Stochastic Training is Not Necessary ...」?
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  马上计算机研一，想问一下机器学习、深度学习…大家都是怎么入门的？
  如果人工智能迎来下一个寒冬，你认为会是卡在什么问题上？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  为什么Transformer要用LayerNorm？
  反馈控制理论在优化、机器学习等领域有哪些应用？
  在中文 NLP 等论文中，应该如何翻译 token 这个词？
  行人轨迹预测有哪些有效的方法和普遍的base方法？或者public dataset?
  为什么softmax很少会出现[0.5，0.5]？
  深度学习火热兴起后，隐马尔可夫模型（HMM）还有何独到之处，是不是几乎可被深度学习模型给替代了？
  如何看待在某度搜不到megengine官网？
  在Auto ML的冲击下，ML算法人员是否会在前者成熟后失业的情况？
  在哪里能找到各行业的分析研究报告？
  Partial Multi-Label Learning是什么？它的发展史又是怎样的？最新的进展如何？
  神经网络中的能量函数是如何定义的？
  2019年NeurIPS有哪些糟糕的论文？
  ICLR 2022有哪些值得关注的投稿？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
  如何评价Google Duplex（打电话AI）在特定领域已经通过了图灵测试？
  R 中的哪些命令或者包让你相见恨晚？
  计算流体力学（CFD）里应用注意力机制（attention）是否可行？

© 2025-04-06 - tinynew.org. All Rights Reserved.
© 2025-04-06 - tinynew.org. 保留所有权利