我的理解,作者所说的degenerate问题和gradient vanish是两个层面的问题。
gradient vanish说的是只要层数高了,gradient就会vanish,而不是说随着迭代数变多会越来越vanish(当然也可能有这个问题,但是本来不是指这个)。所以gradient vanish随层数增多而变严重的,还没迭代什么事呢。
而作者说的degenerate问题是随着迭代而变严重的。也就是fix住network层数,越迭代就会越degenerate。
所以说这是两个层面的问题,当然都会导致Deep network训练困难。
而其实这个degenerate问题我也不认为是作者发现的新大陆,很多人应该都清楚。直观的理解就是每层神经元变量联合表示了数据的manifold,而这个intrinsic manifold的维数必定比变量数少很多。而你在变量所在的ambient space做优化,所算出的Jacobian的rank肯定也就越来越接近数据manifold的实际维度,也就越来越不full rank,也就是越来越degenerate。这样gradient的方向会越来越不准,会指到manifold外面去。regularization会强行让Jacobian变full rank,但本质上还是接近degenerate,治标不治本,gradient还是不准。
从这个角度理解也能明白degenerate和gradient vanish是两个层面的问题,一个是gradient方向不准,一个是gradient大小变没了。
其实有好的方法能把俩问题一起解决了,方法就是在manifold上优化,也就算natural gradient。natural gradient会贴着manifolds的方向上做优化。只不过要完整计算natural gradient要求Hessian的逆,计算量太大,不实用。而其实batch norm,layer norm都和natural gradient有潜在的关系,可以看作近似natural gradient。我相信这些trick都会缓解degenerate问题。