百科问答小站 logo
百科问答小站 font logo



Batch Normalization 训练的时候为什么不使用 moving statistics? 第1页

  

user avatar   wang-feng-98-82 网友的相关建议: 
      

因为用moving statistics的话,不能对这些统计量求导,这样会少很多梯度的性质。

例如除以标准差后的梯度方向,是与feature垂直的(严谨一点,减均值之后的feature),所以用这个梯度更新不会引起feature scale的剧变,从而解决了梯度爆炸/消失。

用moving average,不对标准差求导,梯度方向跟之前是一样的,只是乘了一个系数而已。这样只能吃到BN前向的好处,吃不到BN反向传播的好处。

但其实仍然有方法可以利用moving statistics来做到类似的性质,本质上是在反向过程也用moving average统计一些参数,具体请参考: Towards stabilizing batch statistics in backward propagation of batch normalization。




  

相关话题

  当前人工智能特别是深度学习最前沿的研究方向是什么? 
  如何解决测试中充斥着大量训练集中没见过的样本类型模型将其识别成非我族类仍然保持测试集的高精度? 
  如何评价Sony新出的深度学习库NNabla? 
  你所在的研究领域里,有哪些工作的结果虽然不是造假,但是是精挑细选出来的? 
  人工智能相关的岗位薪酬状况如何? 
  阿里的TDM树深度模型为什么很少有人用,是有哪些问题吗? 
  如何看待鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)? 
  为什么学习深度学习感觉无法入门? 
  如何评价谷歌推出1.6万亿参数超级语言模型Switch Transformer? 
  如何看待Tensor Comprehensions?与TVM有何异同? 

前一个讨论
为什么图形学的会议siggraph的论文代码很少会开源?好像视觉如CVPR、ICCV开源的更多一些。
下一个讨论
计算机专业大一寒假该如何规划?





© 2025-06-03 - tinynew.org. All Rights Reserved.
© 2025-06-03 - tinynew.org. 保留所有权利