百科问答小站 logo
百科问答小站 font logo



Batch Normalization 训练的时候为什么不使用 moving statistics? 第1页

  

user avatar   wang-feng-98-82 网友的相关建议: 
      

因为用moving statistics的话,不能对这些统计量求导,这样会少很多梯度的性质。

例如除以标准差后的梯度方向,是与feature垂直的(严谨一点,减均值之后的feature),所以用这个梯度更新不会引起feature scale的剧变,从而解决了梯度爆炸/消失。

用moving average,不对标准差求导,梯度方向跟之前是一样的,只是乘了一个系数而已。这样只能吃到BN前向的好处,吃不到BN反向传播的好处。

但其实仍然有方法可以利用moving statistics来做到类似的性质,本质上是在反向过程也用moving average统计一些参数,具体请参考: Towards stabilizing batch statistics in backward propagation of batch normalization。




  

相关话题

  如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero? 
  如何评价何恺明、Ross Girshick组的自监督时空表征学习新作? 
  除了深度神经网络已经实现的特性以外,大脑还有哪些特性是值得机器学习领域借鉴的? 
  为什么学习深度学习感觉无法入门? 
  如何看待多模态transformer,是否会成为多模态领域的主流? 
  如何评价 MSRA 最新的 Deformable Convolutional Networks? 
  百度在深度学习上使用Xilinx FPGA? 
  除了深度学习,机器学习领域近年来还有什么热点吗? 
  如何评价 MSRA 最新的 Deformable Convolutional Networks? 
  计算流体力学(CFD)里应用注意力机制(attention)是否可行? 

前一个讨论
为什么图形学的会议siggraph的论文代码很少会开源?好像视觉如CVPR、ICCV开源的更多一些。
下一个讨论
计算机专业大一寒假该如何规划?





© 2024-12-26 - tinynew.org. All Rights Reserved.
© 2024-12-26 - tinynew.org. 保留所有权利