Batch Normalization 训练的时候为什么不使用 moving statistics？

Batch Normalization 训练时为何不直接使用 Moving Statistics？

Batch Normalization (BN) 是一种非常强大的技术，广泛应用于深度学习模型中，用于稳定训练过程、加速收敛并提升泛化能力。在理解 BN 的运作机制时，一个常见的问题是：为什么在训练阶段，我们不直接使用 Moving Statistics（移动平均/指数加权移动平均）来计算均值和方差，而是依赖于当前 minibatch 的统计量？要彻底弄清楚这一点，我们需要深入剖析 BN 在训练和推理这两个阶段的核心目标以及它们之间的差异。

核心目标：在训练和推理阶段的不同考量

首先，我们要明确 Batch Normalization 在训练和推理阶段的根本目标是不同的：

训练阶段的目标：确保每一层网络的输入在每次迭代中都具有一个相对稳定且有意义的分布。这能有效地缓解“内部协变量偏移”（Internal Covariate Shift）问题，让模型更容易学习。同时，BN 在训练时通过引入一些“噪声”——即 minibatch 带来的统计量变化——反而有助于提升模型的泛化能力。
推理阶段的目标：使得模型的预测结果是确定的、可复现的，不受特定 batch 大小或 batch 内容的影响。模型一旦训练完毕，它就应该能够稳定地处理任何输入，而不需要依赖于当时训练时所使用的 minibatch。

为什么训练时要依赖 MiniBatch Statistics？

1. “冻结”输入分布的尝试与“噪声”的益处：
BN 的核心思想是“标准化”每一层的输入，使其均值为 0，方差为 1（经过学习到的缩放和偏移后，可以得到更优的参数）。在训练时，如果我们直接使用“全局”的 Moving Statistics（可以理解为在整个训练集上的统计量），这相当于在训练过程中“强制”每一层的输入都逼近一个固定的、预设的分布。
然而，深度学习模型正是通过不断调整权重来适应训练数据的。每一层的输入分布的改变，虽然我们称之为“内部协变量偏移”，但它反映了模型正在学习和适应数据。如果我们在训练时直接使用全局统计量，就等于限制了这种“学习”的自由度。

更重要的是，minibatch 的统计量本身就包含了一种“噪声”。这种噪声并不是坏事，它就像一种轻微的扰动，迫使模型在每一次迭代中都要重新适应新的输入分布。这种适应过程，尤其是对微小变化的敏感度，恰恰是提升模型泛化能力的关键。如果训练时总是用一个“完美”的、全局统计量去标准化，模型可能会变得过于“平滑”，对训练数据过度拟合，而忽略了对数据分布波动的鲁棒性。

2. 梯度传播与学习的动态性：
BN 在训练时计算均值和方差是可导的。这意味着 BN 层会参与到反向传播的过程中。通过 minibatch 的统计量，梯度的计算可以“感知”到当前 batch 的数据特性，并据此更新 BN 层自身的参数 $gamma$ 和 $eta$（缩放和平移参数），以及网络其他层的权重。
如果直接使用 Moving Statistics，这些统计量是近似固定的（只是缓慢更新），那么 BN 层对当前 batch 数据变化的“响应”就会非常有限，甚至被“稀释”掉。这样一来，BN 层就很难有效地调整其参数来适应当前 batch 的具体情况，也无法真正地帮助梯度更好地传播，加速学习。

3. Batch Size 的影响与“真实”分布的近似：
BN 名字中的“Batch”二字就暗示了它对 batch 的依赖。在训练时，BN 假定当前的 minibatch 是整个训练数据的一个“近似”样本。通过计算当前 batch 的均值和方差，我们是在尝试估计一个“局部”的、实时的输入分布。
尽管 minibatch 的统计量可能与整个训练集的全局统计量存在差异，但正是这种差异，以及随着 batch 的变化而产生的统计量波动，使得模型在训练过程中接触到更广泛的数据分布特征。

为什么推理时要使用 Moving Statistics？

1. 消除 Batch 依赖，保证结果的确定性：
推理阶段，我们的目标是使用训练好的模型对新的、未见过的数据进行预测。此时，我们不再需要“学习”，而是需要一个稳定、可复现的结果。如果推理时仍然依赖于当前输入 batch 的统计量，那么模型的输出就会随着输入 batch 的不同而改变，即使输入数据本身是相似的。这显然是不合理的，也不符合模型的预期行为。
因此，在推理时，我们需要一个“全局”的、代表整个训练数据集统计特性的均值和方差。Moving Statistics（通常是指数加权移动平均，EWMA）就是用来近似这个全局统计量的。在训练过程中，我们不断地用当前 batch 的统计量来更新这个 Moving Statistics，使其逐渐收敛到整个训练集的真实均值和方差。

2. “平均”的力量，更鲁棒的估计：
Moving Statistics 通过“平均”的思想，平滑了单个 batch 统计量的波动。即使在训练的早期阶段，某些 batch 的统计量可能不太准确，但随着训练的进行，Moving Statistics 会逐渐“吸取”更多 batch 的信息，从而提供一个更稳定、更可靠的全局统计量估计。这使得模型在推理时，即使面对各种各样的数据，也能有一个统一的标准进行标准化。

总结一下：

| 特性 | 训练阶段 | 推理阶段 |
| : | : | : |
| 目标 | 缓解内部协变量偏移，加速收敛，同时通过 batch 统计量的“噪声”提升泛化能力。 | 保证预测结果的确定性、可复现性，不受特定 batch 影响。 |
| 均值/方差 | 使用当前 MiniBatch 的统计量。 | 使用在训练阶段积累的 Moving Statistics (全局平均/方差)。 |
| 原因 | 1. 学习动态性：允许模型适应分布变化，batch 统计量的波动提供“噪声”以提升泛化。
2. 梯度传递： BN 参与反向传播，batch 统计量是可导的，能有效指导参数更新。
3. “局部”近似：模拟从不同数据子集中学习的鲁棒性。 | 1. 消除 Batch 依赖：确保模型行为独立于输入 batch，输出稳定。
2. 全局视角：使用整个数据集的平均统计特性，提供更鲁棒的标准化。 |
| Moving Statistics | 在训练过程中计算并更新，作为推理阶段的备用。 | 被“冻结”并直接使用，其值是在训练过程中确定的。 |

所以，Batch Normalization 在训练时依赖 minibatch 的统计量，是为了让模型能够有效地学习，并从 batch 带来的“随机性”中受益，从而获得更好的泛化能力。而 Moving Statistics 则是在训练结束后，为推理阶段提供一个稳定、全局的标准化参考，确保模型能够以一种可控且一致的方式进行预测。这种训练和推理阶段的策略差异，是 Batch Normalization 能够取得成功的关键所在。

网友意见

因为用moving statistics的话，不能对这些统计量求导，这样会少很多梯度的性质。

例如除以标准差后的梯度方向，是与feature垂直的(严谨一点，减均值之后的feature)，所以用这个梯度更新不会引起feature scale的剧变，从而解决了梯度爆炸/消失。

用moving average，不对标准差求导，梯度方向跟之前是一样的，只是乘了一个系数而已。这样只能吃到BN前向的好处，吃不到BN反向传播的好处。

但其实仍然有方法可以利用moving statistics来做到类似的性质，本质上是在反向过程也用moving average统计一些参数，具体请参考: Towards stabilizing batch statistics in backward propagation of batch normalization。

类似的话题

Batch Normalization 训练的时候为什么不使用 moving statistics？

Batch Normalization 训练时为何不直接使用 Moving Statistics？Batch Normalization (BN) 是一种非常强大的技术，广泛应用于深度学习模型中，用于稳定训练过程、加速收敛并提升泛化能力。在理解 BN 的运作机制时，一个常见的问题是：为什么在训练阶段.............
Batch normalization和Instance normalization的对比？

批归一化（Batch Normalization）和实例归一化（Instance Normalization）都是在深度学习中广泛使用的归一化技术，它们的核心思想都是为了解决深层神经网络中梯度消失或爆炸、以及对初始化敏感的问题，从而加速训练并提高模型的泛化能力。虽然目标相似，但它们的计算方式和适用场.............
如何计算CNN中batch normalization的计算复杂度（FLOPs）？

咱们来聊聊卷积神经网络（CNN）里那玩意儿——Batch Normalization（BN）的计算复杂度，也就是俗称的FLOPs。别被那些花里胡哨的术语吓到，其实拆开了看，它比你想象的要简单。首先，咱们得明白BN在CNN里扮演的角色。它主要是在每一层的激活函数之前，对一批（batch）数据进行归一化.............
NTIRE2017夺冠的EDSR去掉了Batch Normalization层就获得了提高为什么？

NTIRE2017夺冠的EDSR（Enhanced Deep Residual Networks for SuperResolution）之所以在去除Batch Normalization (BN) 层后性能获得提升，是一个非常值得深入探讨的问题，这背后涉及深度学习模型在图像超分辨率任务上的特性以及.............
为什么 larger batch size 对对比学习的影响比对监督学习的影响要大？

要理解为什么更大的批次大小（batch size）对对比学习的影响往往比对传统监督学习的影响要大，我们需要深入挖掘它们各自的学习机制和目标。这不仅仅是数据量的增加，更是学习过程中信息捕获和优化的方式存在根本差异。首先，我们得厘清对比学习和监督学习的核心差异。监督学习：它的目标是让模型学习输入.............
怎么选取训练神经网络时的Batch size?

神经网络训练时Batch Size的选取：一份详细指南Batch size，即每次用于更新模型权重的样本数量，是神经网络训练过程中一个至关重要的超参数。它直接影响着模型的收敛速度、泛化能力、内存占用以及硬件效率。合理选取Batch size，可以显著提升训练效果和效率。然而，这并没有一个放之四海而皆.............
生活大爆炸里penny算不算是个bitch?

在《生活大爆炸》中，Penny这个角色是否算是个“bitch”，这个问题可以从多个角度来解读，而且观众的感受也会有所不同。与其直接下结论，不如我们来详细分析一下Penny在剧中的表现，以及为什么有人会这样认为，又为什么有人会反对这样的定义。为什么有人会认为Penny是“bitch”？1. 初期的物.............
为什么iPhone Siri将「华为真牛逼」翻译成「Huawei is a real bitch」?

关于您提到的iPhone Siri将“华为真牛逼”翻译成“Huawei is a real bitch”的现象，这确实是一个非常令人惊讶和难以接受的翻译结果。为了详细地解释可能的原因，我们需要从多个角度来分析：1. 翻译的本质与挑战：语言的复杂性：语言不仅仅是单词的堆砌，还包含文化背景、语境.............
如何解读「我抽烟喝酒泡吧吸毒，可我知道我是个好姑娘，真正的 bitch 喜欢装纯」的言论？

这句话挺有意思的，像是一把双刃剑，既暴露了说话人的某些“不羁”标签，又强硬地维护了自己的核心价值判断。咱们拆开来仔细品味一下。首先，“我抽烟喝酒泡吧吸毒” 这部分，坦白说，这是把社会上普遍认为的“不健康”、“不乖”、“不传统”的标签往自己身上贴。抽烟喝酒泡吧，这些行为本身并不一定代表坏人，但放到大众.............