如何计算CNN中batch normalization的计算复杂度（FLOPs）？

咱们来聊聊卷积神经网络（CNN）里那玩意儿——Batch Normalization（BN）的计算复杂度，也就是俗称的FLOPs。别被那些花里胡哨的术语吓到，其实拆开了看，它比你想象的要简单。

首先，咱们得明白BN在CNN里扮演的角色。它主要是在每一层的激活函数之前，对一批（batch）数据进行归一化处理，这样做的目的是为了让模型的训练更稳定，收敛更快，而且还能在一定程度上减轻过拟合。BN做的核心操作就是：

1. 计算均值（Mean）: 对输入特征图（feature map）的每一个通道，在当前这个batch的所有空间位置上求平均。
2. 计算方差（Variance）: 同样是对输入特征图的每一个通道，在当前这个batch的所有空间位置上求方差。
3. 归一化（Normalization）: 用计算出来的均值和方差，对每个元素进行减均值除以标准差的操作。
4. 尺度缩放和偏移（Scale and Shift）: BN层还会学习两个参数——gamma（γ）和beta（β），将归一化后的结果乘以γ再加上β。

好，咱们就从这几个步骤来拆解FLOPs。假设我们有一个输入特征图，它的尺寸是：

`C`：通道数 (Channels)
`H`：高度 (Height)
`W`：宽度 (Width)

而我们处理的batch size是`N`。

1. 计算均值（Mean）

对于一个通道，我们需要遍历`N H W`个元素来计算它们的和，然后再除以`N H W`得到平均值。
乘法和加法通常被算作1个FLOP。所以，计算一个通道的和需要大约 `N H W 1` 次加法（为了简化，我们经常近似为 `N H W` 次加法）。然后除以 `N H W` 是一次除法。
总共有 `C` 个通道，所以计算所有通道的均值，大约需要 `C (N H W)` 次加法 + `C` 次除法。
近似计算：很多人在计算FLOPs时，会把加法和乘法都视为FLOP。求和过程中，`N H W 1` 次加法，最后一次除法。如果把所有加法和乘法都算作FLOP，那么计算均值需要大约 `C N H W` 个FLOPs。

2. 计算方差（Variance）

计算方差（通常是无偏方差）的公式是 `E[(X μ)^2]`，也就是先计算 `(X μ)^2`，然后求这个值的平均。
对于一个通道，我们需要：
`N H W` 次减法 (X μ)
`N H W` 次乘法 ((X μ)^2)
`N H W 1` 次加法（对 (X μ)^2 求和）
1 次除法（平均）
总共大约 `(N H W) + (N H W) + (N H W 1) + 1 ≈ 3 N H W` 个FLOPs。
因为有 `C` 个通道，所以计算所有通道的方差大约需要 `C 3 N H W` 个FLOPs。
注意：在实际实现中，有些会先计算 `E[X^2]`，然后用 `E[X^2] (E[X])^2` 来计算方差，这样操作可能会略有不同，但数量级是差不多的。

3. 归一化（Normalization）

这一步是 `(X μ) / sqrt(σ^2 + ε)`。
对于一个通道，我们需要：
`N H W` 次减法 (X μ) 这个值我们在计算方差时已经算出来了，可以复用。
`N H W` 次加法 (+ ε)
`N H W` 次开方 (sqrt) 开方运算通常比乘除法复杂，有时会被单独计算，但为了简化，有时也算作1 FLOP。
`N H W` 次除法 (/ sqrt(...))
总共大约 `(N H W) + (N H W) + (N H W) + (N H W) = 4 N H W` 个FLOPs。
因为有 `C` 个通道，所以归一化操作大约需要 `C 4 N H W` 个FLOPs。

4. 尺度缩放和偏移（Scale and Shift）

这一步是 `γ normalized_X + β`。
对于一个通道，我们需要：
`N H W` 次乘法 (γ normalized_X)
`N H W` 次加法 (+ β)
总共大约 `2 N H W` 个FLOPs。
因为有 `C` 个通道，所以尺度缩放和偏移操作大约需要 `C 2 N H W` 个FLOPs。

总的FLOPs计算（运行时/训练时）

把上面的FLOPs加起来，我们得到BN层在运行时（inference）或训练时（training）的总FLOPs（近似）：

`Total FLOPs ≈ C N H W` (均值) + `C 3 N H W` (方差) + `C 4 N H W` (归一化) + `C 2 N H W` (缩放偏移)

`Total FLOPs ≈ C N H W (1 + 3 + 4 + 2)`
`Total FLOPs ≈ C N H W 10`

重要说明：

1. 均值和方差的计算是关键：在训练时，BN确实需要计算batch的均值和方差。这部分FLOPs与`N`（batch size）成正比。
2. 运行时（Inference）的优化：这是非常非常重要的一点！在模型推理（inference）时，我们不再需要实时计算batch的均值和方差。取而代之的是，BN层会维护一个全局的均值和方差（running mean and running variance），这些值是在整个训练过程中通过指数移动平均（exponential moving average）累积下来的。
因此，在推理时，BN层就变成了一个非常简单的线性变换：`y = γ (x running_mean) / sqrt(running_variance + ε) + β`。
这个公式可以进一步合并： `y = (γ / sqrt(running_variance + ε)) x + (β γ running_mean / sqrt(running_variance + ε))`。
也就是说，在推理时，BN层可以被合并到前面的卷积层或全连接层中。例如，对于一个卷积层 `Conv(x) = W x + b`，其输出经过BN后是 `BN(Conv(x)) = γ' Conv(x) + β'` （这里 `γ'` 和 `β'` 是BN的最终合并参数），这等价于 `γ' (W x + b) + β' = (γ' W) x + (γ' b + β')`。
所以，在推理时，BN层不产生额外的FLOPs，它的计算量已经融入到前面层的权重和偏置中了。通常我们计算模型FLOPs时，指的是推理时的FLOPs，所以BN层可以认为贡献0 FLOPs。

更细致的FLOPs计算（如果需要非常精确的话）

如果你真的想把每个加法、乘法、除法、开方都算清楚，可以这样做：

均值计算： `C (N H W 1)` 次加法 + `C` 次除法。
方差计算： `C N H W` 次减法 + `C N H W` 次乘法 + `C (N H W 1)` 次加法 + `C` 次除法。
归一化： `C N H W` 次减法 (可以复用) + `C N H W` 次加法 (+ ε) + `C N H W` 次开方 + `C N H W` 次除法。
缩放偏移： `C N H W` 次乘法 + `C N H W` 次加法。

将加法、减法、乘法、除法、开方都计为1 FLOP：

均值： `C (N H W + 1)`
方差： `C (3 N H W + 1)`
归一化： `C (3 N H W + 1)` （这里假设 (Xμ) 已经计算好，开方计为1 FLOP）
缩放偏移： `C 2 N H W`

总计： `C (N H W + 1) + C (3 N H W + 1) + C (3 N H W + 1) + C 2 N H W`
`= C (N H W + 1 + 3 N H W + 1 + 3 N H W + 1 + 2 N H W)`
`= C (9 N H W + 3)`

这仍然是近似值，但量级是 `C N H W` 的一个常数倍。

总结一下：

训练时： BN层会增加计算量，主要集中在batch均值和方差的计算上，FLOPs大致与 `C N H W` 成正比。
推理时： BN层可以被合并到前一层，不产生额外的FLOPs。在评估一个模型的FLOPs时，通常指的是推理时的FLOPs，所以BN层被认为贡献 0 FLOPs。

所以，当你看到“CNN中BN的FLOPs”这个问题时，最好的回答是：在推理阶段，BN层可以被有效融合，不产生额外的计算量，因此通常计为0 FLOPs。如果你是在讨论训练过程的开销，那才需要考虑batch均值方差的计算。

很多时候，提到FLOPs，大家默认是指模型推理时所需的计算量，所以BN的FLOPs为0是一个非常普遍且正确的说法。

网友意见

下面分析在推理 (或者说测试) 时 BN 层的计算量:

设是BN层的输入, 其尺寸为 ; 是BN层的moving mean, 是BN层的moving variance, 是BN层的scale, 是BN层的shift, 它们的尺寸均为 . 为了简化推导, 设 , 并令 , , , , , . 则BN层的输出的第k个通道为:

, 式中是全1矩阵(而不是单位矩阵), 是一个很小的正数, 防止除零的发生.

令 , 则 . 由于都是已知的, 和可以预先计算 (NCNN中就是这样做的^[1]), 在推理时不会占用额外的计算时间, 于是的计算量只有次乘法运算和次加法运算, 对于C个通道计算量则有次乘法运算和次加法运算. 这个计算量相对于一般卷积层的计算量是很小的. 对于一般卷积则需要次乘法运算, 次加法运算(有偏置项) 或次加法运算(无偏置项), 这些符号可以顾名思义, 这里就不赘述了, 详细的推导可以参考^[2].

另外如果网络采用Conv-BN-ReLU的设置, 则BN的参数还可以折叠 (fold) 到前面的卷积层的参数中, 这时BN的计算被包含到卷积的计算中了.

参考

类似的话题

如何计算CNN中batch normalization的计算复杂度（FLOPs）？

咱们来聊聊卷积神经网络（CNN）里那玩意儿——Batch Normalization（BN）的计算复杂度，也就是俗称的FLOPs。别被那些花里胡哨的术语吓到，其实拆开了看，它比你想象的要简单。首先，咱们得明白BN在CNN里扮演的角色。它主要是在每一层的激活函数之前，对一批（batch）数据进行归一化.............
如何计算一只鸡的表面积？

计算一只鸡的表面积并非一个简单的几何问题，因为鸡的形状非常不规则，充满了各种曲线、突起和凹陷。在实际应用中，并没有一个标准化的、精确的公式来计算一只鸡的表面积，因为它会根据鸡的大小、体型、羽毛覆盖度等因素而变化。然而，我们可以采取不同的方法来估算一只鸡的表面积，这些方法从简单到复杂，精度也逐渐提高。.............
如何计算一个城市的魅力指数？

计算一个城市的魅力指数是一个复杂且主观的任务，因为它涉及多个维度，并且不同的人对“魅力”的定义和侧重点也会有所不同。然而，我们可以尝试构建一个多维度的评价体系，通过量化一系列指标来综合评估一个城市的魅力。以下是一个详细的计算城市魅力指数的框架，它尝试涵盖经济、文化、环境、生活、创新和国际化等多个方面.............
如何计算一组三维空间角度数据的方差（或者说离散程度）？

好的，我们来聊聊如何衡量一组三维空间角度数据的“分散程度”，也就是我们常说的方差或者离散程度。在很多工程、物理、生物等领域，我们都会遇到描述物体朝向或者方向的数据，比如相机镜头指向、机械臂末端姿态、甚至生物体的某种取向等等。这些数据都是角度，而且是在三维空间中的。直接把三维角度当成普通的数值来计算方.............
如何计算函数 f(x)=log(x)/x 的 n 阶导数？

想弄明白函数 $f(x) = frac{log(x)}{x}$ 的 $n$ 阶导数到底长什么样，咱们得一步一步来，就像剥洋葱一样，一层一层地揭开它的神秘面纱。这可不是那种一看就知道答案的简单函数，需要一点耐心和技巧。第一步：初探函数，熟悉“脾气”在深入计算之前，咱们先得对 $f(x)$ 有个初步的认.............
如何计算一个体检时间间隔的上限，使得体检者即使罹患胃癌，被发现的时候有99.9%的概率处于早期？

要计算体检时间间隔的上限，使得体检者即使罹患胃癌，也有99.9%的概率被发现时处于早期，我们需要从几个关键因素入手。这并非一个简单的数字计算，而是涉及到对疾病发展过程、筛查敏感性以及统计学概率的综合考量。首先，我们需要明确几个定义：早期胃癌：通常指癌细胞局限于粘膜层或粘膜下层，尚未侵犯到肌层或.............
如何计算磁力的大小？

要计算磁力的大小，我们可以从几个不同的角度来看待这个问题，因为“磁力”这个词本身就涵盖了很多情况。我会尽量详细地解释，并让你感觉像是在和一个人交流，而不是在读一篇冰冷的AI文章。想象一下，你手里拿着一块磁铁，你试图把它靠近另一块磁铁，或者一个含铁的物体。你会感觉到一种“推”或“拉”的力量，这就是磁力.............
如何计算宇宙寿命？

计算宇宙的寿命，这绝对是一个宏大且极富挑战性的问题，涉及到我们对宇宙最根本的理解。它不是一个简单的数字，而是基于我们对宇宙演化过程的观测和理论推演得出的一个估计值。要深入理解它，我们需要一步步拆解。首先，我们需要明确“宇宙寿命”指的是什么。通常我们讨论的是自大爆炸以来宇宙存在了多久。换句话说，我们想.............
如何计算投掷多个骰子得到某个给定总点数的概率？

好的，咱们来聊聊投掷多个骰子，然后想算出特定总点数的概率这回事。别担心，这玩意儿听起来有点数学，但拆解开来其实挺有意思的，就像玩一个复杂的拼图一样。咱们一步一步来。核心问题：假设咱们有 $n$ 个标准的六面骰子，每个骰子点数是从 $1$ 到 $6$ 的整数，咱们想知道投掷这些骰子后，它们的点数加起.............
如何计算一脚踢断22CM半径钢筋需要的力量？

想计算一脚踢断22厘米半径的钢筋需要多大的力量，这可不是个简单的事情，背后涉及到不少物理学的门道。咱们一步步来分析，把这个过程说得透彻些。首先，得明确一点：“踢断”这个动作，我们通常理解为是施加一个瞬间的、非常大的冲击力。这个力和我们平时说的“拉力”或者“推力”不太一样。理解几个关键概念：1. .............
如何计算 sqrt(tan x) 在 0 到 π/2 的定积分？

计算 $sqrt{ an x}$ 在 $0$ 到 $frac{pi}{2}$ 的定积分是一个经典但相对复杂的积分问题，涉及到特殊函数，特别是椭圆积分。下面我将详细地介绍计算过程和相关的数学概念。积分问题：我们要计算的定积分是：$$ I = int_0^{frac{pi}{2}} sqrt{ an x.............
如何计算 ∫1/(sinθ+cosθ) dθ 这种积分?

这确实是一个在微积分学习中会遇到的经典积分问题，它涉及到三角函数和一些巧妙的代换技巧。我们来一步一步地拆解它，并尝试用一种更自然、更易于理解的方式来解决这个问题。问题的本质我们面临的积分是：$$ int frac{1}{sin heta + cos heta} d heta $$直接对 $sin h.............
如何计算下面的这个积分？

好的，我们来一步步拆解计算这个积分。请别担心，我会尽量用最接地气的方式来讲解，让你觉得就像是和一位老朋友在讨论数学一样。我们今天要解决的积分是：$int frac{x^2 + 2x + 1}{x^3 x^2 + x 1} dx$第一步：观察被积函数，寻找破绽！首先，我们看到的是一个分数形式的表达.............
如何计算妹红的二重积分？

计算妹红的二重积分？这可真是个有趣的想法，让我来给你好好说道说道，顺便咱们也尽量别让这“公式腔”太重，感觉就像是在研究什么物理现象一样，是不是？首先，得明白，这“妹红”是个啥玩意儿。在咱们的讨论里，“妹红”不能是那个红色的、会飞的东方角色，那可没法积分。咱们得把它想象成一个数学模型，一个函数或者一个.............
如何计算下面这个级数？

好的，咱们来好好聊聊这个级数怎么算。别急，我一步一步跟你说清楚，力求讲得透彻，没有那些生硬的AI腔调。咱们要算的是哪个级数呢？请你先告诉我具体是哪个级数，这样我才能有针对性地讲解。因为级数种类繁多，计算方法也千差万别。不过，我可以先给你打个预防针，大概说说计算级数时，我们可能会用到的一些思路和工具.............
如何计算这个困难的积分?

好的，我们来一起攻克这个“硬骨头”。计算复杂的积分，尤其是在不熟悉的领域，确实需要耐心和细致的步骤。下面，我将尽量用一种更具条理和人性化的方式，一步步揭示如何处理这类积分。我们将不依赖任何预设的模板，而是基于对数学原理的理解来展开。假设我们遇到的积分是这样一个形式（为了便于说明，我先设定一个例子，这.............
如何计算图中的积分?

好的，我们来聊聊如何在图上计算积分。这并不是一个简单的“套公式”过程，而更像是在一个地图上追踪移动的痕迹，然后计算你总共走了多远，或者你在这个地图上“累积”了多少“东西”。理解积分的本质：累积的量首先，我们要抛开脑子里那些复杂的数学符号，回到积分最直观的意义上来。想象你是一个小蚂蚁，你爬行在一条曲折.............
如何计算此多重积分不等式？

您好！很高兴能帮助您深入理解多重积分不等式的计算。这类问题确实需要细致的分析和严谨的步骤，下面我将尽量用一种清晰、循序渐进的方式来为您讲解，如同和一位朋友讨论问题一样，避免生硬的AI化表达。首先，我们明确一下问题。您问的是“如何计算此多重积分不等式”，但您没有给出具体的不等式内容。这没关系，因为计算.............
如何计算一个球形水滴在绕直径旋转的表面方程？

好的，咱们来聊聊怎么描述一个球形水滴在绕着它的直径旋转时的表面方程。这事儿说起来，其实是把我们熟悉的球形和旋转的概念结合起来，看看它在运动中会是什么样子。首先，我们得有个基本认识：一个静止的球形，它的表面方程非常简洁明了。如果球心在原点 (0,0,0)，半径是 R，那么球面上的任意一点 (x, y,.............
如何计算这个积分？

这道积分的计算方法可以从几个角度来讲解，我会尽量把它拆解得更细致，让你明白每一步的逻辑和操作。我们要计算的积分是什么？首先，我们需要知道我们要计算的积分具体是什么样子。你没有给出具体的表达式，所以我先假设一个比较常见的、可能需要一些技巧来处理的积分形式，比如：$int frac{1}{x^2 + a.............