首页

如何计算CNN中batch normalization的计算复杂度（FLOPs）？第1页

1

quarrying 网友的相关建议:

下面分析在推理 (或者说测试) 时 BN 层的计算量:

设是BN层的输入, 其尺寸为 ; 是BN层的moving mean, 是BN层的moving variance, 是BN层的scale, 是BN层的shift, 它们的尺寸均为 . 为了简化推导, 设 , 并令 , , , , , . 则BN层的输出的第k个通道为:

, 式中是全1矩阵(而不是单位矩阵), 是一个很小的正数, 防止除零的发生.

令 , 则 . 由于都是已知的, 和可以预先计算 (NCNN中就是这样做的^[1]), 在推理时不会占用额外的计算时间, 于是的计算量只有次乘法运算和次加法运算, 对于C个通道计算量则有次乘法运算和次加法运算. 这个计算量相对于一般卷积层的计算量是很小的. 对于一般卷积则需要次乘法运算, 次加法运算(有偏置项) 或次加法运算(无偏置项), 这些符号可以顾名思义, 这里就不赘述了, 详细的推导可以参考^[2].

另外如果网络采用Conv-BN-ReLU的设置, 则BN的参数还可以折叠 (fold) 到前面的卷积层的参数中, 这时BN的计算被包含到卷积的计算中了.

参考

如何计算CNN中batch normalization的计算复杂度（FLOPs）？的其他答案点击这里

1

相关话题

  anchor-free存在什么缺点？
  算法岗位真的需要顶会才能入场吗？
  如何评价MSRA最新的 Relation Networks for Object Detection？
  AMD 开源高性能机器智能库MIopen是否可以和cuDNN抗衡？
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法，两者分别有什么优缺点？
  2021年深度学习哪些方向比较新颖，处于上升期或者朝阳阶段，没那么饱和，比较有研究潜力？
  上学和读书有什么区别?
  Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗?
  为什么CV能做到让一幅人脸图动了笑了，而NLP的text-style-transfer进展貌似一般？
  为啥gan里面几乎不用pooling？

前一个讨论

CPU和GPU跑深度学习差别有多大？

下一个讨论

2020年CVPR有哪些优秀的论文？

相关的话题

  神经网络能否代替决策树算法？
  为什么很少人用FFT加速CNN卷积层的运算？
  如何评价最新的Octave Convolution？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?
  消融实验是什么？
  目标检测算法中Two-stage算法速度慢,到底在哪里?
  自然语言处理怎么最快入门？
  迁移学习入门，新手该如何下手？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  机器学习能否用于综合评价？具体怎么操作？
  DeepMind 研发的围棋 AI AlphaGo 是如何下棋的？
  如何理解链接预测（link prediction）？
  神经网络，分类和回归问题，在网络结构上的区别是什么？分类比回归多一层softmax吗？诚心求教？
  resnet（残差网络）的F（x）究竟长什么样子？
  如何看待阿里巴巴提出的 FashionAI 比赛？
  pytorch dataloader数据加载占用了大部分时间，各位大佬都是怎么解决的？
  resnet（残差网络）的F（x）究竟长什么样子？
  国内哪些公司在用caffe、torch、TensorFlow、paddle等框架，哪些在用自研框架？
  如何看待周志华等人的新书《机器学习理论导引》？
  搞机器学习的生环化材是天坑吗？
  如何评价移动端吊打一切万众期待的商汤深度学习推理框架PPL开源了却没有支持移动端？
  机器学习包含哪些学习思想？
  ICLR 2022有哪些值得关注的投稿？
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ？
  深度学习的多个loss如何平衡？
  卷积神经网络中卷积核是如何学习到特征的？
  如何理解attention中的Q,K,V？
  深度学习attention机制中的Q,K,V分别是从哪来的？
  attention跟一维卷积的区别是啥？

© 2025-05-06 - tinynew.org. All Rights Reserved.
© 2025-05-06 - tinynew.org. 保留所有权利