首页

batchsize=1时可以用BN吗? 第1页

1

jiang-xue-feng-28-14 网友的相关建议:

个人认为，题主设置Batchsize=1可能是受限于计算资源只能设置Batchsize=1进行训练，或计算资源够，可以用大一点的Batchsize训练，但算法流程或者实例推理inference中有必须设置batchsize=1进行forward的需求，但往往Batchnorm层会写到模型中，大Batchsize训练时当然没问题，但带有BatchNorm进行单例forward的时候会出现error的情况。

前者就不建议使用BN了，没有什么用处（原因在后面），这里补充一下后者的处理方法，即BatchNorm（BN）怎样解决训练和推理时batch size不同的问题？

BatchNorm是在每个minibatch的维度上计算每个相同通道上的均值和方差，调整模型的一层输出时的分布，让模型在经过forward和backward优化时，取得更平滑一些的解。通常情况下，训练阶段的batchsize会设置较大，而有些时候进行推理inference时或者根据算法需要，batchsize会被我们考虑设置为1。这样的话，不同的minibatch训练得到不同的标准化，均值和方差这样的统计参数，而推理时只有一个样本，在只有1个向量的数据组上进行标准化后，成了一个全0向量，导致模型出现BUG。为了解决这个问题，不改变训练时的BatchNorm计算方式，仅仅改变推理时计算均值和方差方法，一种方法是如果在用于训练的数据集和要用于推理的数据集分布基本上差不多的时候，可以用训练集来近似对总体均值μ和总体标准差σ的估计。也可以考虑在batchsize=1的时候，进行推理时记得把model.eval()设置上，model.eval()时，网络模型中不启用 BatchNormalization 和 Dropout。

batchsize=1时可以用BN吗? 的其他答案点击这里

1

相关话题

  请问人工神经网络中的activation function的作用具体是什么？为什么ReLu要好过于tanh和sigmoid function?
  在五到十年内，人工智能能复原成人影片中的被马赛克部分吗？
  全连接层的作用是什么？
  为什么VAE-GAN的训练很容易发生梯度爆炸，如何避免？
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2？
  如何看待指出神经网络的训练罪魁祸首是退化一文？
  因果推断会是下一个AI热潮吗？
  如何看待多模态transformer，是否会成为多模态领域的主流？
  消融实验是什么？
  如何评价AWS的图神经网络框架DGL？

前一个讨论

如何评价斗鱼主播 yyf 举办的高校杯 dota2 比赛？

下一个讨论

如何看待中国企业“霸榜”全球隐私技术专利排行榜，目前国内的隐私计算做的怎么样？

相关的话题

  现代人工神经网络是不是一个死胡同？这个技术是不是骗人的？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  深度学习底层开发对数学有哪些要求？
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  编程达到什么水平才能编写出像caffe这样的深度学习框架？
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  中国和美国谁能成人工智能领域的领军者？
  你所在的研究领域里，有哪些工作的结果虽然不是造假，但是是精挑细选出来的?
  什么是大模型？超大模型？Foundation Model？
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的？
  用 TensorFlow 可以做什么有意思的事情？
  2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？
  如何评价微软提出的无监督视觉模型BEiT：ImageNet达到88.6，ADE20K达到57.0？
  百度学术能否替代 Google 学术网站？有没有其他选择？
  为什么强大的 MXNet 一直火不起来？
  如何系统学习机器学习？
  阿里的TDM树深度模型为什么很少有人用，是有哪些问题吗？
  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  如何把梯度传递过Argmax?
  如何理解矩阵对矩阵求导？
  中国和美国谁能成人工智能领域的领军者？
  北京深鉴科技基于FPGA平台的DPU架构如何？
  深度学习中Attention与全连接层的区别何在？
  如何评价谷歌提出的 Pix2Seq：将目标检测看成语言建模，效果超过 DETR？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  NTIRE2017夺冠的EDSR去掉了Batch Normalization层就获得了提高为什么？
  如何评价 2018 年度图灵奖颁发给三位深度学习之父？
  深度学习（机器学习）的下一步如何发展？
  无人车为什么一定要用激光雷达做，双目视觉难道不行吗？

© 2025-06-28 - tinynew.org. All Rights Reserved.
© 2025-06-28 - tinynew.org. 保留所有权利