首页

batchsize=1时可以用BN吗? 第1页

1

jiang-xue-feng-28-14 网友的相关建议:

个人认为，题主设置Batchsize=1可能是受限于计算资源只能设置Batchsize=1进行训练，或计算资源够，可以用大一点的Batchsize训练，但算法流程或者实例推理inference中有必须设置batchsize=1进行forward的需求，但往往Batchnorm层会写到模型中，大Batchsize训练时当然没问题，但带有BatchNorm进行单例forward的时候会出现error的情况。

前者就不建议使用BN了，没有什么用处（原因在后面），这里补充一下后者的处理方法，即BatchNorm（BN）怎样解决训练和推理时batch size不同的问题？

BatchNorm是在每个minibatch的维度上计算每个相同通道上的均值和方差，调整模型的一层输出时的分布，让模型在经过forward和backward优化时，取得更平滑一些的解。通常情况下，训练阶段的batchsize会设置较大，而有些时候进行推理inference时或者根据算法需要，batchsize会被我们考虑设置为1。这样的话，不同的minibatch训练得到不同的标准化，均值和方差这样的统计参数，而推理时只有一个样本，在只有1个向量的数据组上进行标准化后，成了一个全0向量，导致模型出现BUG。为了解决这个问题，不改变训练时的BatchNorm计算方式，仅仅改变推理时计算均值和方差方法，一种方法是如果在用于训练的数据集和要用于推理的数据集分布基本上差不多的时候，可以用训练集来近似对总体均值μ和总体标准差σ的估计。也可以考虑在batchsize=1的时候，进行推理时记得把model.eval()设置上，model.eval()时，网络模型中不启用 BatchNormalization 和 Dropout。

batchsize=1时可以用BN吗? 的其他答案点击这里

1

相关话题

  如何解决图神经网络（GNN）训练中过度平滑的问题？
  有没有可能运用人工神经网络将一种编程语言的代码翻译成任意的另一种编程语言，而不经过人工设计的编译过程？
  深度学习工作站中使用AMD的CPU会有问题吗？
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的？
  从应用的角度来看，深度学习怎样快速入门？
  如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点？
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  如何评价剑桥，腾讯， DeepMind以及港大团队新作 SimCTG ?
  CNN网络的pooling层有什么用？
  如何看待多模态transformer，是否会成为多模态领域的主流？

前一个讨论

如何评价斗鱼主播 yyf 举办的高校杯 dota2 比赛？

下一个讨论

如何看待中国企业“霸榜”全球隐私技术专利排行榜，目前国内的隐私计算做的怎么样？

相关的话题

  神经网络，分类和回归问题，在网络结构上的区别是什么？分类比回归多一层softmax吗？诚心求教？
  大家用resnet50在imagenet上面top1最高能到多少？
  AI 有可能代替人类从事数学研究吗？
  TVM 最新发布版本 0.3 有哪些亮点？
  NIPS 2018 有什么值得关注的亮点？
  如何评价微软正在开发的人工智能编程软件 DeepCoder？
  Transformer在工业界的应用瓶颈如何突破？
  为啥gan里面几乎不用pooling？
  神经网络的损失函数为什么是非凸的?
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  三维重建怎么入门？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  算法工程师是否应该持续读论文？
  对于神经网络，硕士博士不需要弄明白原理，只需要应用，是这样吗？
  2018年了，MXNet 发展的如何了？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  如何看待《Nature》发布的新研究：摄像头是天生的神经网络，速度超越传统方法千倍?
  如何评价Kaiming He的Momentum Contrast for Unsupervised?
  深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？
  现代人工神经网络是不是一个死胡同？这个技术是不是骗人的？
  为什么最近几年 FPGA 变得越发受大家重视了？
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  从今年校招来看，机器学习等算法岗位应届生超多，竞争激烈，未来 3-5 年机器学习相关就业会达到饱和吗？
  深度学习火热兴起后，隐马尔可夫模型（HMM）还有何独到之处，是不是几乎可被深度学习模型给替代了？
  实体提取任务中使用BERT-CRF时，CRF根据数据统计可以得到转移概率，为啥还要训练呢？
  如何理解 natural gradient descent?
  如何评价AlphaGo Zero？
  在NLP上，CNN、RNN（认为LSTM等变体也是RNN）、最简单全连结MLP，三者相比，各有何优劣?
  为什么Transformer适合做多模态任务？
  如何看UCBerkeley RISELab即将问世的Ray，replacement of Spark？

© 2025-06-27 - tinynew.org. All Rights Reserved.
© 2025-06-27 - tinynew.org. 保留所有权利