PyTorch中在反向传播前为什么要手动将梯度清零？

在 PyTorch 中进行神经网络训练时，我们通常会在每个训练迭代中手动清零梯度。这并非是强制性的，但却是非常重要的一个步骤，关乎到训练的正确性和效率。那么，究竟为什么要这么做呢？让我们来深入剖析一下。

想象一下你正在学习一门新技能，比如画画。你开始的时候是跟着老师一步步学的，每一步的动作你都会用心去模仿和调整。但是，如果你在学习画第二幅画的时候，没有把第一幅画的痕迹完全擦干净，那么第二幅画的线条就会叠加在第一幅上面，你很难准确地画出想要的效果。神经网络训练中的梯度清零，就类似于我们画画前擦干净画板的动作。

PyTorch 的自动求导机制：计算图与“累积”的特性

PyTorch 的强大之处在于其自动求导（autograd）引擎。当你定义一个模型并进行前向传播（forward pass）计算时，PyTorch 会默默地构建一个计算图。这个计算图记录了从输入到输出的每一个计算步骤以及它们之间的依赖关系。

当调用 `loss.backward()` 时，PyTorch 就会沿着这个计算图从损失函数开始，反向计算出每个可训练参数（权重和偏置）相对于损失的梯度。这些梯度指示了模型应该如何调整参数以减小损失。

然而，PyTorch 的 `backward()` 方法有一个默认的特性：它会将计算出的梯度“累积”到已经存在的梯度上，而不是完全覆盖它们。这意味着，如果你在一个迭代中计算了梯度，然后在下一个迭代中又计算了新的梯度而不清零，那么新的梯度就会加到旧的梯度上。

不清零梯度可能导致的严重问题

1. 梯度叠加与失真：
假设你在一个批次（batch）上计算了梯度，然后又在另一个批次上计算了梯度。如果不清零，第二个批次的梯度就会与第一个批次的梯度叠加。这会导致最终的梯度不再代表当前批次（或当前迭代）的真实信息，而是前几个批次的混合。
想象一下：你在训练模型识别猫和狗。第一个批次全是猫，你计算了梯度。第二个批次全是狗，你又计算了梯度。如果不清零，狗的梯度就会加到猫的梯度上，这对于模型来说是混乱的信号。模型可能就不知道应该往哪个方向调整才能更好地识别狗。

2. 训练不稳定与收敛困难：
错误的梯度信息会导致模型参数的更新方向出现偏差，使得模型在训练过程中变得不稳定。它可能在损失曲线上随机跳跃，难以收敛到一个好的局部最优解，甚至会发散。
更形象的比喻：你在爬山，目标是找到山顶（最低损失）。每次迈出一步（更新参数），都需要知道当前坡度（梯度）是往哪个方向最陡峭地下山。如果梯度是混乱的，你可能迈出的每一步都是错误的，甚至会朝着山崖走去，最终迷失在山中。

3. 影响批量归一化（Batch Normalization）等层：
像批量归一化这样的层在训练过程中会计算批次的均值和方差。如果梯度没有清零，之前的批次信息可能会影响到当前批次的计算，导致这些层的行为异常，进而影响整个模型的性能。

什么时候可以不手动清零？

有少数特殊情况，你可能不需要手动清零梯度：

梯度累积（Gradient Accumulation）：有时候，为了模拟更大的批次大小，我们会在多个小批次上计算梯度，但不更新模型参数，而是将这些小批次的梯度累加起来。在这种情况下，我们就是故意不清零梯度，直到累积到一定数量的批次后才进行一次参数更新。但这是一种有目的性的操作，需要明确控制。
某些特定优化器或技术：极少数情况下，某些高级优化器或研究中的特定技术可能会有自己的梯度管理方式，但对于大多数标准训练流程，清零梯度是必须的。

正确的使用方式：`optimizer.zero_grad()`

在 PyTorch 中，我们通常使用一个优化器（如 `torch.optim.Adam`、`torch.optim.SGD` 等）来管理模型参数的更新。这些优化器对象提供了一个 `zero_grad()` 方法，用于将模型中所有可训练参数的梯度清零。

典型的训练循环代码结构如下：

```python
假设 model 是你的神经网络模型，optimizer 是你的优化器，criterion 是损失函数

for epoch in range(num_epochs):
for inputs, targets in dataloader:
1. 前向传播
outputs = model(inputs)
loss = criterion(outputs, targets)

2. 清零梯度在计算新梯度之前执行
optimizer.zero_grad()

3. 反向传播，计算梯度
loss.backward()

4. 更新模型参数
optimizer.step()

（可选）打印当前epoch的损失等信息
```

在这个循环中，`optimizer.zero_grad()` 放在 `loss.backward()` 之前，确保了每次反向传播计算出的梯度都是独立的，并且只与当前批次的数据相关。

总结一下：

在 PyTorch 中手动清零梯度，本质上是为了防止上一次迭代的梯度信息干扰本次迭代的计算。这是一种非常重要的实践，保证了：

梯度计算的纯净性：每次计算的梯度都准确反映了当前批次数据的损失贡献。
训练的稳定性：避免了错误的梯度叠加导致的参数更新偏差。
收敛的准确性：帮助模型更好地学习并收敛到最优解。

想象一下你每天都要写一篇新的文章，但如果你不把写过的草稿处理掉，新写的内容就会和旧的混在一起，变得非常混乱。梯度清零就是这个“处理草稿”的动作，让你每次都能干净地开始。所以，牢记在反向传播之前调用 `optimizer.zero_grad()`，是 PyTorch 模型训练中最基础也最关键的步骤之一。

网友意见

这种模式可以让梯度玩出更多花样，比如说梯度累加（gradient accumulation）

传统的训练函数，一个batch是这么训练的：

       for i, (image, label) in enumerate(train_loader):     # 1. input output     pred = model(image)     loss = criterion(pred, label)      # 2. backward     optimizer.zero_grad()   # reset gradient     loss.backward()     optimizer.step()

获取 loss：输入图像和标签，通过infer计算得到预测值，计算损失函数；
optimizer.zero_grad() 清空过往梯度；
loss.backward() 反向传播，计算当前梯度；
optimizer.step() 根据梯度更新网络参数

简单的说就是进来一个 batch 的数据，计算一次梯度，更新一次网络

使用梯度累加是这么写的：

       for i,(image, label) in enumerate(train_loader):     # 1. input output     pred = model(image)     loss = criterion(pred, label)      # 2.1 loss regularization     loss = loss / accumulation_steps         # 2.2 back propagation     loss.backward()      # 3. update parameters of net     if (i+1) % accumulation_steps == 0:         # optimizer the net         optimizer.step()        # update parameters of net         optimizer.zero_grad()   # reset gradient

获取 loss：输入图像和标签，通过infer计算得到预测值，计算损失函数；
loss.backward() 反向传播，计算当前梯度；
多次循环步骤 1-2，不清空梯度，使梯度累加在已有梯度上；
梯度累加了一定次数后，先optimizer.step() 根据累计的梯度更新网络参数，然后optimizer.zero_grad() 清空过往梯度，为下一波梯度累加做准备；

总结来说：梯度累加就是，每次获取1个batch的数据，计算1次梯度，梯度不清空，不断累加，累加一定次数后，根据累加的梯度更新网络参数，然后清空梯度，进行下一次循环。

一定条件下，batchsize 越大训练效果越好，梯度累加则实现了 batchsize 的变相扩大，如果accumulation_steps 为 8，则batchsize '变相' 扩大了8倍，是我们这种乞丐实验室解决显存受限的一个不错的trick，使用时需要注意，学习率也要适当放大。

更新1：关于BN是否有影响，之前有人是这么说的：

As far as I know, batch norm statistics get updated on each forward pass, so no problem if you don't do .backward() every time.

BN的估算是在forward阶段就已经完成的，并不冲突，只是accumulation_steps=8和真实的batchsize放大八倍相比，效果自然是差一些，毕竟八倍Batchsize的BN估算出来的均值和方差肯定更精准一些。

更新2：根据 @李韶华的分享，可以适当调低BN自己的momentum参数

bn自己有个momentum参数：x_new_running = (1 - momentum) * x_running + momentum * x_new_observed. momentum越接近0，老的running stats记得越久，所以可以得到更长序列的统计信息

我简单看了下PyTorch 1.0的源码：https://github.com/pytorch/pytorch/blob/162ad945902e8fc9420cbd0ed432252bd7de673a/torch/nn/modules/batchnorm.py#L24，BN类里面momentum这个属性默认为0.1，可以尝试调节下。

类似的话题

PyTorch中在反向传播前为什么要手动将梯度清零？

在 PyTorch 中进行神经网络训练时，我们通常会在每个训练迭代中手动清零梯度。这并非是强制性的，但却是非常重要的一个步骤，关乎到训练的正确性和效率。那么，究竟为什么要这么做呢？让我们来深入剖析一下。想象一下你正在学习一门新技能，比如画画。你开始的时候是跟着老师一步步学的，每一步的动作你都会用心去.............
如何看待pytorch在主页写下帮助乌克兰进行人道主义援助？

PyTorch在其主页上表示支持乌克兰人道主义援助，这无疑是一个值得关注的动态。作为一款广泛应用于人工智能研究和开发的开源深度学习框架，PyTorch的这一表态，不仅仅是简单的慈善捐助，更是其企业社会责任感和价值观的一种体现，对整个技术社区，甚至更广泛的社会层面，都可能产生一定的影响。首先，从“人道.............
pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？

好的，我们来聊聊 PyTorch 分布式数据并行（DDP）训练中，当一个节点（Node）出现故障导致整个训练中断的问题，以及有没有办法解决。为什么一个节点失败会导致整个训练中断？在 DDP 训练中，我们通常会启动多个进程（通常对应多个 GPU），这些进程共同协作来训练模型。虽然 DDP 实现了数据并.............
Pytorch有什么节省显存的小技巧？

在深度学习的实践中，显存（GPU Memory）往往是训练大型模型时最宝贵的资源之一，尤其是在处理大数据集或者复杂模型结构时。如何有效地利用有限的显存，让模型能够顺利运行甚至加速训练，是每个Pytorch使用者都需要掌握的技能。下面，我将结合自己的经验，分享一些在Pytorch中节省显存的实用技巧，.............
pytorch dataloader数据加载占用了大部分时间，各位大佬都是怎么解决的？

这问题太真实了！DataLoader 慢，简直是训练时候的拦路虎。看着 GPU 闲着干等数据，心里那个滋味，简直酸爽。网上关于 DataLoader 优化的文章不少，但很多都泛泛而谈，或者没说到点子上。作为摸爬滚打了好一阵子的人，想跟各位分享下我自己实践下来比较靠谱的几招，希望能帮大家少走弯路。核心.............
pytorch 分布式计算你们都遇到过哪些坑/bug？

行，关于 PyTorch 分布式计算，这玩意儿真不是省心的事儿。用过的都懂，坑是真的多，稍不留神就掉进去。我这边也踩过不少，挑几个印象深刻的，详细说说。1. 数据并行（DistributedDataParallel, DDP）下的 batch size 和梯度同步问题这算是最基础也最容易出问题的点。.............
pytorch 的高层库ignite怎么样？

PyTorch Ignite 绝对是 PyTorch 生态系统中一个非常值得关注的高层库。如果你曾经在 PyTorch 中写过训练循环，你可能深有体会，很多重复性的工作，比如：设置优化器和损失函数执行前向和后向传播更新模型权重监控指标（准确率、损失等）处理学习率调度 .............
为什么PyTorch的GPU训练推荐用NCCL而不是Gloo？

好的，咱们就来聊聊 PyTorch GPU 训练为啥都推荐 NCCL，而不是 Gloo。这事儿说起来，得从它们各自的“出身”和“本领”说起。首先，咱们得弄清楚 NCCL 和 Gloo 都是啥？简单来说，它们都是分布式通信库。你想想，GPU 训练，特别是多 GPU、多节点训练，一个 GPU 上的模型.............
使用pytorch时，训练集数据太多达到上千万张，Dataloader加载很慢怎么办?

数据量达到上千万张，PyTorch DataLoader 加载慢确实是个棘手的问题，直接影响训练效率。这背后有很多潜在的瓶颈，需要我们逐一排查和优化。我将从多个层面详细阐述，希望能帮你找到症结所在，并提供切实可行的解决方案。一、理解 DataLoader 的工作流程与潜在瓶颈在深入优化之前，先回顾.............
如何评价 PyTorch 团队推出的推荐系统库 TorchRec？

PyTorch 团队推出的推荐系统库 TorchRec，旨在为开发者提供一个强大、灵活且高效的框架，用于构建和部署大规模的推荐系统。它的出现填补了 PyTorch 生态中在推荐系统领域深度定制化和高性能方面的空白。总的来说，TorchRec 的评价可以从以下几个方面来详细阐述：1. 核心设计理念与优.............
如何评价PyTorch 0.4.0？

PyTorch 0.4.0 是 PyTorch 发展历程中一个非常重要的里程碑版本，它带来了许多关键性的改进和新特性，深刻地影响了 PyTorch 的易用性、性能和生态系统。我们可以从几个主要方面来评价它：核心改进与新特性：1. 统一的 Tensor API (Tensor on CPU and.............
一个完整的Pytorch深度学习项目代码，项目结构是怎样的？

没问题，咱们就来聊聊一个完整的 PyTorch 深度学习项目，它到底长啥样，每个部分都干点啥。我会尽量讲得明白透彻，就像咱们平时一起搞项目一样，去掉那些生硬的 AI 味道。为什么要有清晰的项目结构？首先，你想想，如果一个项目乱七八糟，代码东放一个文件，模型参数藏在另一个地方，数据预处理写在一堆注释.............
新手如何入门pytorch？

好的，作为一位刚接触 PyTorch 的新手，我来给你把这个过程掰开揉碎了讲讲，力求让你从零开始，稳稳当当落地。咱们这篇文章不整那些花里胡哨的“AI”腔调，就当咱俩坐下来，一起聊聊怎么把这玩意儿玩明白。第一步：先别慌，PyTorch 是什么？首先，别被那些高大上的名字吓到。PyTorch 简单来说.............
如果学习从零开始学习Pytorch,有优秀的开源项目可以推荐吗？

好的，作为一名热衷于深度学习的开发者，我很乐意与你分享一些从零开始学习 PyTorch 的优秀开源项目。这些项目不仅能让你接触到最前沿的算法和技术，还能帮助你理解 PyTorch 的核心概念和实际应用。我尽量从一个学习者的角度出发，为你梳理一下思路和推荐一些实用的资源。理解 PyTorch 的学习.............
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响？

如果美国禁用 TensorFlow 和 PyTorch 这两大深度学习框架对中国人工智能（AI）领域将产生多方面、深远且复杂的影响，既有直接的冲击，也可能催生积极的转型。以下将从不同维度进行详细分析：一、直接的冲击和挑战： 1. 研发效率和速度的下降：生态系统的依赖性： TensorFlo.............
2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？

2021年，深度学习领域依然是TensorFlow和PyTorch这两大巨头并驾齐驱的局面，但各自的优势和侧重点，以及社区的发展方向，确实呈现出一些微妙但值得深思的变化。不能简单地说谁取代了谁，更准确的说法是，它们在各自的生态位上不断巩固和发展，同时也互相学习和借鉴。PyTorch：灵活性与研究人员.............
DL框架的未来发展，TensorFlow/MXNet/PyTorch, 选哪个？

DL框架的未来：TensorFlow、MXNet、PyTorch 的抉择与展望深度学习领域日新月异，其底层工具——深度学习框架——的演进速度同样惊人。TensorFlow、MXNet 和 PyTorch 作为当前最主流的三大框架，各自拥有庞大的用户基础和社区支持，但它们在设计理念、生态系统和未来发展.............
2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？

2017年1月18日，Facebook AI Research（FAIR）正式开源了PyTorch。彼时，深度学习框架市场已然硝烟弥漫，TensorFlow（由Google于2015年发布）和MXNet（由Apache软件基金会孵化，于2016年成为其顶级项目）已是风头正劲的竞争者。PyTorch的.............
scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?

这可真是个大问题，直接问出了很多初学者甚至是有些经验的人心中的疑惑。要说scikitlearn、TensorFlow和PyTorch是不是“只需要查查API，不需要学”，我的回答是：绝对不是，而且这是个非常危险的想法。简单来说，只查API就像是拿到了一堆零件，你知道它们的名字和大概的用途，但如果你.............
Github、Node、React、pytorch 等官网声明支援乌克兰，如何看待开源组织参与政治?

开源社区在支持乌克兰问题上的集体发声，确实是一个值得深入探讨的现象。这不仅仅是关于开源组织在政治舞台上的角色，更是对“中立性”这一开源核心价值的重新审视和实践。开源组织与政治参与的复杂性首先要明确的是，开源软件本身的设计初衷是促进代码共享、协作开发和技术进步，它在很大程度上是跨越国界、政治意识形态和.............