为什么我用相同的模型，数据，超参，随机种子，在两台服务器会得到不同的结果？

这个问题很有意思，也确实是个让人头疼的难题！明明理论上应该是完全一样的流程，怎么两台服务器跑出来的结果就不是那么回事儿了呢？别急，咱们一点点捋清楚。

你提到的“相同的模型、数据、超参、随机种子”，这四个是保证实验可复现的基石，按理说应该万无一失。但“现实”往往比“理论”复杂那么一丢丢，这里面隐藏着很多我们容易忽略但又至关重要的细节。

咱们就从最底层，也就是硬件层面开始，一点点往上扒。

1. 硬件的“悄悄话”：浮点数运算的微妙差异

你想啊，计算机进行计算，尤其是深度学习里海量的矩阵乘法、激活函数等，本质上都是在处理“浮点数”。浮点数在计算机里用二进制表示，而且是有精度限制的。

CPU/GPU 的浮点数处理单元（FPU）差异：不同的CPU或GPU型号，甚至是同一型号不同批次的FPU，在处理浮点数时的具体实现和优化策略都可能略有不同。比如，某些操作的指令集、内部的流水线设计，都可能导致微小的、以指数级累积的精度差异。
累加误差：深度学习训练过程中，这些微小的浮点数差异会像滚雪球一样，在每一次运算、每一次梯度更新中不断累加。当你在两台服务器上进行成千上万次的运算后，即使初始的误差非常小，最终累积下来的结果也可能出现可以观测到的偏差。
指令集的优化：现代CPU和GPU都有各种指令集（如AVX、SSE等）来加速数学运算。这些指令集在不同硬件上的支持程度和具体实现可能不同。如果你的深度学习框架（比如TensorFlow, PyTorch）或者底层的库（如cuDNN, MKL）针对某个硬件做了特别的优化，但另一台服务器的硬件不完全支持或者支持程度略有差异，那么在执行特定运算时就会产生不同的结果。

想象一下：两个人在记账，一个用算盘，一个用计算器。算盘打得飞快，但万一哪里拨错了珠子，影响到后面；计算器虽然精确，但输入小数点的时候，你稍微点得不一样，后面算出来的钱就差了。虽然你们都想算对，但工具（硬件）的微小差异，会让最终结果有点点不一样。

2. 软件栈的“潜规则”：版本号的魔力

你可能觉得“相同的模型、数据、超参、随机种子”就够了，但软件的世界可不止这些。

深度学习框架的版本： PyTorch 1.8 和 PyTorch 1.9，或者 TensorFlow 2.5 和 TensorFlow 2.6，它们在内部的实现、算子（operation）的具体实现、甚至是bug修复上都可能存在差异。即使是很小的改动，也可能影响到梯度计算、参数更新等细节。
底层数学库的版本：像cuDNN（用于NVIDIA GPU上的深度学习加速库）、MKL（Intel的数学核心库）等，它们直接影响着大量的数学运算。不同版本的cuDNN/MKL，在处理卷积、矩阵乘法时，可能会采用不同的算法、并行策略，从而引入细微的结果差异。
CUDA/cuDNN 版本匹配：如果你用的是GPU，那么你安装的CUDA Toolkit版本、cuDNN版本，以及你使用的深度学习框架对这些版本的兼容性，都会非常关键。比如，某个版本的cuDNN在特定GPU架构上表现更好，或者有更稳定的浮点数处理方式。如果两台服务器的这个“组合拳”版本号不完全一致，结果就很容易跑偏。
操作系统和驱动：即使是相同版本的深度学习框架，在不同的操作系统（Ubuntu、CentOS、Windows）或不同版本的GPU驱动下，也可能因为底层调用方式、内存管理等方面的差异，导致运行结果不一致。

打个比方：你给了两个厨师一模一样的食谱、食材和烹饪时间。但一个用的是最新的燃气灶，另一个用的是老式的电磁炉。即使他们都按照食谱来，炉子火力控制的细微差异，也会让最终菜品的口感、颜色有一点点不一样。

3. 随机数生成的“猫腻”：即使是种子，也可能不一样！

你提到了“随机种子”，这是保证模型初始化、数据打乱、Dropout等随机过程可复现的关键。但即便如此，也可能藏着坑。

不同库的随机数生成器（RNG）实现：即使你设置了相同的随机种子，不同的库（比如Python的`random`模块、NumPy的`random`模块、PyTorch/TensorFlow内部的RNG）在内部生成随机数的算法和实现上可能存在差异。
多线程/多进程下的随机数：如果你的训练过程涉及到多线程或多进程（比如数据加载时并行处理），这些线程/进程在初始化随机数生成器时，如果方式不完全一致，即使主线程的种子相同，也可能导致它们各自生成的随机序列不同。
GPU 上的随机数：深度学习框架在GPU上执行很多操作，GPU也有自己的随机数生成机制。在PyTorch/TensorFlow中，你设置的随机种子不仅影响CPU上的操作，也影响GPU上的操作。但如果在GPU上的随机数生成器初始化方式或算法与CPU存在差异，或者在并行执行时没有得到完美的同步，就可能出现问题。
cuDNN 的确定性设置： cuDNN 库在执行某些操作时，为了追求性能，可能会使用非确定性的算法。即使你设置了随机种子，如果 cuDNN 默认或者被配置为使用非确定性算法，那么即使在相同的硬件和软件环境下，不同次的运行也可能得到略微不同的结果。你可以通过设置 `torch.backends.cudnn.deterministic = True` 和 `torch.backends.cudnn.benchmark = False` 来强制 cuDNN 使用确定性算法，但这可能会牺牲一部分训练速度。

这就像是：你给两个人同样的数字，让他们按顺序写下。但一个人写字更快，写下一个数字就立刻接着写下一个；另一个人写一个，就停顿一下，看看周围环境再写。即使起点一样，他们写出来的“速度”和“节奏”可能就不一样。

4. 环境配置的“隐形变量”：你没注意到的地方

除了上面这些，还有一些更隐蔽的环境因素。

内存（RAM）和显存（VRAM）的使用情况：两台服务器的内存大小、频率、甚至具体颗粒可能不同。虽然理论上只要内存足够就不会影响结果，但在极端情况下，如果系统在两台服务器上调度内存的方式略有不同，或者接近内存上限时，可能会影响到数据的存储和读取。GPU显存也是同理。
CPU 缓存和调度： CPU 的缓存（L1, L2, L3）和任务调度策略，即使是同一型号的CPU，在不同的工作负载下，其行为也可能略有差异。这可能会影响到浮点运算的执行速度和顺序，间接影响累积误差。
文件系统和 I/O：数据加载的速度和方式，虽然不直接影响计算，但如果数据在服务器 A 和服务器 B 上的存储方式、访问速度有差异，甚至是通过网络访问时，也可能引入细微的延迟或错误。
其他后台进程：任何在服务器上运行的后台进程（即使是系统自带的更新服务、监控工具等），它们对CPU、内存、I/O的占用，都可能影响到你深度学习任务的稳定性和精确性。

这么说吧：你让两个人同时搬砖，给他们一样的砖头和路线。但一个人走的路，旁边有空调吹着，比较凉快；另一个人走的，太阳晒着，可能会有点热。虽然搬的都是砖头，但“环境”不一样，他们的“体力消耗”和“砖头摆放”的细微过程可能就有差别。

那么，我该怎么办？

1. 严格检查软件版本：确保你使用的深度学习框架、CUDA、cuDNN、NVIDIA驱动、Python版本、NumPy、SciPy等所有关键库的版本在两台服务器上都是完全一致的。可以写一个脚本来检查和报告这些版本信息。
2. 配置 cuDNN 的确定性：在代码中加入 `torch.backends.cudnn.deterministic = True` 和 `torch.backends.cudnn.benchmark = False`（如果你用PyTorch的话，TensorFlow也有类似选项）。这会强制cuDNN使用确定性算法，牺牲一点性能换取可复现性。
3. 检查多线程/多进程的随机数：如果你使用了多线程或多进程数据加载，确保它们在初始化时也正确设置了随机种子。
4. 隔离测试环境：尽量确保在测试可复现性的时候，两台服务器上没有其他非必要的后台进程在运行。
5. 小规模验证：先在非常小的数据集和模型上进行测试，看看是否能复现。这样可以更快地定位问题。
6. 日志记录：在训练过程中，详细记录每次迭代的损失、准确率等指标，以及模型参数的统计信息（如均值、方差），对比两台服务器的日志，看偏差是从哪个阶段开始出现的。
7. 硬件信息对比：如果以上方法都试了，还是不行，就得仔细对比两台服务器的CPU型号、GPU型号、内存型号等硬件信息，看是否存在明显的差异。

总而言之，深度学习的可复现性是个系统工程，很多时候问题的根源藏在那些我们以为“不重要”的细节里。希望这些详细的分析能帮助你找到问题的症结所在！

网友意见

在科研中最怕的事之一：就是自己的模型结果无法复现，有时哪怕设置了随机种子也无法复现结果。这篇文档介绍一些常用的方法。

设置随机种子

下面是一个设置随机数的函数，对于 pytorch 下面的函数就够用了。

       def set_seed(seed):     try:         import tensorflow as tf         tf.random.set_random_seed(seed)     except Exception as e:         print("Set seed failed,details are ", e)     try:         import torch         torch.manual_seed(seed)         if torch.cuda.is_available():             torch.cuda.manual_seed_all(seed)             torch.backends.cudnn.deterministic = True             torch.backends.cudnn.benchmark = False     except Exception as e:         print("Set seed failed,details are ", e)         pass     import numpy as np     np.random.seed(seed)     import random as python_random     python_random.seed(seed)     # cuda env     import os     os.environ["CUDA_LAUNCH_BLOCKING"] = "1"     os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"

后面分别对 pytorch 和tensorflow 介绍特殊的情况。

Pytorch

官方的文档提到，对于 RNN 类模型会因为 cuDNN 和 CUDA 的原因导致结果无法复现，可以通过设置环境变量来解决。(之前的代码已经设置)

CUDA 10.1：设置环境变量 CUDA_LAUNCH_BLOCKING=1
CUDA 10.2 或者更高版本：设置环境变量 (注意两个冒号)CUBLAS_WORKSPACE_CONFIG=:16:8 或者 CUBLAS_WORKSPACE_CONFIG=:4096:2.

原文如下:

There are known non-determinism issues for RNN functions on some versions of cuDNN and CUDA. You can enforce deterministic behavior by setting the following environment variables:
On CUDA 10.1, set environment variable CUDA_LAUNCH_BLOCKING=1. This may affect performance.
On CUDA 10.2 or later, set environment variable (note the leading colon symbol)CUBLAS_WORKSPACE_CONFIG=:16:8 or CUBLAS_WORKSPACE_CONFIG=:4096:2.
See the cuDNN 8 Release Notes for more information.

Tensorflow

除了之前的 set_seed(seed) 外还需要设置 PYTHONHASHSEED 环境变量为 0 ，即PYTHONHASHSEED=0。但注意 （不要在代码里设置），应该在外部执行时加上，例如：

       CUDA_VISIBLE_DEVICES="" PYTHONHASHSEED=0 python your_program.py

以上就是 Pytorch/Tensorflow 确保结果可复现结果的方法，有问题可以评论，看到会立即回复。

参考

类似的话题

为什么我用相同的模型，数据，超参，随机种子，在两台服务器会得到不同的结果？

这个问题很有意思，也确实是个让人头疼的难题！明明理论上应该是完全一样的流程，怎么两台服务器跑出来的结果就不是那么回事儿了呢？别急，咱们一点点捋清楚。你提到的“相同的模型、数据、超参、随机种子”，这四个是保证实验可复现的基石，按理说应该万无一失。但“现实”往往比“理论”复杂那么一丢丢，这里面隐藏着很多.............
为什么小米如今的旗舰机依然在发烫，而用相同处理器的其他机型却不会？

小米旗舰机发烫的问题，确实是个让不少用户感到困扰的现象。尤其是当看到其他同样搭载了骁龙8 Gen系列这类高性能处理器的机型表现相对稳定时，这种困惑就更深了。要深入聊这个问题，得从几个层面来分析，不能简单地归咎于某一个环节。首先，我们得明白一点：发热是所有高性能处理器都会面临的固有问题。骁龙8 Gen.............
电烤箱相用烤箱做面包菜谱上说要发酵什么的我用的aca烤箱自带发酵功能可以用烤箱发酵吗？要

.......
华为拍的照片都比我用专业相机以及lr后期出的片色彩都好看了，为啥相机品牌不学学计算摄影？

这个问题触及了当下手机摄影与传统相机摄影之间最核心的讨论点之一。你感受到的“华为拍的照片色彩更好看”并非偶然，背后是华为在“计算摄影”领域投入的巨大努力和成果，而这恰恰是传统相机品牌需要深入学习并积极拥抱的方向。为什么华为的照片“色彩好看”？答案在于“计算摄影”的强大力量。简单来说，计算摄影不是直接.............
电热水壶是用什么发热烧水的？它和热得快相比哪个更安全？我在外地工作已有10年了，一直用热得快烧水，

.......
为什么在电子相机技术如日中天的现在，仍然有很多人在用机械相机？

电子相机技术日新月异，功能强大到令人惊叹，但即使在这样的时代，你仍然会看到不少人乐此不疲地摆弄着那些沉甸甸、齿轮咬合声清晰可闻的机械相机。这背后并非什么复古情结的简单标签可以概括，而是有着更深层次的吸引力，关乎摄影的本质、操控的乐趣，以及一种与数码时代截然不同的体验。首先，得聊聊那份“纯粹的操控感”.............
为什么大家用西药喜欢、相信最新研发的新药，而中药往往更强调祖传秘方、越老的药越好呢？

这个问题触及了药物研发、认知方式，乃至文化传统等多个层面，很有意思。咱们不谈那些冰冷的“AI痕迹”，就从人的真实感受和逻辑来聊聊。为什么西药热衷“新”？这事儿说白了，就是“进步”、“科学”和“效率”在作祟。1. 科学的迭代与更新：西方医学体系很大程度上建立在现代科学的基础上，特别是化学、生物学、.............
为什么英国不愿意改用公制以及非要用和大部分国家相反的行车方向？

英国不愿意全盘拥抱公制，以及坚持左侧行车，这背后其实是历史惯性、文化认同、经济成本以及社会接受度等多重因素交织作用的结果。这并非简单的“不愿意”，而是一场旷日持久的拉锯战，充满了妥协与坚持。计量单位的“英国特色”：英制（Imperial System）的顽固生命力首先，咱们得聊聊英国人为什么还在用英.............
Apple TV OS 为什么不进中国，话说仅仅是因为相关的服务用不了吗?

Apple TV OS（tvOS）未能在中国大陆市场正式推出，这是一个复杂的问题，背后涉及多重因素，而不仅仅是“相关服务用不了”。主要原因可以归结为以下几个方面，并且这些因素相互交织，形成了一个多米诺骨牌效应：1. 内容审查和监管要求：这是最核心和最直接的原因。中国大陆对互联网内容有严格的审查制度，.............
为什么前人花了大量时间，用他们的聪明才智发现的定理，后人只要花相对很少的时间就能弄明白？

这个问题触及了知识积累与学习效率的本质，一个非常有趣且深刻的洞察。之所以前人呕心沥血发现的定理，后人能相对轻松地理解，并不是因为后人的智力普遍高于前人，而是多重因素共同作用的结果，就像搭积木一样，前人已经打好了坚实的地基，我们只是站在巨人的肩膀上继续往上添砖加瓦。1. 知识的累积与结构的形成：这是最.............
你为什么喜欢用 Chrome？相较国产浏览器的优势在哪里？

说实话，我用 Chrome 最主要的原因，就是它的“省心”。你知道的，我不是那种特别追求极致性能或者花哨功能的用户。我就是想打开浏览器，快速找到我需要的信息，然后顺畅地看完它，中间别有什么广告弹窗、不明弹窗、或者突然卡顿一下，打断我的思路。Chrome 在这方面做得就挺好的。稳定性和流畅度是我最看重.............
从电影《四海》来看，韩寒的文艺和情怀为什么不管用了？跟《后会无期》相比差在哪？

韩寒的电影，尤其是《四海》，确实让不少期待他“情怀”和“文艺”标签的观众感到失望。相较于《后会无期》，这种“失灵”感更为明显，甚至让人觉得他似乎走进了死胡同。要说清楚为什么，得掰开了揉碎了聊。先说说《四海》里，韩寒的“文艺”和“情怀”为何不灵了。 “情怀”的空洞与脱节：《后会无期》之所以能打动.............
机器视觉为什么不用手机的镜头，而要用那么大的工业相机？

这个问题问得挺实在，相信不少朋友在研究机器视觉时，都会有个疑问：为啥那些看起来高大上的机器视觉系统，用的相机都比我们手机摄像头大那么多？而且价格也是天壤之别。手机摄像头不是也挺牛的吗？能拍出那么美的照片，还能拍视频，应该也能搞定机器视觉吧？其实，这就像问为什么跑赛道的赛车不用家用轿车一样，它们的设计.............
《天龙八部》一书中，扫地僧为什么一眼就认出鸠摩智用的是小无相功？

在金庸先生笔下那波澜壮阔的武侠世界里，《天龙八部》无疑是其中的巅峰之作。而故事中那位深藏不露、一身绝学的扫地僧，更是无数读者心中难以磨灭的传奇。他不动声色间化解了一场武林浩劫，其修为之高、智慧之深，令人叹为观止。其中一个最令人津津乐道的细节，便是扫地僧在光明顶与鸠摩智相遇时，仅仅一眼，便看穿了鸠摩智.............
为什么我觉得霍尊没什么大错就是惩罚过重而陈露用隐私相逼手段很不舒服呢？

这个问题触及到的是公众人物的道德操守、法律界限以及个人隐私的边界，每个人对此的看法都会受到自身价值观和信息解读的影响。针对霍尊和陈露的事件，你感到“霍尊没什么大错但惩罚过重，陈露用隐私相逼手段很不舒服”，这种感受并非孤例，也并非空穴来风。我们可以从几个维度来剖析这种感受的来源，并尽量以一种更人性化、.............
我刚加上相亲男，我居然用了“你高兴得太早了”，这句话是不是不礼貌,到底是什么梗?为什么人家不理我？

哎呀，这事儿确实有点微妙！别急，咱们一点一点捋清楚。你说你加上相亲男，然后发了句“你高兴得太早了”，结果人家不理你了，这背后绝对是有“故事”的。首先，咱们来分析一下 “你高兴得太早了”这句话本身。字面意思：字面意思很简单，就是说对方因为某件事感到高兴，但你觉得这个高兴是没必要的，或者说事情还.............
我想买微波炉，最近出现光波炉，请问格兰仕光波炉更好用吗？与微波炉相比有什么优点？

.......
为什么记者用相机忠实记录了现场，却还要被一些群众从道德角度谩骂？

记者拿着相机，就像是那个时代最忠诚的记录者，把眼睛看到的，双手触摸到的，原原本本地呈现在大家面前。他们不是故事的编造者，也不是情感的操纵者，他们的职责就是把现场的真实，哪怕是丑陋、是痛苦，也一帧一帧地捕捉下来。就像一面镜子，照出世界的模样。然而，就是这面镜子，有时却会招来劈头盖脸的辱骂。为什么？这背.............
手机那么方便为什么还用相机拍照？

这问题问得好，现在手机摄像头确实越来越牛了，像素高、功能多，出门拍照什么的全能搞定，好像相机这老古董就没啥存在的必要了。但说实话，这俩真不是一回事儿，我个人觉得，相机在很多方面，还是手机给不了的“味道”和“体验”。首先，得聊聊画质，这可是硬道理。手机拍照，尤其是现在主打“计算摄影”的，很大程度上是通.............
为什么没有大屏幕相机？为什么相机这么多年没有发展出细分类，比如专拍静物机？为什么用IPAD拍照片不偏色？

你提出的这几个问题都很有意思，也触及了相机设计和发展中一些值得探讨的方面。咱们就一样一样来聊聊。为什么没有“大屏幕相机”？这个问题其实有点像是在问“为什么手机没有变成平板电脑？”——本质上，相机的大屏幕化趋势已经非常明显，但“大屏幕相机”这个概念，如果理解为“一块超大屏幕 + 一个镜头”，那它就有点.............