百科问答小站 logo
百科问答小站 font logo



为什么我用相同的模型,数据,超参,随机种子,在两台服务器会得到不同的结果? 第1页

  

user avatar   meta-tabchen 网友的相关建议: 
      

在科研中最怕的事之一:就是自己的模型结果无法复现,有时哪怕设置了随机种子也无法复现结果。这篇文档介绍一些常用的方法。

设置随机种子

下面是一个设置随机数的函数,对于 pytorch 下面的函数就够用了。

       def set_seed(seed):     try:         import tensorflow as tf         tf.random.set_random_seed(seed)     except Exception as e:         print("Set seed failed,details are ", e)     try:         import torch         torch.manual_seed(seed)         if torch.cuda.is_available():             torch.cuda.manual_seed_all(seed)             torch.backends.cudnn.deterministic = True             torch.backends.cudnn.benchmark = False     except Exception as e:         print("Set seed failed,details are ", e)         pass     import numpy as np     np.random.seed(seed)     import random as python_random     python_random.seed(seed)     # cuda env     import os     os.environ["CUDA_LAUNCH_BLOCKING"] = "1"     os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"      

后面分别对 pytorch 和tensorflow 介绍特殊的情况。

Pytorch

官方的文档提到,对于 RNN 类模型会因为 cuDNN 和 CUDA 的原因导致结果无法复现,可以通过设置环境变量来解决。(之前的代码已经设置)

  • CUDA 10.1:设置环境变量 CUDA_LAUNCH_BLOCKING=1
  • CUDA 10.2 或者更高版本:设置环境变量 (注意两个冒号)CUBLAS_WORKSPACE_CONFIG=:16:8 或者 CUBLAS_WORKSPACE_CONFIG=:4096:2.

原文如下:

There are known non-determinism issues for RNN functions on some versions of cuDNN and CUDA. You can enforce deterministic behavior by setting the following environment variables:
On CUDA 10.1, set environment variable CUDA_LAUNCH_BLOCKING=1. This may affect performance.
On CUDA 10.2 or later, set environment variable (note the leading colon symbol)CUBLAS_WORKSPACE_CONFIG=:16:8 or CUBLAS_WORKSPACE_CONFIG=:4096:2.
See the cuDNN 8 Release Notes for more information.

Tensorflow

除了之前的 set_seed(seed) 外还需要设置 PYTHONHASHSEED 环境变量为 0 ,即PYTHONHASHSEED=0。但注意 (不要在代码里设置),应该在外部执行时加上,例如:

       CUDA_VISIBLE_DEVICES="" PYTHONHASHSEED=0 python your_program.py      

以上就是 Pytorch/Tensorflow 确保结果可复现结果的方法,有问题可以评论,看到会立即回复。

参考




  

相关话题

  研一,在学机器学习和深度学习,为什么感觉越学越不会,怎么解决这个问题? 
  联邦学习在机器学习领域有什么独立存在的价值? 
  插值和拟合最根本的区别是什么?机器学习为啥用拟合?? 
  为什么有的论文放出训练好的模型和测试脚本,但不开源训练代码? 
  你实践中学到的最重要的机器学习经验是什么? 
  如果百年后深度学习最终有了公认的数学理论作为基础,能解释实验中的各类玄学,那这个理论会长什么样子? 
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢? 
  为什么我用相同的模型,数据,超参,随机种子,在两台服务器会得到不同的结果? 
  2021年了,机器学习有什么高质量的专著? 
  如何看待MXNet获得amazon官方支持首位? 

前一个讨论
如何看待网传上海大学研究生延毕1/3?
下一个讨论
哪些 APP 的流氓操作让你忍无可忍?





© 2024-06-03 - tinynew.org. All Rights Reserved.
© 2024-06-03 - tinynew.org. 保留所有权利