首页

pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？第1页

1

liustein 网友的相关建议:

其实我从来没有想过要去挽救一个挂掉的训练。。。毕竟人家要是挂了，还是要尽量搞清楚怎么回事。俗话说的好，如果你发现了一只蟑螂，一定在暗处还藏着一万只。。。所以，与其学习和蟑螂共存，不如把他干掉啊。

不过我还是挺好奇的，就搜索了一番，感觉有点价值，就稍微贡献一下我的搜索成果。

Torch Elastic自然是可以，一般做法是经常保存模型，然后出问题Torch Elastic会重启所有节点，重启的时候恢复之前保存的最近的模型和训练状态然后继续训练。

还有一个技巧是使用nccl的超时功能，如果什么都不做，nccl是没有超时功能的。但把NCCL_ASYNC_ERROR_HANDLING的环境变量设置成1，然后在初始化进程的时候这么设置：

       import torch.distributed as dist  dist.init_process_group(     …     backend=“nccl”,     timeout=timedelta(seconds=5) )

nccl就会在节点超时5秒的时候抛出异常。nccl的超时功能加上Torch Elastic，就可以处理因为超时而挂掉的节点了。

一点微小的贡献哈

xiaohuzc 网友的相关建议:

补充一点：torch新出的Join可以处理DDP中数据不均匀的情况，本质上就是忽略那些已经join的node，所以可以在每个node中catch异常，发现异常可以提前join，也是一种处理方式吧。

shaoziqi 网友的相关建议:

Torch Elastic

ding-ming-55-55 网友的相关建议:

各种弹性训练适用范围有限。。。例如用zero之类的训练有点挂了神仙难救，还是勤存ckpt是王道。

pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？的其他答案点击这里

1

相关话题

  Python 怎么二次封装一个系统函数？
  请解释下variational inference？
  银行业为什么喜欢用 sas 而不是 python？
  pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？
  如何看待Geoffrey Hinton的言论，深度学习要另起炉灶，彻底抛弃反向传播？
  如何评价生成模型框架 ZhuSuan?
  为什么强大的 MXNet 一直火不起来？
  神经网络的万能逼近定理已经发展到什么地步了？
  如何评价周志华教授新提出的 Deep Forest 模型，它会取代当前火热的深度学习 DNN 吗？
  用 Python 进行数据分析，不懂 Python，求合适的 Python 书籍或资料推荐？

前一个讨论

什么叫文化素养？

下一个讨论

为什么说大模型训练很难？

相关的话题

  验证集loss上升，准确率却上升该如何理解？
  石头和塑料袋对于计算机传感器的差别在于什么？为什么无人驾驶系统会依然存在对周围环境的误判？
  AlphaGo 与李世石的对战会推动人类的极限还是机器学习的进步和觉醒？
  如何评价CUHK以及Yuanjun Xiong提出的Trajectory Convolution？
  自学 Python 之后如果不去公司上班，自己一个人可以通过此技能挣什么钱？
  人工智能可以解决人类难题吗？
  如何评价PyTorch 0.4.0？
  石头和塑料袋对于计算机传感器的差别在于什么？为什么无人驾驶系统会依然存在对周围环境的误判？
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心？
  如何看待FAIR提出的8-bit optimizer：效果和32-bit optimizer相当？
  多任务学习中loss多次backward和loss加和后backward有区别吗？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  你们都是怎么学 Python 的？
  Python 中有什么不容易让人察觉的有趣的事实?
  如何看待马毅老师深度学习第一性原理的文章在 ICML 四个审稿人一致接收的情况下被 AC 拒了？
  python适合什么年龄自学?
  如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？
  如何系统学习机器学习？
  如何评价 NVIDIA 发布的 DGX-1？
  如何评价MSRA最新的 Relation Networks for Object Detection？
  Python 有哪些好的学习资料或者博客？
  如何进行图像模糊与清晰的分类？
  为什么看不懂廖雪峰的Python学习教程？
  Python 不区分变量定义和赋值，是否是设计上的缺陷？
  如果人工智能迎来下一个寒冬，你认为会是卡在什么问题上？
  什么是蒙特卡罗 Dropout(Monte-Carlo Dropout)？
  会多门编程语言的你，最推荐哪3-5门语言？
  如何看待swin transformer成为ICCV2021的 best paper？
  梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
  在做算法工程师的道路上，你掌握了什么概念或技术使你感觉自我提升突飞猛进？

© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利