首页

pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？第1页

1

liustein 网友的相关建议:

其实我从来没有想过要去挽救一个挂掉的训练。。。毕竟人家要是挂了，还是要尽量搞清楚怎么回事。俗话说的好，如果你发现了一只蟑螂，一定在暗处还藏着一万只。。。所以，与其学习和蟑螂共存，不如把他干掉啊。

不过我还是挺好奇的，就搜索了一番，感觉有点价值，就稍微贡献一下我的搜索成果。

Torch Elastic自然是可以，一般做法是经常保存模型，然后出问题Torch Elastic会重启所有节点，重启的时候恢复之前保存的最近的模型和训练状态然后继续训练。

还有一个技巧是使用nccl的超时功能，如果什么都不做，nccl是没有超时功能的。但把NCCL_ASYNC_ERROR_HANDLING的环境变量设置成1，然后在初始化进程的时候这么设置：

       import torch.distributed as dist  dist.init_process_group(     …     backend=“nccl”,     timeout=timedelta(seconds=5) )

nccl就会在节点超时5秒的时候抛出异常。nccl的超时功能加上Torch Elastic，就可以处理因为超时而挂掉的节点了。

一点微小的贡献哈

xiaohuzc 网友的相关建议:

补充一点：torch新出的Join可以处理DDP中数据不均匀的情况，本质上就是忽略那些已经join的node，所以可以在每个node中catch异常，发现异常可以提前join，也是一种处理方式吧。

shaoziqi 网友的相关建议:

Torch Elastic

ding-ming-55-55 网友的相关建议:

各种弹性训练适用范围有限。。。例如用zero之类的训练有点挂了神仙难救，还是勤存ckpt是王道。

pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？的其他答案点击这里

1

相关话题

  算法岗位真的需要顶会才能入场吗？
  ICLR 2019 有什么值得关注的亮点？
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程？
  Pytorch有什么节省显存的小技巧？
  如何看待 Guido 宣布退出 Python 决策层？
  视觉Transformer如何优雅地避开位置编码？
  机器学习能否用于综合评价？具体怎么操作？
  新手如何入门pytorch？
  你是如何开始能写 Python 爬虫？

前一个讨论

什么叫文化素养？

下一个讨论

为什么说大模型训练很难？

相关的话题

  如何优雅地使用spyder？
  如何评价清华大学发布的自研深度学习框架-计图(Jittor)？
  要学 Python 需要怎样的基础？
  现在的人工智能是否走上了数学的极端？
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？
  学校和机构都建议孩子放弃 Python 转 C++，我该如何处理？
  wasserstein 距离的问题?
  除了深度学习，机器学习领域近年来还有什么热点吗？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  如何评价哈工大的左旺孟老师？
  Python和C语言哪个更容易学，感觉学了C语言有点难，只学过C语言的大学生很迷茫？
  学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？
  如何看待 Google TPU？寒武纪芯片较之有哪些优势与不足？
  一行代码可以做什么？
  如何看待阿里巴巴提出的 FashionAI 比赛？
  python到底学什么？
  有什么好的自学 Python 的书籍推荐？
  CPython有GIL是因为当年设计CPython的人偷懒吗？
  目前有哪些比较成功的人工智能应用？
  CTC和Encoder-Decoder有什么关系?
  中科院某所研一新生，小样本学习、数据融合、强化学习、图神经网络、资源受限的计算这几个方向选哪个更好？
  为什么yolov5从零开始训练（不在ImageNet上预训练）能够达到如此高的性能？
  R 和 Python (numpy scipy pandas) 用于统计学分析，哪个更好？
  如何评价AWS的图神经网络框架DGL？
  是不是机器学习的框架都偏向 Python ？如果是，为什么？
  如何评价移动端吊打一切万众期待的商汤深度学习推理框架PPL开源了却没有支持移动端？
  如何评价陈天奇的模块化深度学习系统NNVM？
  如何评价哈工大的左旺孟老师？
  验证集loss上升，准确率却上升该如何理解？
  2021 年了，机器/深度学习还有哪些坑比较好挖？

© 2025-04-04 - tinynew.org. All Rights Reserved.
© 2025-04-04 - tinynew.org. 保留所有权利