首页

pytorch 分布式计算你们都遇到过哪些坑/bug？第1页

1

fan-ru-chao 网友的相关建议:

说下我之前遇到的坑，如果是用pytorch实现同步梯度更新，然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话，其他卡就会等待，从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住，而且没有报错信息。

当时调了半天，一度以为是pytorch的某种bug，最后检查数据接口才发现了这个小错误。

pytorch 分布式计算你们都遇到过哪些坑/bug？的其他答案点击这里

1

相关话题

  类似AlphaGo一样的人工智能什么时候才可以击败RTS（如星际）顶级选手？
  2021年，ncnn发展的如何了？
  验证集loss上升，准确率却上升该如何理解？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  为什么最近几年 FPGA 变得越发受大家重视了？
  如何评价小米开源的移动端深度学习框架MACE？
  如何评价陈天奇团队新开源的TVM？
  从应用的角度来看，深度学习怎样快速入门？
  mxnet的并行计算为什么这么牛，是什么原理？
  为什么yolov5从零开始训练（不在ImageNet上预训练）能够达到如此高的性能？

前一个讨论

怎样理解阻塞非阻塞与同步异步的区别？

下一个讨论

国内做NLP业务的香侬科技值得去吗？

相关的话题

  深度学习两张3080ti和一张3090ti哪个好?
  请问一下，机器学习领域的联邦学习技术，目前看到最多的是微众银行，国内还有哪些顶级专家及机构和大学？
  batchsize=1时可以用BN吗?
  能分享你收藏的国外AI talk, seminar平台或网站吗？
  基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？
  多任务学习中loss多次backward和loss加和后backward有区别吗？
  如何看待 Richard Sutton 说的「人工智能中利用算力才是王道」？
  pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？
  自学深度学习是怎样一种体验？
  什么时候对数据进行[0,1]归一化，什么时候[-1,1]归一化，二者分别在什么场景？
  新手如何入门pytorch？
  如何用一句话证明自然语言处理很难？
  除了深度学习，机器学习领域近年来还有什么热点吗？
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的？
  在CV/NLP/DL领域中，有哪些修改一行代码或者几行代码提升性能的算法？
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象？
  如何评价PyTorch 0.4.0？
  ICLR 2021 有什么值得关注的投稿？
  如何看待周志华等人的新书《机器学习理论导引》？
  transformer中的Q,K,V到底是什么？
  TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同？
  如何评价贾扬清离职 Facebook？
  Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗?
  研一刚入学，从未接触过神经网络，python也是才开始学，现在导师要我做LSTM，我应该去学什么？
  Graph Attention Network的本质是什么？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？
  在机器学习模型的训练期间，大概几十分钟到几小时不等，大家都会在等实验的时候做什么？
  编程达到什么水平才能编写出像caffe这样的深度学习框架？
  实验室只有1080的显卡，老师还想让发深度学习论文，也不给配置好的显卡怎么办？

© 2025-04-15 - tinynew.org. All Rights Reserved.
© 2025-04-15 - tinynew.org. 保留所有权利