首页

pytorch 分布式计算你们都遇到过哪些坑/bug？第1页

1

fan-ru-chao 网友的相关建议:

说下我之前遇到的坑，如果是用pytorch实现同步梯度更新，然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话，其他卡就会等待，从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住，而且没有报错信息。

当时调了半天，一度以为是pytorch的某种bug，最后检查数据接口才发现了这个小错误。

pytorch 分布式计算你们都遇到过哪些坑/bug？的其他答案点击这里

1

相关话题

  硕士方向，选择迁移学习还是自然语言处理？
  如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？
  请问下大家训练 SimCSE 时, loss 有没有这样的情况?
  ICML2020有哪些值得关注的工作?
  学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？
  深度学习图像处理什么时候用到GPU？
  卷积神经网络中卷积核是如何学习到特征的？
  搞机器学习的生环化材是天坑吗？
  目前 AI 在疾病的诊断和治疗上，有哪些成功的应用？
  新手如何入门pytorch？

前一个讨论

怎样理解阻塞非阻塞与同步异步的区别？

下一个讨论

国内做NLP业务的香侬科技值得去吗？

相关的话题

  如何计算CNN中batch normalization的计算复杂度（FLOPs）？
  如何评价ST-GCN动作识别算法？
  为什么中文 NLP 数据集这么少？
  请问应该怎样去学习图像识别和深度学习？
  如何看待 Richard Sutton 说的「人工智能中利用算力才是王道」？
  如何评价Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上达到SOTA？
  pytorch 分布式计算你们都遇到过哪些坑/bug？
  如何评价Momenta ImageNet 2017夺冠架构SENet?
  如何评价微软提出的无监督视觉模型BEiT：ImageNet达到88.6，ADE20K达到57.0？
  如何评价陈天奇的模块化深度学习系统NNVM？
  为什么yolov5从零开始训练（不在ImageNet上预训练）能够达到如此高的性能？
  如何评价小米开源的移动端深度学习框架MACE？
  人工智能退潮期来了吗？
  目标检测中的mAP是什么含义？
  如何看待swin transformer成为ICCV2021的 best paper？
  Resnet是否只是一个深度学习的trick？
  如何直观地解释 backpropagation 算法？
  如何评价CUHK以及Yuanjun Xiong提出的Trajectory Convolution？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  2019 秋招的 AI 岗位竞争激烈吗？
  多模态训练，怎么解决不同模态之间差异的问题？
  训练过程中loss震荡特别严重，可能是什么问题？
  深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？
  如何看待百度无人车，三千多个场景，一万多个if？
  深度学习中，模型大了好还是小了好呢？
  基于计算机视觉从一张图片重建人体的三维网格，能否获取腰围、胸围、臂长、腿长等数据？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  类似AlphaGo一样的人工智能什么时候才可以击败RTS（如星际）顶级选手？
  测试集在构造的时候需要人为控制其中应该正确的和应该错误的数据比例吗？
  pytorch dataloader数据加载占用了大部分时间，各位大佬都是怎么解决的？

© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利