首页

mxnet的并行计算为什么这么牛，是什么原理？第1页

1

james-82 网友的相关建议:

个人理解

通过执行引擎来达到计算和收发的并行，例如后向时算完某一个参数的梯度后，执行引擎会立刻提交到发送队列中开始发送，这时候其他的后向计算还在进行中。

此外发送与接收的队列有优先级，时刻保证最高优先级参数的接收与发送

上述机制保证了对于较深的网络能够达到了很好的线性加速比，不过对于浅层网络，比如只有两层lstm的 encoder decoder这种方法的并行效果欠佳。

总的来说还是灰常牛逼滴！

mli65 网友的相关建议:

简单来说是当计算开销大于通讯开销时，通过并行两者可以达到将近线性的加速。

具体可参见 Sec 4.4 和 4.5

http://www. cs.cmu.edu/~muli/mu-the sis.pdf

ps: 这里有新的在256块GPU上的加速，和10台机器vs单机的收敛：

详细见：

mxnet的并行计算为什么这么牛，是什么原理？的其他答案点击这里

1

相关话题

  深度学习工作站中使用AMD的CPU会有问题吗？
  DeepMind 团队中有哪些厉害的人物和技术积累？
  如何系统学习机器学习？
  注意力机制是如何学习到模型所应注意的区域的？
  奇异值分解（SVD）有哪些很厉害的应用？
  如何看待 AI 方向 PhD 申请竞争过于激烈的现象？
  中科院某所研一新生，小样本学习、数据融合、强化学习、图神经网络、资源受限的计算这几个方向选哪个更好？
  如何看待 TI7 上与 Dendi solo 的 OpenAI？
  人工智能在生活中的应用都有哪些？
  人工智能的意义和价值是什么？

前一个讨论

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？

下一个讨论

如何评价 MXNet 被 Amazon AWS 选为官方深度学习平台？

相关的话题

  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  有哪些优秀的深度学习入门书籍？需要先学习机器学习吗？
  如何看待swin transformer成为ICCV2021的 best paper？
  如何评价深度学习相关顶级期刊论文难复现的问题？
  KL散度衡量的是两个概率分布的距离吗？
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？
  已有大量编程基础，如何速成python用于学习机器学习？
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲？
  如何用一句话证明自然语言处理很难？
  神经网络为什么可以（理论上）拟合任何函数？
  机器学习，深度神经网络等方法是否是正确的方向？
  如何解决图神经网络（GNN）训练中过度平滑的问题？
  请解释下variational inference？
  深度学习方面还有什么Open Problem?
  有没有必要把机器学习算法自己实现一遍？
  如何用机器学习判断《溪岸图》是否董源真迹？
  三维重建怎么入门？
  能否把一个人的所有物理数据输入在一个模型里，然后计算他接下来的状态变化？
  如何理解attention中的Q,K,V？
  未来五年，数据科学家（Data Scientist）的岗位需求会如何变化？
  本科数学，目前在读计算机研一，毕业的时候想要应聘数据挖掘工程师，看了对数据挖掘工程师的招聘要求，感觉太宽泛了，希望能具体说一下现在应该准备哪些知识（算法？编程语言？其他？），谢谢！
  百度学术能否替代 Google 学术网站？有没有其他选择？
  未来十年，AI 将可能与哪些产业结合应用？产生怎样的价值？
  神经网络中，bias有什么用，为什么要设置bias，当加权和大于某值时，激活才有意义？
  为什么谈论深度学习工具时，很少有人讨论matlab的神经网络工具包？
  深度学习领域有哪些瓶颈？
  有没有根据一张人物的立绘正面像，自动生成同风格各侧面角度像并自动衍生表情的软件啊？
  如何评价剑桥，腾讯， DeepMind以及港大团队新作 SimCTG ?
  是不是对于任意 n×n 大小的围棋棋盘，人类都赢不了 AlphaGo Zero 了？
  金融学及金融从业者如何应对人工智能和大数据？

© 2025-05-30 - tinynew.org. All Rights Reserved.
© 2025-05-30 - tinynew.org. 保留所有权利