首页

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？第1页

1

eric314 网友的相关建议:

这篇paper中心思想很简洁，但是实现起来trick茫茫多。另外Google一如既往的没有公开代码，个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了：

简单来说每个E（Expert）是一个网络，G是用softmax算出来的一个类似于attention的gate，每个sample会根据gate被分配给k个Expert，随后再加起来。这样的好处是大大提高了模型参数数量，但是计算量不会提高太多。

可但是，细节里面trick太多了，比如G并不是简单的Softmax算出来的，很丑陋的加了个noise，然后更丑陋的强行取了k个。noise的计算方法也很丑，主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间，可以做的更系统更美观一点。。。

这个想法看起来比较像attention，但是我认为首先应该联系最近的Xeption（Google）和ResNext（Facebook）来看。一个很有意思的insight是：跟传统机器学习模型不同，一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层，可以固定计算量而调整参数的数量。

现有经验看来，parameter数量决定了一个DNN有多容易overfit/underfit（传统VC维分析），但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大，甚至起到决定性作用。于是通过固定计算量，单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做，想搞深度学习理论的同学也可以关注一下。

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？的其他答案点击这里

1

相关话题

  请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？
  深度学习到底是「实验科学」还是「理论科学」？能否称为「算法」？
  深度学习中，模型大了好还是小了好呢？
  关于tensorflow中的滑动平均？
  自然语言处理怎么最快入门？
  物理专业的学生如何看待机器学习和大数据这些方向呢？
  请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？
  人工智能 CV 岗位是不是现在供严重大于需？
  为什么现在不看好 CV 方向了呢?
  batchsize=1时可以用BN吗?

前一个讨论

如何评价 NVIDIA 发布的 DGX-1？

下一个讨论

mxnet的并行计算为什么这么牛，是什么原理？

相关的话题

  人工智能会是泡沫吗？
  NIPS 2018 有什么值得关注的亮点？
  中国和美国谁能成人工智能领域的领军者？
  如何看待周志华等人的新书《机器学习理论导引》？
  三维重建怎么入门？
  如何看待周志华等人的新书《机器学习理论导引》？
  如何评价PyTorch 0.4.0？
  如何评价CVPR2019程序主席Derek Hoiem的论点：计算机视觉只是记忆，不是智能？
  如何评价何恺明、Ross Girshick组的自监督时空表征学习新作？
  为什么多标签分类（不是多类分类）损失函数可以使用Binary Cross Entropy？
  CVPR 2018 有什么值得关注的亮点？
  算法岗位真的需要顶会才能入场吗？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  AlphaGo 与李世石的对战会推动人类的极限还是机器学习的进步和觉醒？
  pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？
  如何评价哈工大的左旺孟老师？
  如何评价马毅教授的 NeurIPS 2020 中稿文章 MCR2 及自称弄明白深度学习了？
  AMD的CPU是否适合搭建深度学习主机？
  如何看待MXNet获得amazon官方支持首位？
  在五到十年内，人工智能能复原成人影片中的被马赛克部分吗？
  现在互联网公司还有做特征工程的工作吗？
  贝叶斯深度学习是什么，和传统神经网络有何不同？
  有哪些比较好的元学习（meta learning）领域的学习资源？
  有哪些深度学习效果不如传统方法的经典案例？
  如何看待Tensor Comprehensions？与TVM有何异同？
  新手如何实现个简单AutoML框架。有参考的github开源项目介绍吗？
  如何评价 Self-Normalizing Neural Networks 这篇论文?
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  如何评价余凯创立的horizon robotics？
  image caption这个方向更偏向NLP还是CV？

© 2024-06-03 - tinynew.org. All Rights Reserved.
© 2024-06-03 - tinynew.org. 保留所有权利