首页

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？第1页

1

eric314 网友的相关建议:

这篇paper中心思想很简洁，但是实现起来trick茫茫多。另外Google一如既往的没有公开代码，个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了：

简单来说每个E（Expert）是一个网络，G是用softmax算出来的一个类似于attention的gate，每个sample会根据gate被分配给k个Expert，随后再加起来。这样的好处是大大提高了模型参数数量，但是计算量不会提高太多。

可但是，细节里面trick太多了，比如G并不是简单的Softmax算出来的，很丑陋的加了个noise，然后更丑陋的强行取了k个。noise的计算方法也很丑，主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间，可以做的更系统更美观一点。。。

这个想法看起来比较像attention，但是我认为首先应该联系最近的Xeption（Google）和ResNext（Facebook）来看。一个很有意思的insight是：跟传统机器学习模型不同，一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层，可以固定计算量而调整参数的数量。

现有经验看来，parameter数量决定了一个DNN有多容易overfit/underfit（传统VC维分析），但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大，甚至起到决定性作用。于是通过固定计算量，单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做，想搞深度学习理论的同学也可以关注一下。

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？的其他答案点击这里

1

相关话题

  大牛Bengio 团队最新的研究和我自己之前的研究成果重复了，应该怎么办？
  image caption这个方向更偏向NLP还是CV？
  如何评价 On Unifying Deep Generative Models 这篇 paper?
  自学深度学习是怎样一种体验？
  视觉算法的工业部署及落地方面的技术知识，怎么学？
  如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？
  有没有根据一张人物的立绘正面像，自动生成同风格各侧面角度像并自动衍生表情的软件啊？
  关于tensorflow中的滑动平均？
  2021年，作为算法工程师的你们会在CV业务落地上用Transformer吗？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?

前一个讨论

如何评价 NVIDIA 发布的 DGX-1？

下一个讨论

mxnet的并行计算为什么这么牛，是什么原理？

相关的话题

  机器学习里面的流形都是怎么用的？
  BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？
  Resnet是否只是一个深度学习的trick？
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法，两者分别有什么优缺点？
  如何评价deepmind最新在nature上发表的论文《在人工网络中用网格样表征进行基于向量的导航》？
  如何看待多模态transformer，是否会成为多模态领域的主流？
  如何评价微软正在开发的人工智能编程软件 DeepCoder？
  迁移学习入门，新手该如何下手？
  wasserstein 距离的问题?
  如何理解深度学习源码里经常出现的logits？
  有哪些关于机器学习的真相还鲜为人知？
  GAN:固定训练好的判别器网络，去指导训练生成器为什么不可以？
  有哪些比较好的元学习（meta learning）领域的学习资源？
  计算机视觉是否已经进入瓶颈期？
  如何看待SIREN激活函数的提出？
  如何评价 On Unifying Deep Generative Models 这篇 paper?
  如何理解空洞卷积（dilated convolution）？
  如何解读 Jeff Dean 等联合在 arXiv 上发布的用深度学习分析电子病历的论文？
  如何评价Facebook AI提出的ResMLP，对比Google的MLP-Mixer?
  2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？
  DL/ML 模型如何部署到生产环境中？
  如何评价基于游戏毁灭战士（Doom）的AI死亡竞赛大赛结果？
  为什么现在有这么多人工智能无用论？
  科研时，想到一个idea，其实现的结果一定要比前人的评估指标高才能发表吗？
  如何判断两个Deep Learning 数据集的数据分布是否一致？
  ICML2020有哪些值得关注的工作?
  nlp有哪些值得完整实现一遍的算法?
  如何看待End-to-End Object Detection with Transformers？
  什么时候对数据进行[0,1]归一化，什么时候[-1,1]归一化，二者分别在什么场景？
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢？

© 2025-06-29 - tinynew.org. All Rights Reserved.
© 2025-06-29 - tinynew.org. 保留所有权利