首页

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？第1页

1

eric314 网友的相关建议:

这篇paper中心思想很简洁，但是实现起来trick茫茫多。另外Google一如既往的没有公开代码，个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了：

简单来说每个E（Expert）是一个网络，G是用softmax算出来的一个类似于attention的gate，每个sample会根据gate被分配给k个Expert，随后再加起来。这样的好处是大大提高了模型参数数量，但是计算量不会提高太多。

可但是，细节里面trick太多了，比如G并不是简单的Softmax算出来的，很丑陋的加了个noise，然后更丑陋的强行取了k个。noise的计算方法也很丑，主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间，可以做的更系统更美观一点。。。

这个想法看起来比较像attention，但是我认为首先应该联系最近的Xeption（Google）和ResNext（Facebook）来看。一个很有意思的insight是：跟传统机器学习模型不同，一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层，可以固定计算量而调整参数的数量。

现有经验看来，parameter数量决定了一个DNN有多容易overfit/underfit（传统VC维分析），但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大，甚至起到决定性作用。于是通过固定计算量，单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做，想搞深度学习理论的同学也可以关注一下。

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？的其他答案点击这里

1

相关话题

  为什么现在很多人不看好商汤科技？
  CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？
  北京深鉴科技基于FPGA平台的DPU架构如何？
  CVPR 2018 有什么值得关注的亮点？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  如何看待旷视科技新产品监视学生上课？
  为什么 BERT 的 intermediate_size 这么大？
  为什么计算注意力机制的时候不加偏置项？
  数字图像处理的工作是用传统算法更多还是用深度学习更多?

前一个讨论

如何评价 NVIDIA 发布的 DGX-1？

下一个讨论

mxnet的并行计算为什么这么牛，是什么原理？

相关的话题

  国内做NLP业务的香侬科技值得去吗？
  如何解决图神经网络（GNN）训练中过度平滑的问题？
  在做算法工程师的道路上，你掌握了什么概念或技术使你感觉自我提升突飞猛进？
  能否对卷积神经网络工作原理做一个直观的解释？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  为什么中文 NLP 数据集这么少？
  GAN 真的创造了新的信息吗？
  如何评价Yann LeCun 说的「要研究机器学习，本科应尽量多学物理和数学课」？
  为什么CV能做到让一幅人脸图动了笑了，而NLP的text-style-transfer进展貌似一般？
  为什么说大模型训练很难？
  编程达到什么水平才能编写出像caffe这样的深度学习框架？
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心？
  深度学习中有哪些数据增强方法？
  物理专业的学生如何看待机器学习和大数据这些方向呢？
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法，两者分别有什么优缺点？
  验证集loss上升，准确率却上升该如何理解？
  如何评价余凯在朋友圈发表呼吁大家用 caffe、mxnet 等框架，避免使用 TensorFlow？
  多模态训练，怎么解决不同模态之间差异的问题？
  wasserstein 距离的问题?
  机器之心提问：如何评价Facebook Training ImageNet in 1 Hour这篇论文?
  为什么 Bert 的三个 Embedding 可以进行相加？
  目标检测算法中Two-stage算法速度慢,到底在哪里?
  有人说「真正的人工智能至少还要几百年才能实现」，真的是这样吗？
  AMD 开源高性能机器智能库MIopen是否可以和cuDNN抗衡？
  如何看待 TI7 上与 Dendi solo 的 OpenAI？
  验证集loss上升，准确率却上升该如何理解？
  深度学习底层开发对数学有哪些要求？
  能否使用区块链的算力来解决深度学习训练？
  如何理解链接预测（link prediction）？

© 2025-04-30 - tinynew.org. All Rights Reserved.
© 2025-04-30 - tinynew.org. 保留所有权利