百科问答小站 logo
百科问答小站 font logo



如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作? 第1页

  

user avatar   eric314 网友的相关建议: 
      

这篇paper中心思想很简洁,但是实现起来trick茫茫多。另外Google一如既往的没有公开代码,个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了:

简单来说每个E(Expert)是一个网络,G是用softmax算出来的一个类似于attention的gate,每个sample会根据gate被分配给k个Expert,随后再加起来。这样的好处是大大提高了模型参数数量,但是计算量不会提高太多。

可但是,细节里面trick太多了,比如G并不是简单的Softmax算出来的,很丑陋的加了个noise,然后更丑陋的强行取了k个。noise的计算方法也很丑,主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间,可以做的更系统更美观一点。。。

这个想法看起来比较像attention,但是我认为首先应该联系最近的Xeption(Google)和ResNext(Facebook)来看。一个很有意思的insight是:跟传统机器学习模型不同,一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层,可以固定计算量而调整参数的数量。

现有经验看来,parameter数量决定了一个DNN有多容易overfit/underfit(传统VC维分析),但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大,甚至起到决定性作用。于是通过固定计算量,单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做,想搞深度学习理论的同学也可以关注一下。




  

相关话题

  如何看待Geoffrey Hinton的言论,深度学习要另起炉灶,彻底抛弃反向传播? 
  主动学习(Active Learning)近几年的研究有哪些进展,现在有哪些代表性成果? 
  如果人工智能迎来下一个寒冬,你认为会是卡在什么问题上? 
  如何看待 Richard Sutton 说的「人工智能中利用算力才是王道」? 
  大家用resnet50在imagenet上面top1最高能到多少? 
  对神经网络某一层做了小改进,效果却提升显著,可以发论文吗? 
  如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet? 
  如何评价旷视开源的YOLOX,效果超过YOLOv5? 
  如何看UCBerkeley RISELab即将问世的Ray,replacement of Spark? 
  NIPS 2018 有什么值得关注的亮点? 

前一个讨论
如何评价 NVIDIA 发布的 DGX-1?
下一个讨论
mxnet的并行计算为什么这么牛,是什么原理?





© 2025-04-30 - tinynew.org. All Rights Reserved.
© 2025-04-30 - tinynew.org. 保留所有权利