百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  为什么强大的 MXNet 一直火不起来? 
  注意力机制是如何学习到模型所应注意的区域的? 
  深度学习火热兴起后,隐马尔可夫模型(HMM)还有何独到之处,是不是几乎可被深度学习模型给替代了? 
  中国和美国谁能成人工智能领域的领军者? 
  如何评价 DeepMind 的新工作 AlphaCode? 
  如何解决图神经网络(GNN)训练中过度平滑的问题? 
  CTC和Encoder-Decoder有什么关系? 
  TensorFlow的自动求导具体是在哪部分代码里实现的? 
  为什么计算机科学专业背景的人喜欢黑机器学习? 
  有没有根据一张人物的立绘正面像,自动生成同风格各侧面角度像并自动衍生表情的软件啊? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利