百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  看完麻省理工博士胡渊鸣用代码实现「冰雪奇缘」后,自己陷入了深深的自卑,如何排解这种情绪? 
  去美国读CS博士,方向是机器人导航,视觉方面,推荐一下相关编程方面准备?还有相关算法需要学习哪些? 
  有没有必要把机器学习算法自己实现一遍? 
  如何看待 Richard Sutton 说的「人工智能中利用算力才是王道」? 
  什么是迁移学习 (Transfer Learning)?这个领域历史发展前景如何? 
  Kaggle如何入门? 
  如何评价Yann LeCun 说的「要研究机器学习,本科应尽量多学物理和数学课」? 
  机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系? 
  如何评价Google最新提出的gMLP:MLP模型在CV和NLP任务上均取得较好的效果? 
  如何评价Hinton组的新工作SimCLR? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-03-24 - tinynew.org. All Rights Reserved.
© 2025-03-24 - tinynew.org. 保留所有权利