百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  机器学习,深度神经网络等方法是否是正确的方向? 
  2021 年了,机器/深度学习还有哪些坑比较好挖? 
  如何评价沐神他们写的《动手学深度学习》这本书? 
  如何看待KDD'21的文章,异质图神经网络的效果不如简单的GCN、GAT? 
  为什么有些学数学的看不惯甚至鄙视 Deep Learning? 
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评? 
  除了深度神经网络已经实现的特性以外,大脑还有哪些特性是值得机器学习领域借鉴的? 
  机器学习,深度神经网络等方法是否是正确的方向? 
  机器学习的算法和普通《算法导论》里的算法有什么本质上的异同? 
  经过足够长的时间, AlphaGo 的棋谱能收敛到一张上吗? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-04-14 - tinynew.org. All Rights Reserved.
© 2025-04-14 - tinynew.org. 保留所有权利