百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  怎样计算两个服从高斯分布的向量乘积的期望? 
  近几年有哪些关于机器学习中隐私(Privacy)和安全(Security)相关的研究值得关注? 
  为什么相比于计算机视觉(cv),自然语言处理(nlp)领域的发展要缓慢? 
  如何看待 Deepmind 宣称最新版 AlphaGo 能让李世乭版本 AlphaGo 三子? 
  反馈控制理论在优化、机器学习等领域有哪些应用? 
  如何评价AWS的图神经网络框架DGL? 
  计算机视觉有多少分支? 
  Transformer是如何处理可变长度数据的? 
  二分类问题,应该选择sigmoid还是softmax? 
  有哪些人工智能上的事实,没有一定人工智能知识的人不会相信? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-05-04 - tinynew.org. All Rights Reserved.
© 2025-05-04 - tinynew.org. 保留所有权利