百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  写深度学习代码是先写model还是dataset还是train呢,有个一般化的顺序吗? 
  迁移学习入门,新手该如何下手? 
  Word2vec 翻译到另一种语言,其向量空间之间的映射会不会是线性的? 
  北京深鉴科技基于FPGA平台的DPU架构如何? 
  从应用的角度来看,深度学习怎样快速入门? 
  如何评价AWS的图神经网络框架DGL? 
  如何理解空洞卷积(dilated convolution)? 
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心? 
  如何看待Kaggle最新比赛Zillow禁止中国居民参加第二轮? 
  5-10年后,你觉得哪些科技会让我们“遗忘”现在的生活? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-05-27 - tinynew.org. All Rights Reserved.
© 2025-05-27 - tinynew.org. 保留所有权利