百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  时间序列数据上可以抽取哪些频域特征? 
  推荐系统应该如何保障推荐的多样性? 
  梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛? 
  pytorch dataloader数据加载占用了大部分时间,各位大佬都是怎么解决的? 
  如何评价 Exploring Simple Siamese Learning? 
  2021年深度学习在哪些应用上有实质进展? 
  如何理解空洞卷积(dilated convolution)? 
  国内 top2 高校研一在读,为什么感觉深度学习越学越懵? 
  Transformer是如何处理可变长度数据的? 
  编程达到什么水平才能编写出像caffe这样的深度学习框架? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-05-25 - tinynew.org. All Rights Reserved.
© 2025-05-25 - tinynew.org. 保留所有权利