百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  2021年,作为算法工程师的你们会在CV业务落地上用Transformer吗? 
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法? 
  如何评价深度学习之父Hinton发布的Capsule论文? 
  如何评价新Nature子刊Nature Machine Intelligence的出现? 
  神经网络中 warmup 策略为什么有效;有什么理论解释么? 
  985工科研一觉得快要退学了怎么办? 
  为什么现在有这么多人工智能无用论? 
  如何将某个分布作为机器学习的特征? 
  在NLP当中,不同的评价指标,BLEU, METEOR, ROUGE和CIDEr的逻辑意义? 
  如何评价剑桥,腾讯, DeepMind以及港大团队新作 SimCTG ? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-03-28 - tinynew.org. All Rights Reserved.
© 2025-03-28 - tinynew.org. 保留所有权利