百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  机器学习的解释模型存在嘛? 
  如何评价Google发布的第二代深度学习系统TensorFlow? 
  scikit-learn, tensorflow, pytorch真的只需要查下API,不需要学吗? 
  如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 
  在集成电路设计领域(数字,模拟),人工智能有无可能取代人类? 
  所谓大数据分析,究竟要学什么? 
  如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 
  神经网络为什么可以(理论上)拟合任何函数? 
  有谁给解释一下流形以及流形正则化? 
  CPU和GPU跑深度学习差别有多大? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-05-04 - tinynew.org. All Rights Reserved.
© 2025-05-04 - tinynew.org. 保留所有权利