首页

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？第1页

1

tonyabracadabra 网友的相关建议:

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题，推荐一篇有趣的文章（Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks），文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低，因此作者认为这可能可以解释为什么大网络有时候generalize得更好。

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？的其他答案点击这里

1

相关话题

  时间序列数据上可以抽取哪些频域特征？
  推荐系统应该如何保障推荐的多样性？
  梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
  pytorch dataloader数据加载占用了大部分时间，各位大佬都是怎么解决的？
  如何评价 Exploring Simple Siamese Learning?
  2021年深度学习在哪些应用上有实质进展？
  如何理解空洞卷积（dilated convolution）？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  Transformer是如何处理可变长度数据的？
  编程达到什么水平才能编写出像caffe这样的深度学习框架？

前一个讨论

如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响？

下一个讨论

attention跟一维卷积的区别是啥？

相关的话题

  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  如何评价Yann LeCun 说的「要研究机器学习，本科应尽量多学物理和数学课」？
  人工智能领域有哪些精妙的数学原理？
  数据挖掘、机器学习、自然语言处理这三者是什么关系？这几个怎么入门啊？
  在中小学阶段设置人工智能相关课程对于培养人工智能人才具有哪些意义？如何推进会比较有效？
  如何评价 DeepMind 在星际中的失利，以及 OpenAI 在 Dota 上的成功？
  pytorch 分布式计算你们都遇到过哪些坑/bug？
  为什么多方安全计算（或者隐私计算/联邦学习）在中国这么火？
  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？
  attention跟一维卷积的区别是啥？
  目前强化学习在控制领域的应用有哪些？
  有没有必要把机器学习算法自己实现一遍？
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  Linear least squares, Lasso,ridge regression有何本质区别？
  是不是并不是所有问题都适合用神经网络预测？
  机器学习里面的流形都是怎么用的？
  为什么说股票不能通过机器学习来预测？
  对自己深度学习方向的论文有idea，可是工程实践能力跟不上，实验搞不定怎么办？
  奇异值分解（SVD）有哪些很厉害的应用？
  插值和拟合最根本的区别是什么？机器学习为啥用拟合？？
  为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？
  小样本学习中关于虚拟样本有效性的问题？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  为什么在实际的kaggle比赛中，GBDT和Random Forest效果非常好？
  如何比较Keras, TensorLayer, TFLearn ？
  如何评价第一局比赛 AlphaGo 战胜李世石？
  应届硕士毕业生如何拿到知名互联网公司算法岗（机器学习、数据挖掘、深度学习） offer？
  应届硕士毕业生如何拿到知名互联网公司算法岗（机器学习、数据挖掘、深度学习） offer？
  生成对抗网络的毕设怎么上手？
  AI在网络安全领域（尤其是威胁检测领域），有什么好的应用场景？

© 2025-05-25 - tinynew.org. All Rights Reserved.
© 2025-05-25 - tinynew.org. 保留所有权利