百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  如何理解Inductive bias? 
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀? 在哪找都找不到招聘公司? 
  什么是人工智能?人工智能、机器学习、深度学习三者之间有什么关系吗? 
  常用的机器学习算法比较? 
  CTR预估中怎样加入图片特征?图片特征怎么提取? 
  PyTorch中在反向传播前为什么要手动将梯度清零? 
  如何看待阿里巴巴提出的 FashionAI 比赛? 
  NLP文本匹配问题的本质是不是 对于要预测的句子,遍历候选句子 从训练数据集里寻找最相似的pair? 
  如何看待 Larrabee 之父 Tom Forsyth 重加入 Intel?英特尔为何下注独立显卡? 
  如何看待鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2024-11-15 - tinynew.org. All Rights Reserved.
© 2024-11-15 - tinynew.org. 保留所有权利