百科问答小站 logo
百科问答小站 font logo



如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中,图像分类任务一般都是 SGD-M 效果最好,虽然初期收敛慢,但到大后期会爆发,泛化性能往往高于自适应学习率的优化器。类似地,以往大批量训练关注的重点一般是如何在保持泛化性能基本不变(或者略微变差)的情况下提升批量大小以缩短训练时间,而非提升泛化性能。假如去看一些 MLPerf 之类的基准,容易发现这些基准对收敛的判定是不够严格的,比标准训练策略的泛化性能一般要差一些,仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强,需要好好研究一下了。既能训 ResNet 又能训 BERT,你值得拥有。


user avatar   hbxiong 网友的相关建议: 
      

Tricks are all you need




  

相关话题

  目前土木工程和人工智能结合的课题有哪些? 
  人大理科试验班与南大AI选哪个? 
  人工智能领域有哪些精妙的数学原理? 
  深度学习如何入门? 
  如何看待阿里巴巴提出的 FashionAI 比赛? 
  如何看待 Facebook 首席 AI 科学家 Yann LeCun 被群骂? 
  人工智能的水平较低是因为数据库不足和运算处理速度不够吗? 
  深度学习应用在哪些领域让你觉得「我去,这也能行!」? 
  在机器学习模型的训练期间,大概几十分钟到几小时不等,大家都会在等实验的时候做什么? 
  如何看待前员工发表《Keep的困顿与终局》? 

前一个讨论
2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方?
下一个讨论
有哪些适合科研工作者的解压方式?





© 2025-04-11 - tinynew.org. All Rights Reserved.
© 2025-04-11 - tinynew.org. 保留所有权利