百科问答小站 logo
百科问答小站 font logo



如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中,图像分类任务一般都是 SGD-M 效果最好,虽然初期收敛慢,但到大后期会爆发,泛化性能往往高于自适应学习率的优化器。类似地,以往大批量训练关注的重点一般是如何在保持泛化性能基本不变(或者略微变差)的情况下提升批量大小以缩短训练时间,而非提升泛化性能。假如去看一些 MLPerf 之类的基准,容易发现这些基准对收敛的判定是不够严格的,比标准训练策略的泛化性能一般要差一些,仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强,需要好好研究一下了。既能训 ResNet 又能训 BERT,你值得拥有。


user avatar   hbxiong 网友的相关建议: 
      

Tricks are all you need




  

相关话题

  谷歌翻译这几个月的进化速度突然加快是什么原因? 
  因果推断会是下一个AI热潮吗? 
  你见过最差的算法工程师能差到什么程度? 
  AlphaFold2 解决了蛋白质结构问题吗?DeepMind 解决这项生物学五十年难题有何重大意义? 
  GAN 真的创造了新的信息吗? 
  吴恩达为什么离开谷歌? 
  请问智能电力系统今后怎样发展的?大学生如果想从事这方面工作需要学习哪些方面知识? 
  人工智能技术如何应用到相亲? 
  人工智能 CV 岗位是不是现在供严重大于需? 
  有谁照着论文把 AlphaGo 重现出来了? 

前一个讨论
2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方?
下一个讨论
有哪些适合科研工作者的解压方式?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利