百科问答小站 logo
百科问答小站 font logo



如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中,图像分类任务一般都是 SGD-M 效果最好,虽然初期收敛慢,但到大后期会爆发,泛化性能往往高于自适应学习率的优化器。类似地,以往大批量训练关注的重点一般是如何在保持泛化性能基本不变(或者略微变差)的情况下提升批量大小以缩短训练时间,而非提升泛化性能。假如去看一些 MLPerf 之类的基准,容易发现这些基准对收敛的判定是不够严格的,比标准训练策略的泛化性能一般要差一些,仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强,需要好好研究一下了。既能训 ResNet 又能训 BERT,你值得拥有。


user avatar   hbxiong 网友的相关建议: 
      

Tricks are all you need




  

相关话题

  如果统治中国区域的是一个AI,它会怎么处理台湾问题? 
  如何通俗易懂地讲解 Photoshop 中的「通道」概念? 
  机器学习中有哪些形式简单却很巧妙的idea? 
  AlphaGo 在围棋上战胜李世乭后,人工智能的下一个目标会是同为「有限元素组合创作」的音乐吗? 
  两台 AlphaGo 对决会和棋吗? 
  人工智能会是泡沫吗? 
  用人工智能来设计芯片有可行性么? 
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)? 
  怎样实现强人工智能? 
  劳荣枝二十年后被抓,容貌和20年前变化很大,警方是怎么判定她是劳荣枝的? 

前一个讨论
2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方?
下一个讨论
有哪些适合科研工作者的解压方式?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利