如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？第1页

SeptEnds 网友的相关建议:

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中，图像分类任务一般都是 SGD-M 效果最好，虽然初期收敛慢，但到大后期会爆发，泛化性能往往高于自适应学习率的优化器。类似地，以往大批量训练关注的重点一般是如何在保持泛化性能基本不变（或者略微变差）的情况下提升批量大小以缩短训练时间，而非提升泛化性能。假如去看一些 MLPerf 之类的基准，容易发现这些基准对收敛的判定是不够严格的，比标准训练策略的泛化性能一般要差一些，仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强，需要好好研究一下了。既能训 ResNet 又能训 BERT，你值得拥有。

hbxiong 网友的相关建议:

Tricks are all you need

如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？的其他答案点击这里

相关话题

  如何看待血肉苦弱，机械飞升？
  为什么国家将加快人工智能研究生培养？又为什么很多研究生评论人工智能是个大坑呢？
  现在互联网公司还有做特征工程的工作吗？
  区块链是元宇宙的核心技术吗？
  如何用一句话证明自然语言处理很难？
  身为消费者，你对汽车人工智能有什么期待？
  哪些经历让你体会到，科学技术真的提升了我们生活的幸福感？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  在做算法工程师的道路上，你掌握了什么概念或技术使你感觉自我提升突飞猛进？
  如何看待旷视 detection 组组长俞刚跳槽腾讯 PCG 光影研究室?

如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？第1页