首页

现在的BERT等语言模型，最快训练要多久？第1页

1

su-jian-lin-22 网友的相关建议:

首先明确一个结论：预训练成本基本上是不可能降的。

怎么理解这句话呢？大概就是说你要达到RoBERTa base的效果，那么就必须付出大致相当于训练RoBERTa base的算力，就算你把Self Attention换成CNN、RNN、MLP都是这样，因为Transformer之所以慢，是因为它大，而不是因为它有Self Attention（参考《线性Transformer应该不是你要等的那个模型》）；而预训练模型效果之所以好，是因为它在大模型的基础上预训练，所以大是必要条件。

有了这个结论后，你想提高训练速度，就只有三个选择：1、选择更小的模型（比如small、tiny）；2、买更快的卡（比如80G的A100）；3、减少训练数据。

前两者好理解，第三个选择，主要是因为预训练数据到了一定数量之后，“质量”就重于“数量”了，如果别人用100G通用数据训练，你能挑出10G高质量数据训练，速度就快了10倍，说不准效果还更好。这个“高质量”有两个含义，第一个是数据本身的噪声要少，第二个就是跟你所要做的下游任务的相关性。这方面的工作，推荐看杨植麟大佬最近的《NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework》

当然，框架本身的调整（比如混合精度训练）也能带来一定的速度提升，但这不在本回答的考虑范围内（或者说，框架本身的优化默认都打开）。

现在的BERT等语言模型，最快训练要多久？的其他答案点击这里

1

相关话题

  如何评价MSRA视觉组最新对spatial attention mechanism分析论文？
  有人说「真正的人工智能至少还要几百年才能实现」，真的是这样吗？
  怎么形象理解embedding这个概念？
  有哪些利用搜索引擎（Search Engine）辅助自然语言处理任务（NLP）的论文？
  如何评价 Exploring Simple Siamese Learning?
  如何理解MCMC中的细致平稳条件？
  graph convolutional network有什么比较好的应用task？
  如何用最简单的语言统一描述多元函数求导（对向量求导、对矩阵求导等）？
  如果不按套路下棋是不是就能赢 Alpha Go 了？
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面?

前一个讨论

你见过哪些怪异的量化交易策略？

下一个讨论

有哪些效果拔群的 WebAssembly 应用？

相关的话题

  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  为什么做stacking之后，准确率反而降低了？
  计算商品embedding然后平均得到用户embedding，会不会存在这种问题？
  如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  2019年，计算机视觉领域，你推荐哪些综述性的文章？
  为什么nlp没有像cv四小龙一样的创业公司？
  深度学习有哪些好玩的案例？
  如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？
  如何理解空洞卷积（dilated convolution）？
  迁移学习与fine-tuning有什么区别？
  物理专业的学生如何看待机器学习和大数据这些方向呢？
  你有哪些deep learning（rnn、cnn）调参的经验？
  有哪些令你印象深刻的魔改transformer？
  计算机视觉和自然语言处理，哪个更具有发展前景呢，还是各有千秋呢？
  深度学习领域有哪些瓶颈？
  主题模型(topic model)到底还有没有用，该怎么用？
  有哪些你看了以后大呼过瘾的数据分析书？
  如何评价 Self-Normalizing Neural Networks 这篇论文?
  deepmind发表的neural processes(神经过程)，这个是怎么实现的呢？
  如何看待马毅老师深度学习第一性原理的文章在 ICML 四个审稿人一致接收的情况下被 AC 拒了？
  了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构？
  如何评价1700亿参数的GPT-3？
  如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？
  如何看待 Larrabee 之父 Tom Forsyth 重加入 Intel？英特尔为何下注独立显卡？
  如何评价陈天奇的模块化深度学习系统NNVM？
  如何评价第一局比赛 AlphaGo 战胜李世石？
  科研时，想到一个idea，其实现的结果一定要比前人的评估指标高才能发表吗？
  CTR预估中怎样加入图片特征？图片特征怎么提取？
  机器学习，数据挖掘在研究生阶段大概要学些什么？

© 2025-06-28 - tinynew.org. All Rights Reserved.
© 2025-06-28 - tinynew.org. 保留所有权利