首页

现在的BERT等语言模型，最快训练要多久？第1页

1

su-jian-lin-22 网友的相关建议:

首先明确一个结论：预训练成本基本上是不可能降的。

怎么理解这句话呢？大概就是说你要达到RoBERTa base的效果，那么就必须付出大致相当于训练RoBERTa base的算力，就算你把Self Attention换成CNN、RNN、MLP都是这样，因为Transformer之所以慢，是因为它大，而不是因为它有Self Attention（参考《线性Transformer应该不是你要等的那个模型》）；而预训练模型效果之所以好，是因为它在大模型的基础上预训练，所以大是必要条件。

有了这个结论后，你想提高训练速度，就只有三个选择：1、选择更小的模型（比如small、tiny）；2、买更快的卡（比如80G的A100）；3、减少训练数据。

前两者好理解，第三个选择，主要是因为预训练数据到了一定数量之后，“质量”就重于“数量”了，如果别人用100G通用数据训练，你能挑出10G高质量数据训练，速度就快了10倍，说不准效果还更好。这个“高质量”有两个含义，第一个是数据本身的噪声要少，第二个就是跟你所要做的下游任务的相关性。这方面的工作，推荐看杨植麟大佬最近的《NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework》

当然，框架本身的调整（比如混合精度训练）也能带来一定的速度提升，但这不在本回答的考虑范围内（或者说，框架本身的优化默认都打开）。

现在的BERT等语言模型，最快训练要多久？的其他答案点击这里

1

相关话题

  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程？
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些？
  如何看待SIREN激活函数的提出？
  c4.5为什么使用信息增益比来选择特征？
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心？
  TensorFlow的自动求导具体是在哪部分代码里实现的？
  请问人工神经网络中的activation function的作用具体是什么？为什么ReLu要好过于tanh和sigmoid function?
  深度学习调参有哪些技巧？
  视觉算法的工业部署及落地方面的技术知识，怎么学？
  如何评价最近火热的对比学习，会引领预训练模型新的范式嘛?

前一个讨论

你见过哪些怪异的量化交易策略？

下一个讨论

有哪些效果拔群的 WebAssembly 应用？

相关的话题

  NLP 中 prompt learning 有哪些可能的天生缺陷？目前有什么样的方法来解决这样的缺陷？
  如何用简单易懂的例子解释隐马尔可夫模型？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  做底层 AI 框架和做上层 AI 应用，哪个对自己的学术水平（或综合能力）促进更大？
  transformer 为什么使用 layer normalization，而不是其他的归一化方法？
  主动学习（Active Learning）近几年的研究有哪些进展，现在有哪些代表性成果？
  深度学习图像处理什么时候用到GPU？
  阿里的TDM树深度模型为什么很少有人用，是有哪些问题吗？
  做底层 AI 框架和做上层 AI 应用，哪个对自己的学术水平（或综合能力）促进更大？
  硕士方向，选择迁移学习还是自然语言处理？
  如何评价小米开源的移动端深度学习框架MACE？
  关于tensorflow中的滑动平均？
  如何评价 DeepMind 新提出的关系网络（Relation Network）？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  能否使用区块链的算力来解决深度学习训练？
  如何评价DALL-E模型的实现？
  机器学习中的PR曲线一定会过（1，0）这个点吗？
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  Apple 在设备端对儿童色情图片检测，你怎么看这项功能？
  如何评价Yann LeCun宣称『他已经做好放弃概率论的准备』？
  深度学习和强化学习之间的差别有多大？
  如何评价Google发布的第二代深度学习系统TensorFlow?
  学习人工智能，术语看不懂怎么办？
  2021 年了，机器/深度学习还有哪些坑比较好挖？
  神经网络的损失函数为什么是非凸的?
  如何比较Keras, TensorLayer, TFLearn ？
  去美国读CS博士，方向是机器人导航，视觉方面，推荐一下相关编程方面准备？还有相关算法需要学习哪些？
  想问下专业人士 OpenCv会被深度学习进一步取代吗进一步取代吗？
  你所在的研究领域里，有哪些工作的结果虽然不是造假，但是是精挑细选出来的?
  多模态方面，有哪些牛组值得我们follow他们的工作？

© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利