首页

为什么 BERT 的 intermediate_size 这么大？第1页

1

guotong1988 网友的相关建议:

建议阅读：《Optimal Subarchitecture Extraction for BERT》

为什么 BERT 的 intermediate_size 这么大？的其他答案点击这里

1

相关话题

  机器学习相关岗位面试中，有哪些加（zhuang）分（bi）项？
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  Python中 __init__的通俗解释是什么？
  2021 年，深度学习方面取得了哪些关键性进展？
  在算力充沛，深度学习模型大行其道的今天，传统机器学习的未来在哪里？
  学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？
  word2vec 相比之前的 Word Embedding 方法好在什么地方？
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode？
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ？

前一个讨论

目标检测该怎么学呀，目前研一，老师啥也不会，感觉毕不了业了？

下一个讨论

多模态训练，怎么解决不同模态之间差异的问题？

相关的话题

  为什么说深度学习没有理论基础?
  如何评价马毅教授的 NeurIPS 2020 中稿文章 MCR2 及自称弄明白深度学习了？
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象？
  写深度学习代码是先写model还是dataset还是train呢，有个一般化的顺序吗？
  如何评价 DeepMind 在星际中的失利，以及 OpenAI 在 Dota 上的成功？
  现在机器学习工业界和学术界的差别越来越大了吗？尽早实习和踏实科研各有什么利弊？
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  如何评价Google发布的第二代深度学习系统TensorFlow?
  如何看待「机器学习不需要数学，很多算法封装好了，调个包就行」这种说法？
  神经网络的万能逼近定理已经发展到什么地步了？
  自学深度学习是怎样一种体验？
  深度学习调参有哪些技巧？
  resnet（残差网络）的F（x）究竟长什么样子？
  transformer中的Q,K,V到底是什么？
  机器学习该怎么入门？
  不觉得最大熵原理很奇怪吗？
  如何用自然语言处理判断一句话是否符合中文口语习惯？
  人工智能可以为人类找寻他们心目中的另一半吗?
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？
  Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？
  到了 2022 年，人工智能有哪些真正可落地的应用？
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  word2vec有什么应用？
  为什么在SGD中使用L1正则化很难获得稀疏性？
  你见过哪些“人工智障”?
  attention跟一维卷积的区别是啥？
  如何评价Kaiming He团队的MoCo v3？
  Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗?
  有哪些你看了以后大呼过瘾的数据分析书？
  为什么softmax很少会出现[0.5，0.5]？

© 2025-06-18 - tinynew.org. All Rights Reserved.
© 2025-06-18 - tinynew.org. 保留所有权利