首页

为什么 BERT 的 intermediate_size 这么大？第1页

1

guotong1988 网友的相关建议:

建议阅读：《Optimal Subarchitecture Extraction for BERT》

为什么 BERT 的 intermediate_size 这么大？的其他答案点击这里

1

相关话题

  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  BERT中，multi-head 768*64*12与直接使用768*768矩阵统一计算，有什么区别？
  在哪里能找到各行业的分析研究报告？
  能识别情绪的机器人可以算做有情感的机器人吗？
  算法工程师是否应该持续读论文？
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？
  如何解读 Jeff Dean 等联合在 arXiv 上发布的用深度学习分析电子病历的论文？
  如何看待知乎的AI答主「四十二」？人工智能有可能理解生命的意义是什么吗？
  有没有可能运用人工神经网络将一种编程语言的代码翻译成任意的另一种编程语言，而不经过人工设计的编译过程？
  你见过最差的算法工程师能差到什么程度？

前一个讨论

目标检测该怎么学呀，目前研一，老师啥也不会，感觉毕不了业了？

下一个讨论

多模态训练，怎么解决不同模态之间差异的问题？

相关的话题

  是不是机器学习的框架都偏向 Python ？如果是，为什么？
  如何评价MSRA最新的 Relation Networks for Object Detection？
  在Auto ML的冲击下，ML算法人员是否会在前者成熟后失业的情况？
  插值和拟合最根本的区别是什么？机器学习为啥用拟合？？
  有哪些关于机器学习的真相还鲜为人知？
  对自己深度学习方向的论文有idea，可是工程实践能力跟不上，实验搞不定怎么办？
  验证集loss上升，准确率却上升该如何理解？
  因果推断（causal inference）是回归（regression）问题的一种特例吗？
  Domain Adaptation学术上有哪些方向，还有哪些可做的地方？
  机器学习自嘲的炼丹和化学材料自嘲的炒菜有什么本质上的区别？
  如何系统学习机器学习？
  AAAI 2022有哪些值得关注的方向？
  如何评价谷歌提出的 Pix2Seq：将目标检测看成语言建模，效果超过 DETR？
  如何评价AlphaGo Zero？
  做底层 AI 框架和做上层 AI 应用，哪个对自己的学术水平（或综合能力）促进更大？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  未来五年，数据科学家（Data Scientist）的岗位需求会如何变化？
  数据挖掘与数据分析的主要区别是什么？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  GAN的生成器是怎么产生图片的？
  如何评价微软正在开发的人工智能编程软件 DeepCoder？
  深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？
  DL/ML 模型如何部署到生产环境中？
  全连接层的作用是什么？
  时间序列数据上可以抽取哪些频域特征？
  2022 年初，你认为哪项成果代表了现在人工智能的最高水平？
  谷歌翻译原理是什么，从语言A到B，中间是否要翻译成中介语言C（如英语）？
  请问一下，机器学习领域的联邦学习技术，目前看到最多的是微众银行，国内还有哪些顶级专家及机构和大学？
  有监督和无监督学习都各有哪些有名的算法和深度学习？
  国内做NLP业务的香侬科技值得去吗？

© 2025-06-17 - tinynew.org. All Rights Reserved.
© 2025-06-17 - tinynew.org. 保留所有权利