首页
查找话题
首页
为什么 BERT 的 intermediate_size 这么大?
为什么 BERT 的 intermediate_size 这么大? 第1页
1
guotong1988 网友的相关建议:
建议阅读:《Optimal Subarchitecture Extraction for BERT》
为什么 BERT 的 intermediate_size 这么大? 的其他答案 点击这里
1
相关话题
如何学习视频识别技术?
pytorch 分布式计算 你们都遇到过哪些 坑/bug?
如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA?
为什么不能有把中文想法直接转换成电脑程序的编程呢?
现在的BERT等语言模型,最快训练要多久?
如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero?
pytorch ddp训练中一个node fail,导致整个训练失败,有可能解决吗?
CNN网络的pooling层有什么用?
如何理解空洞卷积(dilated convolution)?
如何评价 MXNet 被 Amazon AWS 选为官方深度学习平台?
前一个讨论
目标检测该怎么学呀,目前研一,老师啥也不会,感觉毕不了业了?
下一个讨论
多模态训练,怎么解决不同模态之间差异的问题?
相关的话题
计算机视觉中,目前有哪些经典的目标跟踪算法?
mxnet的并行计算为什么这么牛,是什么原理?
Batch normalization和Instance normalization的对比?
为什么多方安全计算(或者隐私计算/联邦学习)在中国这么火?
特征工程中的「归一化」有什么作用?
如何看待多所 985 大学开设人工智能专业?
国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队?
如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet?
AI(或者说神经网络/深度学习)能够实现科学(尤其是物理学)研究中提出假设这一步嘛?
现大二,准备做大学生创新创业项目计划 ,目前定的方向是深度学习+畜牧业/养殖业,有什么建议给我们吗?
人工智能顶会的best paper,后来都怎么样了?
你见过最差的算法工程师能差到什么程度?
测试集在构造的时候需要人为控制其中应该正确的和应该错误的数据比例吗?
基于大数据的个人信用体系有没有可能被滥用?
GAN:固定训练好的判别器网络,去指导训练生成器为什么不可以?
为什么 Bert 的三个 Embedding 可以进行相加?
如何看待2021年哔哩哔哩拜年纪采用机器生成的假弹幕?
如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲?
如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA?
医学生学习机器学习该如何入门?
如何评价贾扬清离职 Facebook?
能否对卷积神经网络工作原理做一个直观的解释?
2019年,计算机视觉领域,你推荐哪些综述性的文章?
TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同?
机器学习中的PR曲线一定会过(1,0)这个点吗?
wav2vec中的30ms是怎么得来的?
机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系?
如何看待指出 神经网络的训练罪魁祸首是退化一文?
word2vec有什么应用?
机器学习自嘲的炼丹和化学材料自嘲的炒菜有什么本质上的区别?
服务条款
联系我们
关于我们
隐私政策
© 2025-02-20 - tinynew.org. All Rights Reserved.
© 2025-02-20 - tinynew.org. 保留所有权利