首页
查找话题
首页
为什么 BERT 的 intermediate_size 这么大?
为什么 BERT 的 intermediate_size 这么大? 第1页
1
guotong1988 网友的相关建议:
建议阅读:《Optimal Subarchitecture Extraction for BERT》
为什么 BERT 的 intermediate_size 这么大? 的其他答案 点击这里
1
相关话题
有什么深度学习数学基础书推荐?
推荐算法岗是否存在严重人才过剩?
word2vec 相比之前的 Word Embedding 方法好在什么地方?
为什么神经网络具有泛化能力?
双非小硕一枚 能否从事机器学习?
深度学习attention机制中的Q,K,V分别是从哪来的?
什么是meta-learning?
深度学习attention机制中的Q,K,V分别是从哪来的?
梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?
一个无监督学习算法,如何判断其好坏呢?
前一个讨论
目标检测该怎么学呀,目前研一,老师啥也不会,感觉毕不了业了?
下一个讨论
多模态训练,怎么解决不同模态之间差异的问题?
相关的话题
如何评价Facebook AI提出的ResMLP,对比Google的MLP-Mixer?
transformer中的Q,K,V到底是什么?
把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗?
如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响?
为什么有些学数学的看不惯甚至鄙视 Deep Learning?
神经网络分类训练后得到的是连续的数怎么离散?
语音识别中,声学模型与语言模型扮演什么角色?或者说是怎么通过两个模型进行语音识别的?
2021年,作为算法工程师的你们会在CV业务落地上用Transformer吗?
全连接层的作用是什么?
深度学习应用在哪些领域让你觉得「我去,这也能行!」?
深度学习应用在哪些领域让你觉得「我去,这也能行!」?
有哪些你看了以后大呼过瘾的数据分析书?
分类问题的label为啥必须是 one hot 形式?
深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?
机器学习在Web攻击方向有什么建树吗?
为什么CV能做到让一幅人脸图动了笑了,而NLP的text-style-transfer进展貌似一般?
Dirichlet Processes 是一个什么样的随机过程?
如何评价Momenta ImageNet 2017夺冠架构SENet?
为什么最近几年 FPGA 变得越发受大家重视了?
有没有必要把机器学习算法自己实现一遍?
如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者?
目前,人工智能语音在说中文时的语气感觉上还比较机械,怎样使人工智能语音的语气更自然一些?
5-10年后,你觉得哪些科技会让我们“遗忘”现在的生活?
人工智能 CV 岗位是不是现在供严重大于需?
机器学习最好的课程是什么?
为什么在SGD中使用L1正则化很难获得稀疏性?
2021年人工智能领域有哪些关键性进展和突破?
大牛Bengio 团队最新的研究和我自己之前的研究成果重复了,应该怎么办?
为什么现在有这么多人工智能无用论?
让人工智能去下路边街头的象棋残局会赢吗?
服务条款
联系我们
关于我们
隐私政策
© 2025-02-21 - tinynew.org. All Rights Reserved.
© 2025-02-21 - tinynew.org. 保留所有权利