首页
查找话题
首页
请问下大家训练 SimCSE 时, loss 有没有这样的情况?
请问下大家训练 SimCSE 时, loss 有没有这样的情况? 第1页
1
qiu-ming-shan-lao-si-ji-2-9 网友的相关建议:
谢邀
我才刚大二,不搞深度学习呀(。•́︿•̀。)
请问下大家训练 SimCSE 时, loss 有没有这样的情况? 的其他答案 点击这里
1
相关话题
如何证明数据增强(Data Augmentation)有效性?
深度学习和强化学习之间的差别有多大?
马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的?
NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷?
如何用一句话证明自然语言处理很难?
如何评价Hinton组的新工作SimCLR?
人工智能在生活中的应用都有哪些?
自然语言处理怎么最快入门?
硕士方向,选择迁移学习还是自然语言处理?
国内做NLP业务的香侬科技值得去吗?
前一个讨论
被跳蚤咬的全身都是包是什么样的感受!?!?
下一个讨论
2024年的出生人口会是多少?
相关的话题
机器学习如何才能避免「只是调参数」?
视觉Transformer如何优雅地避开位置编码?
神经网络的万能逼近定理已经发展到什么地步了?
如何评价浪潮发布的2457亿参数源1.0智能大模型?与GPT-3相比如何?处于AI模型领域什么水平?
如何评价 马毅教授 的 NeurIPS 2020 中稿文章 MCR2 及 自称弄明白深度学习了?
算法工程师是否应该持续读论文?
机器学习能否用于综合评价?具体怎么操作?
为什么softmax很少会出现[0.5,0.5]?
实体提取任务中使用BERT-CRF时,CRF根据数据统计可以得到转移概率,为啥还要训练呢?
为什么计算注意力机制的时候不加偏置项?
关于tensorflow中的滑动平均?
word2vec 相比之前的 Word Embedding 方法好在什么地方?
如何评价1700亿参数的GPT-3?
Domain Adaptation学术上有哪些方向,还有哪些可做的地方?
大牛Bengio 团队最新的研究和我自己之前的研究成果重复了,应该怎么办?
如何看待何恺明最新一作论文Masked Autoencoders?
自然语言处理怎么最快入门?
如何看待何恺明最新一作论文Masked Autoencoders?
为什么中文 NLP 数据集这么少?
Transformer在工业界的应用瓶颈如何突破?
GAN(对抗生成网络)可以被用于哪些(商业或潜在商业)实际问题?
深度学习图像处理什么时候用到GPU?
为什么要压缩模型,而不是直接训练一个小的CNN?
深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?
scikit-learn, tensorflow, pytorch真的只需要查下API,不需要学吗?
深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」?
为什么谈论深度学习工具时,很少有人讨论matlab的神经网络工具包?
为什么有的论文放出训练好的模型和测试脚本,但不开源训练代码?
如何看待FAIR提出的8-bit optimizer:效果和32-bit optimizer相当?
如何计算CNN中batch normalization的计算复杂度(FLOPs)?
服务条款
联系我们
关于我们
隐私政策
© 2024-06-26 - tinynew.org. All Rights Reserved.
© 2024-06-26 - tinynew.org. 保留所有权利