首页
查找话题
首页
请问下大家训练 SimCSE 时, loss 有没有这样的情况?
请问下大家训练 SimCSE 时, loss 有没有这样的情况? 第1页
1
qiu-ming-shan-lao-si-ji-2-9 网友的相关建议:
谢邀
我才刚大二,不搞深度学习呀(。•́︿•̀。)
请问下大家训练 SimCSE 时, loss 有没有这样的情况? 的其他答案 点击这里
1
相关话题
如何评价深度学习之父Hinton发布的Capsule论文?
老师给了一个神经网络的程序,他之前是跑通了的,但是我迭代几十次或者一百多次就报错。这个怎么解决?
现在互联网公司还有做特征工程的工作吗?
机器学习里面的流形都是怎么用的?
为什么读论文最好打印出来读?
如何评价陈天奇团队新开源的TVM?
为什么ViT里的image patch要设计成不重叠?
如何评价2020年计算机视觉顶会CVPR投稿量破万的现象?
分类机器学习中,某一标签占比太大(标签稀疏),如何学习?
为什么图形学的会议siggraph的论文代码很少会开源?好像视觉如CVPR、ICCV开源的更多一些。
前一个讨论
被跳蚤咬的全身都是包是什么样的感受!?!?
下一个讨论
2024年的出生人口会是多少?
相关的话题
如何看待 Richard Sutton 说的「人工智能中利用算力才是王道」?
为什么中文 NLP 数据集这么少?
word2vec 相比之前的 Word Embedding 方法好在什么地方?
新智元提问:如何看待李飞飞高徒Karpathy加入特斯拉,主管人工智能部门?
transformer 为什么使用 layer normalization,而不是其他的归一化方法?
如果推出一款有「滤镜」功能的写作软件,修饰平庸的文字,会有市场吗?
nlp有哪些值得完整实现一遍的算法?
resnet(残差网络)的F(x)究竟长什么样子?
隐私计算、计算机视觉、自然语言处理三者中,哪个研究起来更有前途?
mxnet的并行计算为什么这么牛,是什么原理?
主动学习(Active Learning)近几年的研究有哪些进展,现在有哪些代表性成果?
如何理解深度学习中的deconvolution networks?
如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA?
国内 top2 高校研一在读,为什么感觉深度学习越学越懵?
学生网络用知识蒸馏损失去逼近教师网络,如何提高学生网络的准确率?
NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷?
视觉Transformer如何优雅地避开位置编码?
Word2vec 翻译到另一种语言,其向量空间之间的映射会不会是线性的?
如何看待在某度搜不到megengine官网?
什么是蒙特卡罗 Dropout(Monte-Carlo Dropout)?
深度学习在生物信息领域有什么应用?
《失控玩家》中的游戏有可能实现出来吗?
把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗?
为什么有的论文放出训练好的模型和测试脚本,但不开源训练代码?
DL框架的未来发展,TensorFlow/MXNet/PyTorch, 选哪个?
深度学习应用在哪些领域让你觉得「我去,这也能行!」?
2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势?
如何看待何恺明最新一作论文Masked Autoencoders?
AI领域的灌水之风如何破局?
如何评价基于游戏毁灭战士(Doom)的AI死亡竞赛大赛结果?
服务条款
联系我们
关于我们
隐私政策
© 2025-03-26 - tinynew.org. All Rights Reserved.
© 2025-03-26 - tinynew.org. 保留所有权利