百科问答小站 logo
百科问答小站 font logo



为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕? 第1页

  

user avatar   tsxiyao 网友的相关建议: 
      

怎么感觉回答区普遍驴唇不对马嘴的emmm

我觉得不用搞花里胡哨的理性分析,你就感性的想一下

预训练的时候CLS embedding是干啥的?它是拿来接NSP任务的输出层啊……

这就注定了pretrain完了之后cls embedding很大程度上就是在编码NSP任务的高阶feature,也就是描述两段文本是否构成上下文关系

所以说,这个feature既然不是描述sentence语义的,直接用当然乱七八蕉的


user avatar   hai-tan-shang-chong-hua-47 网友的相关建议: 
      

成为美国总统?


user avatar   su-jian-lin-22 网友的相关建议: 
      

成为美国总统?


user avatar   guo-bi-yang-78 网友的相关建议: 
      

其实这完全是意料之内的翻车。

有心的朋友其实可以去翻找一下MIUI的部门等级变化,就会发现一个极其有趣的现象,目前翻车的两个版本,包括13和12.5,基本上都是内部等级降级后的MIUI团队制作出来的。

可能有人不是很懂这跟内部部门等级升降有什么关系。

简单来说就是,一个部门内部等级越高,它的部门领导距离核心层也就越近,甚至直接就是核心层,它能得到的资源也好,能得到的重视程度也好,都不是普通中高层执掌的部门所能比的。

MIUI作为小米起家的重要支撑,早期等级是相当高的,雷军和部分联合创始人都曾经是它的负责人,所以在小米公司的内部,它的权重无疑是很高的,甚至于其他部门需要配合MIUI部门展开一些工作。

但在后来,MIUI的部门被分拆了,主要负责系统开发的联合创始人离开小米,取而代之的是金凡。领导地位和部门地位双降意味着MIUI的权重大大降低,至少已经不复以前风光了,而版本更新,在有限的资源投入的前提下,自然也只能做修补性的工作,亦或者是一些市面上友商已经有的功能进行技术性移植。无他,这样成本最低。

但这样的后果是严重的,因为友商的系统,即使同源,也会有不同的开发逻辑和技术实现逻辑,强行技术移植,带来的就是不稳定甚至是出现严重问题。

很多人说金凡负责的前几个版本也没问题啊。那是因为问题没有爆发,当时的MIUI还享受着前期资源带来的红利。只是到了12.5,红利已经吃完,问题开始显现而已。

解决这个问题的方式也简单,把MIUI的开发部门恢复到以前的地位,让一个懂技术的核心高层去负责,然后,砸钱去开发、重写、调教,并适配。

表面看来是技术问题,实际上反映的,只是小米部门调整策略出现问题了而已,只是这个后果是消费者承担。


user avatar   da-mo-wang-dare 网友的相关建议: 
      

这个问题问得很好啊,我的建议是看今年年会的摘要集:

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会,不过计算化学分布得比较散,夹杂在各个分会中。各分会的主题可以从这里找到,可能相关的包括:

有一些主题是理论计算夹杂着实验的,还需要仔细辨别。回到摘要集,以第一分会为例:

中国化学会第32届学术年会摘要集-第一分会:物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了,而且还可以下载。

显然,能找到相关方向的摘要的单位,就是开设了相关方向的院校,甚至还能精确到具体的某个课题组。


user avatar   eron-31 网友的相关建议: 
      

这个问题问得很好啊,我的建议是看今年年会的摘要集:

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会,不过计算化学分布得比较散,夹杂在各个分会中。各分会的主题可以从这里找到,可能相关的包括:

有一些主题是理论计算夹杂着实验的,还需要仔细辨别。回到摘要集,以第一分会为例:

中国化学会第32届学术年会摘要集-第一分会:物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了,而且还可以下载。

显然,能找到相关方向的摘要的单位,就是开设了相关方向的院校,甚至还能精确到具体的某个课题组。




  

相关话题

  算法工程师是否应该持续读论文? 
  二分类问题,应该选择sigmoid还是softmax? 
  为啥gan里面几乎不用pooling? 
  现大二,准备做大学生创新创业项目计划 ,目前定的方向是深度学习+畜牧业/养殖业,有什么建议给我们吗? 
  神经网络为什么可以(理论上)拟合任何函数? 
  大牛Bengio 团队最新的研究和我自己之前的研究成果重复了,应该怎么办? 
  神经网络中 warmup 策略为什么有效;有什么理论解释么? 
  在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据,MPC对比RL还有优势么? 
  神经网络分类训练后得到的是连续的数怎么离散? 
  如何评价微软亚洲研究院提出的LightRNN? 

前一个讨论
为什么有很多人说 Go 语言不需要依赖注入?
下一个讨论
Python中使用class()有什么优势 (PS:想知道实际应用中的优势)?





© 2024-12-26 - tinynew.org. All Rights Reserved.
© 2024-12-26 - tinynew.org. 保留所有权利