首页

实体提取任务中使用BERT-CRF时，CRF根据数据统计可以得到转移概率，为啥还要训练呢？第1页

1

tylin98 网友的相关建议:

1、CRF并不显式定义转移概率这个概念，NER任务常用的线性链CRF只有转移特征的概念（而不是转移概率），不能简单通过统计获取。转移特征的绝对数值不能反映概率大小，但相对大小是有意义的，因此可以用加Mask的方法来引入概率上的先验，例如从S到E标签转移是不可能发生的，可以在转移矩阵上对应位置引入一个很小的负值。

2、跳出CRF的框架来看，提前统计的方法并不是很符合端到端学习的政治正确，CRF这类模块加在标注模型的顶端提供的主要是一种约束作用，参数的overhead其实并不高，没有理由通过额外的环节来获取这部分的参数。

lbigrain 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

实体提取任务中使用BERT-CRF时，CRF根据数据统计可以得到转移概率，为啥还要训练呢？的其他答案点击这里

1

相关话题

  基于深度卷积神经网络进行人脸识别的原理是什么？
  知识图谱+nlp，有什么适合硕士独自研究的方向？
  DeepMind 团队中有哪些厉害的人物和技术积累？
  有哪些可以自学机器学习、深度学习、人工智能的网站？
  有哪些人工智能上的事实，没有一定人工智能知识的人不会相信？
  FPGA做深度学习能走多远？
  请问下大家训练 SimCSE 时, loss 有没有这样的情况?
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  如何评价沐神他们写的《动手学深度学习》这本书？

前一个讨论

南京大学LAMDA（周志华）组的实力如何？

下一个讨论

杭州空气是不是很差？如果是，为什么那么差？

相关的话题

  谷歌翻译原理是什么，从语言A到B，中间是否要翻译成中介语言C（如英语）？
  如何看待Geoffrey Hinton的言论，深度学习要另起炉灶，彻底抛弃反向传播？
  计算商品embedding然后平均得到用户embedding，会不会存在这种问题？
  nlp有哪些值得完整实现一遍的算法?
  NLP领域，你推荐哪些综述性的文章？
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  如何评价AWS的图神经网络框架DGL？
  2022 年初，你认为哪项成果代表了现在人工智能的最高水平？
  Transformer是如何处理可变长度数据的？
  如何评价陈天奇团队新开源的TVM？
  国内做NLP业务的香侬科技值得去吗？
  如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet？
  wasserstein 距离的问题?
  Transformer是如何处理可变长度数据的？
  深度学习火热兴起后，隐马尔可夫模型（HMM）还有何独到之处，是不是几乎可被深度学习模型给替代了？
  如何看UCBerkeley RISELab即将问世的Ray，replacement of Spark？
  面试官如何判断面试者的机器学习水平？
  自然语言处理是计算机实现通用人工智能的最难挑战吗？
  有哪些相见恨晚的 TensorFlow 小技巧？
  为什么强大的 MXNet 一直火不起来？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  目前（2017年）机器阅读技术发展得如何？能达到什么水平？有哪些应用？
  你实践中学到的最重要的机器学习经验是什么？
  NLP领域，你推荐哪些综述性的文章？
  做中文 NLP 的时候，大家为啥不用拼音？
  如何看待谷歌公开 tensorflow 专用处理器 TPU?
  如何评价生成模型框架 ZhuSuan?
  如何评价最新的Octave Convolution？
  神经网络的万能逼近定理已经发展到什么地步了？
  Bert中的词向量各向异性具体什么意思啊？

© 2025-03-06 - tinynew.org. All Rights Reserved.
© 2025-03-06 - tinynew.org. 保留所有权利