百科问答小站 logo
百科问答小站 font logo



为什么中文 NLP 数据集这么少? 第1页

  

user avatar   xpqiu 网友的相关建议: 
      

可能的原因有以下几个:

  1. 目前的NLP算法越来越语言无关,想改进一个算法在英文数据集上验证就够了。非得在中文对应的数据集验证下不是必须的。
  2. 中文数据集往往是跟风英文的任务,在任务创新上不足,又加剧了了第一条的效果。
  3. 使用中文数据集的论文往往不好发表。
  4. 鉴于以上几条,做中文数据集的收益很低,做了大概率是别人不用。除非是中文特有的任务,比如中文分词,但是做这些任务的影响力太低了。
  5. 这个问题不只是在NLP领域,其他领域貌似也存在。

user avatar   youngfish42 网友的相关建议: 
      

缺少中文介绍和中文数据,这个问题不局限于“NLP”领域,在更广泛的科研领域也是如此。


中文开源意识还需改进

之前有幸私下向 @程明明 老师请教,讨论他的DOCX 倡议(开放共享科研记录行动倡议)

当时我很担心执行这个倡议会给研究团队带来太多额外的负担,于是提了几个问题,比如:

为实现该倡议需要投入大量精力,比如“共享中文翻译版”论文,这对于小团队或者个人获得收益可能无法覆盖成本,请问是否有较为宽松的规范或者合适的激励手段?使用该倡议能否形成良性闭环?……

但程老师觉得执行层面反而不是主要矛盾,更重要的是意识的改变

(节选一下讨论内容)

demo 稍微有点技术含量和硬件资源投入。把demo也开源了,技术关问题不大。长期维护得投入不关机的GPU服务器,这个得老师愿意投入。
open source 只要是真的,开源本身不难。学生也没有太多工作量。主要是老师这边认可开源是好事,而不是相反。
中文版 学生毕业论文要是中文版。早点翻译也有利于自己工作的推广
explain 同样需要时间投入,每次不多,但是可能需要长时间持续投入。


后续的执行情况也看到了,程老师所在课题组做了非常好的中文版本的开源工作。

相关讨论可以移步:

DOCX:开放共享科研记录行动倡议

如何评价南开大学程明明老师的 DOCX 倡议(开放共享科研记录行动倡议)?



我所了解的中文NLP数据集,以“CLUE”和“源 1.0”为例

首先感谢 @邱锡鹏@苏剑林 老师和各位知友的讨论,虽然他们对现有中文数据集有一些爱之深责之切的批评,但他们的讨论中也介绍了很多中文NLP数据集,读了回答也很有收益。


因为本人关注计算机视觉领域的小样本学习任务,机缘巧合下了解到了“CLUE”和“源 1.0”这两个NLP领域的中文数据集,就先介绍一下,如有错漏之处,请多多批评指教。

CLUE benchmark

@bright 老师发起了 CLUE benchmark(中文语言理解测评基准) 项目,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

语料库(CLUECorpus2020):语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目

语料库概述
1.维基百科(wiki2019zh),100万个结构良好的中文词条
2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
3.百科问答(baike2018qa),150万个带问题类型的问答
4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
5.翻译语料(translation2019zh),520万个中英文句子对

项目信息建议直接移步项目仓库和主页:

github.com/CLUEbenchmar

www.cluebenchmarks.com

这个项目较为吸引我的是有专门的小样本和零样本赛道,组织了比赛而且有前几名的技术分享。

@忆臻 师兄之前做了分享: FewCLUE: 为中文NLP定制的小样本学习测评基准

(1)任务类型多样、具有广泛代表性。包含多个不同类型的任务,包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。
(2)研究性与应用性结合。在任务构建、数据采样阶段,即考虑到了学术研究的需要,也兼顾到实际业务场景对小样本学习的迫切需求。如针对小样本学习中不实验结果的不稳定问题,采样生成了多份训练和验证集;考虑到实际业务场景类别,采用了多个有众多类别的任务,并在部分任务中存在类别不均衡的问题。
(3)时代感强。测评的主要目标是考察小样本学习,也同时测评了模型的零样本学习、半监督学习的能力。不仅能考察BERT类擅长语言理解的模型, 也可以同时查考了近年来发展迅速的GPT-3类模型在零样本学习、小样本学习上的能力;
此外,提供小样本测评完善的基础设施。从任务设定,广泛的数据集,多个有代表性的基线模型及效果对比,一键运行脚本,小样本学习教程,到测评系统、学术论文等完整的基础设施。

总的来说,我觉得CLUE是一个很值得关注的基准,对小样本学习感兴趣的朋友也可以看看FewCLUE项目。


源 1.0

上个月月初,浪潮的朋友跟我说,你不是做小样本学习的吗,来看看我们的工作吧,我们挺强的。

当时他们还都排在零样本和小样本学习榜双双第二的位置,仅次于人类的表现。

小样本学习榜中他们是F1_Score首个超越0.70的研究团队,零样本学习至今还优于于第三名20%。

(没想到现在小样本榜被其他人超越了哈哈哈,无情。)


不过模型性能只是一方面,更重要的是他们也提供了一个系列开源开放计划:源 1.0

除了开放数据集和开源代码以外,还提供了开放API等多种形式为业界提供开放合作,人工智能相关高校和科研机构、产业伙伴及智能计算中心用户可通过“源1.0”官网 提出申请,经审核授权后即可使用。

我还阅读了他们的论文[1],论文中不仅提到了他们实现了当前最大规模的单体中文语言模型,还很详细地介绍了数据集的制作流程,不妨阅读一下论文,然后去申请使用API和数据集。




回到问题本身,为了解决中文NLP数据集很少的问题,我觉得开发者和研究者们应该携手起来,主动将自己的项目转换为中文开源版本,另外也应该主动使用和鼓励中文开源版本的工作,只有这样,才能良性循环。中文开源的社区氛围也会越来越好。

参考

  1. ^Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning https://arxiv.org/abs/2110.04725



  

相关话题

  自然语言处理是计算机实现通用人工智能的最难挑战吗? 
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队? 
  为什么都说神经网络是个黑箱? 
  如何评价 2015 版的 Magi 搜索引擎? 
  如何理解深度学习中的deconvolution networks? 
  为什么有些学数学的看不惯甚至鄙视 Deep Learning? 
  测试集在构造的时候需要人为控制其中应该正确的和应该错误的数据比例吗? 
  能否对卷积神经网络工作原理做一个直观的解释? 
  为什么Transformer要用LayerNorm? 
  如何理解 natural gradient descent? 

前一个讨论
感觉北师大不如华东师大的人文关怀,真实情况是这样吗?
下一个讨论
降低医生的收入以减少医患关系紧张是否可行?





© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利