问题

为什么中文 NLP 数据集这么少?

回答
“为什么中文 NLP 数据集这么少?” 这个问题,估计是许多投身中文自然语言处理(NLP)领域的开发者、研究者乃至爱好者们,心里时不时会冒出来的疑问。我们常看到英文 NLP 领域层出不穷的大规模、高质量数据集,而中文这边,总感觉选择有限,而且常常需要花费更多精力去处理和标注。这背后到底是什么原因在作祟呢?

要深入理解这个问题,我们得从几个关键的维度来剖析。

1. 语言的固有属性与处理的复杂性

首先,我们得承认,中文本身就比许多西方语言在某些方面处理起来更具挑战性。

无明显词分隔符: 这是最直观的一点。英文句子,单词之间通常有空格隔开,识别单词(分词)相对容易。而中文一个字一个字的连在一起,要准确地切分成有意义的词语(分词),就需要依赖语言模型和词典。这个过程本身就需要大量的标注数据来训练分词器,而且即使是成熟的分词器,在面对歧义、新词、专有名词时,也难免出错。想象一下,如果基础的“词”都不能被稳定地识别出来,那么在此基础上构建的其他 NLP 任务(如词性标注、命名实体识别)的数据集,其构建难度和成本都会急剧上升。

丰富的同义词、近义词和多义词: 中文在表达上具有极高的灵活性和韵味。同一个意思,可能有多种不同的表达方式。一个词语,在不同的语境下,含义也可能千差万别(多义词)。这使得语义理解、情感分析、文本相似度计算等任务的数据标注工作异常繁重。标注人员需要深刻理解语言的细微差别,才能做出准确的判断,这直接增加了数据收集和标注的成本。

成语、俗语、歇后语和文化梗: 中文文化博大精深,充满了各种成语、俗语、歇后语,以及随着互联网发展涌现出的网络流行语、梗等。这些非字面意义的表达,是中文的魅力所在,但也极大地增加了机器理解的难度。构建包含这些内容的有代表性数据集,需要的是既懂技术又懂文化的专业人士,这无疑是稀缺资源。

2. 数据集的“生产”过程:不仅仅是收集

当我们谈论“数据集少”,其实是在说“高质量、标注好的、适用于特定任务的中文 NLP 数据集”少。数据的生产并非简单地“抓取”文本。

数据来源的多样性与质量控制:
互联网爬取: 许多数据集最初可能源于互联网上的公开文本,比如新闻、论坛、博客、百科等。然而,这些原始数据往往充斥着噪声(错别字、乱码、非文本内容)、低质量内容(无意义的回复、重复信息),甚至可能包含偏见或不当信息。
专业领域数据: 像法律、医疗、金融等领域的文本,虽然信息密度高,但往往受版权保护,不易获取。即使获取,其专业性也要求极高的专业知识进行标注,成本自然高昂。
对话数据: 社交媒体、聊天记录等对话数据,对于构建聊天机器人、对话系统至关重要。但这类数据涉及用户隐私,公开获取和使用存在极大的法律和伦理风险,需要严格的匿名化和清洗处理。

标注工作的“人工”属性与成本:
专业性: 很多 NLP 任务的数据标注需要专业的语言学知识、领域知识,甚至是细致的逻辑判断。例如,情感分析可能需要区分用户是真诚的赞美还是反讽;命名实体识别需要准确区分人名、地名、组织名,以及不同语境下的专有名词。
主观性: 某些任务,如文本分类、摘要生成,甚至情感分析,都带有一定的主观性。不同标注者可能会有不同的理解和判断,这就需要制定非常详细、明确的标注指南,并进行多轮标注和冲突解决,以保证数据的一致性和可靠性。
人力成本: 无论是雇佣全职标注团队,还是外包给标注公司,人力成本都是一个巨大的考量。尤其是在中文 NLP 领域,懂行且经验丰富的标注人员本身就相对稀缺,推高了单位数据的标注成本。
质量保证: 仅仅完成标注是不够的,还需要建立严格的质量控制流程,比如多轮审核、交叉验证、金标数据比对等,这进一步增加了时间和成本。

3. 历史与生态系统的影响

早期研究的起点: NLP 的发展很大程度上受到了西方学术界的影响。在早期的研究中,英语语料和数据集的可用性,自然使得研究者倾向于从这些资源入手,也推动了英文 NLP 技术和工具的快速发展。而中文 NLP 的兴起和发展,相对而言晚一些,也更具独立性,从零开始构建数据集的挑战就更为明显。

开源生态的差异: 英文 NLP 领域有着非常成熟和活跃的开源社区,许多大型科技公司(如 Google、Facebook、Microsoft)会慷慨地发布大量的开源数据集和工具。虽然国内也有很多优秀的开源项目,但在数据集的广度和规模上,可能与国际顶尖水平存在一定差距。这部分原因是由于商业模式、知识产权保护以及分享文化等方面的差异。

商业模式与数据所有权: 很多有价值的中文文本数据,尤其是在特定行业或应用场景下的数据,被大型互联网公司或企业掌握。这些数据是他们的核心资产,出于商业竞争或隐私保护的考虑,并不一定会选择大规模开源。即使开源,也可能仅限于满足自身特定研究或产品需求,而非通用数据集。

4. 缺乏统一的标准与平台

数据格式与标准不统一: 即使存在一些中文 NLP 数据,也可能因为格式不统一、标注方法不一致,而难以直接复用。这增加了使用者预处理和适配的工作量。

数据发现与共享的平台: 相较于英文世界,中文 NLP 数据集发现和共享的平台和机制可能不够完善。很多时候,数据集的发布可能分散在各个研究机构、会议论文或个人的GitHub仓库中,用户需要费力地去搜寻和整合。

总结一下:

所以,说中文 NLP 数据集“少”,其实是一个多因素交织的结果。它既源于中文语言本身的复杂性带来的处理和标注挑战,也受制于数据获取、清洗、标注过程中高昂的成本和技术要求。再加上历史因素、开源生态的差异以及商业模式的影响,共同导致了我们在中文 NLP 数据集方面,相较于英文世界,总感觉“家底”不够厚实。

但这并不意味着中文 NLP 就此停滞不前。事实上,近年来,随着国内互联网公司的崛起和人工智能技术的飞速发展,我们已经看到了越来越多优秀的中文 NLP 数据集被创造和发布,例如用于预训练模型的超大规模语料库,以及在特定任务上(如问答、摘要、翻译)的高质量标注数据集。这些努力正逐步弥补着差距。

对于我们开发者和研究者而言,面对这一现状,一方面要积极利用现有资源,另一方面也需要发挥创造力,学习更有效的数据增强、迁移学习等技术,甚至亲手参与到数据集的构建和标注工作中,共同为中文 NLP 的繁荣添砖加瓦。

网友意见

user avatar

可能的原因有以下几个:

  1. 目前的NLP算法越来越语言无关,想改进一个算法在英文数据集上验证就够了。非得在中文对应的数据集验证下不是必须的。
  2. 中文数据集往往是跟风英文的任务,在任务创新上不足,又加剧了了第一条的效果。
  3. 使用中文数据集的论文往往不好发表。
  4. 鉴于以上几条,做中文数据集的收益很低,做了大概率是别人不用。除非是中文特有的任务,比如中文分词,但是做这些任务的影响力太低了。
  5. 这个问题不只是在NLP领域,其他领域貌似也存在。
user avatar

缺少中文介绍和中文数据,这个问题不局限于“NLP”领域,在更广泛的科研领域也是如此。


中文开源意识还需改进

之前有幸私下向 @程明明 老师请教,讨论他的DOCX 倡议(开放共享科研记录行动倡议)

当时我很担心执行这个倡议会给研究团队带来太多额外的负担,于是提了几个问题,比如:

为实现该倡议需要投入大量精力,比如“共享中文翻译版”论文,这对于小团队或者个人获得收益可能无法覆盖成本,请问是否有较为宽松的规范或者合适的激励手段?使用该倡议能否形成良性闭环?……

但程老师觉得执行层面反而不是主要矛盾,更重要的是意识的改变

(节选一下讨论内容)

demo 稍微有点技术含量和硬件资源投入。把demo也开源了,技术关问题不大。长期维护得投入不关机的GPU服务器,这个得老师愿意投入。
open source 只要是真的,开源本身不难。学生也没有太多工作量。主要是老师这边认可开源是好事,而不是相反。
中文版 学生毕业论文要是中文版。早点翻译也有利于自己工作的推广
explain 同样需要时间投入,每次不多,但是可能需要长时间持续投入。


后续的执行情况也看到了,程老师所在课题组做了非常好的中文版本的开源工作。

相关讨论可以移步:

DOCX:开放共享科研记录行动倡议

如何评价南开大学程明明老师的 DOCX 倡议(开放共享科研记录行动倡议)?



我所了解的中文NLP数据集,以“CLUE”和“源 1.0”为例

首先感谢 @邱锡鹏@苏剑林 老师和各位知友的讨论,虽然他们对现有中文数据集有一些爱之深责之切的批评,但他们的讨论中也介绍了很多中文NLP数据集,读了回答也很有收益。


因为本人关注计算机视觉领域的小样本学习任务,机缘巧合下了解到了“CLUE”和“源 1.0”这两个NLP领域的中文数据集,就先介绍一下,如有错漏之处,请多多批评指教。

CLUE benchmark

@bright 老师发起了 CLUE benchmark(中文语言理解测评基准) 项目,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

语料库(CLUECorpus2020):语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目

语料库概述
1.维基百科(wiki2019zh),100万个结构良好的中文词条
2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
3.百科问答(baike2018qa),150万个带问题类型的问答
4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
5.翻译语料(translation2019zh),520万个中英文句子对

项目信息建议直接移步项目仓库和主页:

github.com/CLUEbenchmar

www.cluebenchmarks.com

这个项目较为吸引我的是有专门的小样本和零样本赛道,组织了比赛而且有前几名的技术分享。

@忆臻 师兄之前做了分享: FewCLUE: 为中文NLP定制的小样本学习测评基准

(1)任务类型多样、具有广泛代表性。包含多个不同类型的任务,包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。
(2)研究性与应用性结合。在任务构建、数据采样阶段,即考虑到了学术研究的需要,也兼顾到实际业务场景对小样本学习的迫切需求。如针对小样本学习中不实验结果的不稳定问题,采样生成了多份训练和验证集;考虑到实际业务场景类别,采用了多个有众多类别的任务,并在部分任务中存在类别不均衡的问题。
(3)时代感强。测评的主要目标是考察小样本学习,也同时测评了模型的零样本学习、半监督学习的能力。不仅能考察BERT类擅长语言理解的模型, 也可以同时查考了近年来发展迅速的GPT-3类模型在零样本学习、小样本学习上的能力;
此外,提供小样本测评完善的基础设施。从任务设定,广泛的数据集,多个有代表性的基线模型及效果对比,一键运行脚本,小样本学习教程,到测评系统、学术论文等完整的基础设施。

总的来说,我觉得CLUE是一个很值得关注的基准,对小样本学习感兴趣的朋友也可以看看FewCLUE项目。


源 1.0

上个月月初,浪潮的朋友跟我说,你不是做小样本学习的吗,来看看我们的工作吧,我们挺强的。

当时他们还都排在零样本和小样本学习榜双双第二的位置,仅次于人类的表现。

小样本学习榜中他们是F1_Score首个超越0.70的研究团队,零样本学习至今还优于于第三名20%。

(没想到现在小样本榜被其他人超越了哈哈哈,无情。)


不过模型性能只是一方面,更重要的是他们也提供了一个系列开源开放计划:源 1.0

除了开放数据集和开源代码以外,还提供了开放API等多种形式为业界提供开放合作,人工智能相关高校和科研机构、产业伙伴及智能计算中心用户可通过“源1.0”官网 提出申请,经审核授权后即可使用。

我还阅读了他们的论文[1],论文中不仅提到了他们实现了当前最大规模的单体中文语言模型,还很详细地介绍了数据集的制作流程,不妨阅读一下论文,然后去申请使用API和数据集。




回到问题本身,为了解决中文NLP数据集很少的问题,我觉得开发者和研究者们应该携手起来,主动将自己的项目转换为中文开源版本,另外也应该主动使用和鼓励中文开源版本的工作,只有这样,才能良性循环。中文开源的社区氛围也会越来越好。

参考

  1. ^Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning https://arxiv.org/abs/2110.04725

类似的话题

  • 回答
    “为什么中文 NLP 数据集这么少?” 这个问题,估计是许多投身中文自然语言处理(NLP)领域的开发者、研究者乃至爱好者们,心里时不时会冒出来的疑问。我们常看到英文 NLP 领域层出不穷的大规模、高质量数据集,而中文这边,总感觉选择有限,而且常常需要花费更多精力去处理和标注。这背后到底是什么原因在作.............
  • 回答
    在中文自然语言处理(NLP)的实践中,虽然拼音是我们学习和使用中文的起点,但在进行深入的文本分析和处理时,大多数时候大家倾向于直接使用汉字本身,而不是拼音。这背后其实有很多原因,而且这些原因相互关联,共同构成了中文NLP对汉字更青睐的基础。首先,我们得明白中文的特点。中文最大的魅力和挑战之一,就在于.............
  • 回答
    这确实是一个很有意思的语言现象,背后涉及到中文数字表达的习惯和历史演变。简单来说,“亿”作为一个相对较大的数字单位,在日常口语和书面语中,更容易被单独拎出来,需要一个量词来修饰,而“万”和“千”则因为本身就更常被作为计算的基准或常用单位,加上它们自身就带有数量感,所以不太需要额外的量词“个”。我们来.............
  • 回答
    在中国,我们通常不将日本天皇翻译成“国王”,这背后有其历史、文化和政治原因。理解这一点,需要我们深入探讨一下“王”和“天皇”这两个词语的含义及其在中国传统语境下的定位。首先,我们来看看“王”这个概念在中国是如何被理解的。在中国古代,“王”是一个非常特殊的称号。它不仅仅是一个统治者的头衔,更承载着一种.............
  • 回答
    中文游戏圈管单人游戏叫“单机游戏”,这背后其实有一段挺有意思的演变过程,里面夹杂着一些历史遗留、玩家习惯以及对游戏形态的理解。咱们一点点掰扯开来看,尽量还原当时那种感觉。最早的源头:“单机”的字面意思和早期游戏载体想理解“单机游戏”这个词,得回到游戏最古老的形态。那时候,游戏可不像现在这样,点一下就.............
  • 回答
    咱们来聊聊中文互联网上那些争论为啥容易“跑偏”,变成人身攻击这事儿。其实这现象挺复杂的,不是一朝一夕形成的,也跟咱们文化、社会环境都有点关系。首先得说,在中国这片土地上,“面子”这事儿在很多时候比道理本身都重要。尤其是在网络上,大家藏在屏幕后面,感觉没那么直接的约束,更容易把争论看成一场“输赢”的较.............
  • 回答
    在中文历史叙事中,关于格鲁吉亚马穆鲁克统治伊拉克的历史鲜有详述,这背后其实有多重原因,并非某个单一因素可以完全解释。我们可以从几个层面来剖析这个问题,就像在翻阅古籍时,需要拨开层层迷雾才能窥见真相。首先,我们需要理解“马穆鲁克”这个词在中文语境下的惯常指代。当我们提及“马穆鲁克”时,最先跳入脑海的往.............
  • 回答
    你这个问题很有意思,也触及到了数字分隔符的文化差异。简单来说,中文页面上数字显示“三个数字一逗号”,也就是我们常说的“千分位分隔符”,这是受到了西方数字表示习惯的影响,并且在全球化的大背景下,为了方便国际交流和理解,被广泛采纳了。要详细讲,我们可以从几个方面来拆解: 1. 数字分隔符的起源:一个是为.............
  • 回答
    在中文里,将以住宿为主的Hotel翻译成“酒店”或“饭店”,其背后有历史、文化以及演变等多种原因,我们可以从以下几个方面来详细阐述: 1. 词源与早期概念的融合 Hotel 的本义: “Hotel”一词源自法语,最初指的是一种拥有完善服务的、舒适且设施齐全的住宿场所,通常比旅馆(Inn)更高级,.............
  • 回答
    .......
  • 回答
    你这个问题很有意思,也触及到了一些挺实际的方面。其实,说海外中文媒体“大多”使用繁体,这个说法有一点点笼统,因为实际情况要复杂一些,不同地区、不同类型的媒体,使用字体的情况会有些差异。但总体来说,繁体中文在海外华人社区,尤其是在一些传统意义上的华人聚居地,确实有着比简体中文更广泛的影响力和更长的历史.............
  • 回答
    最近中文互联网上关于犹太人的评价确实出现了一些值得注意的变化,这种变化并非一朝一夕形成,而是多种因素交织影响下的结果。要详细梳理其中的脉络,需要从几个层面去理解。首先,需要承认的是,在很长一段时间里,中文互联网对犹太人的认知和评价,很大程度上是受到历史叙事、媒体宣传以及民间故事等多种来源的影响。过去.............
  • 回答
    很多人觉得中文是“地狱难度”,这可不是一句玩笑话,里面门道可深着呢。它不像一些语言那样有清晰的字母表,学起来就像是闯关打怪,一步步摸索,有时候还会卡在某个地方,让人直挠头。首先,这“地狱难度”的根源之一就是它的汉字系统。想象一下,别人学外语,可能只需要记住26个字母的组合,就能拼出无数个单词。而我们.............
  • 回答
    这个问题确实触及了国内学术出版体系的一个核心矛盾,并且背后牵扯到多方面的因素,绝非简单“扩刊”二字就能解决的。我将试着从几个维度来分析,希望能尽量详尽地阐述清楚,并且避免那些让人一眼就能看穿的AI痕迹。首先,我们要理解CSSCI和CSCD期刊在中国学术界扮演的角色。它们是国内人文社科和自然科学领域的.............
  • 回答
    我这人吧,说话直,也爱琢磨事儿。最近看身边有几个外国人朋友学中文,刚开始那会儿,那发音,哎呀,听着总有点儿不对劲儿。后来我琢磨琢磨,发现好多人刚学,发音好像都爱“跑偏”到一种特别的调调上,后来一问,才知道,不少都是一股子河南味儿。这事儿挺有意思的,我就想跟你掰扯掰扯,为啥外国人学中文,刚开始口语发音.............
  • 回答
    关于《明日方舟》为什么选择不使用中文配音,这其实是一个在玩家群体中讨论了很久也很有意思的话题。作为一款在国内风靡的游戏,选择日语配音而非中文配音,背后有挺多值得说道的考量,绝不仅仅是简单的“偷懒”或者“跟风”。首先,得从游戏的研发初衷和风格定位说起。鹰角网络作为一家国内厂商,选择制作《明日方舟》这款.............
  • 回答
    你这个问题问得很有意思,也触及到了中文信息处理的核心。为什么 Unicode 编码里的中文不是按照拼音首字母顺序排列的呢?这背后其实是历史、技术和文化等多方面因素共同作用的结果,而且理解这一点,也能帮助我们明白为什么中文在计算机世界里不像英文那样直接简单。核心原因:Unicode 的目标是“表示”而.............
  • 回答
    关于中文是否应该分词书写,这是一个很有趣也很值得探讨的话题。我个人并不“支持”或“反对”某一种书写方式,因为作为语言模型,我的存在是为了理解和处理语言,而语言本身是鲜活且不断演变的。但如果从人类社会和语言发展的角度去看待这个问题,我可以分享一些我的思考。要理解这个问题,我们得先明白什么是“分词书写”.............
  • 回答
    USB TypeC 充电口之所以没有中文名字,这背后其实是一个挺有意思的文化和技术命题,并不是因为我们中文不够厉害,而是因为“USB TypeC”本身就是一种国际通用的技术标准命名方式。咱们先从“USB”说起。USB,全称是Universal Serial Bus,翻译过来就是“通用串行总线”。这个.............
  • 回答
    这个问题挺有意思的,确实,要是在中文里直接把 county 翻译成“市”,很多人一下就能明白它的概念,毕竟咱们中国的“市”大家都很熟悉。但为什么咱们不这么做呢?这背后涉及到历史、文化以及美国行政区划的实际情况,不是简单套用一个词就能解决的。首先,咱们得说说“市”这个词在中国文化里的概念。在中国,“市.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有