超越目录计数:低资源多语言NLP中的数据集可见性不对称

arXiv cs.CL 论文

摘要

本文介绍了资源密度指数(RDI),并利用LLM辅助的引文挖掘揭示,许多语言在目录记录中看似数据贫乏,但在研究文献中却有大量的数据集活动,凸显了低资源多语言NLP中的可见性不对称。

arXiv:2605.17442v1 公告类型:新 摘要:多语言NLP通常依赖集中式目录中的数据集计数来表征哪些语言资源丰富或资源贫乏。然而,这些目录只记录了数据集可见性的一个层面:已经注册或机构性分发的内容。它们并不一定反映哪些数据集在研究文献中被创建、引用或复用。为了探究这一差距,我们将基于目录的基线与文献支持的证据结合起来,以展示数据集的流通情况。我们引入了资源密度指数(RDI),定义为每百万说话者所对应的目录数据集数量,并针对Ethnologue中使用最广泛的200种语言进行了计算。其中,118种语言(59%)在LRE Map和语言数据联盟(LDC)中的平均RDI为零,另有23种语言低于0.1,相当于每千万说话者最多只有一个目录数据集。然后,我们对这141种低可见性语言在Semantic Scholar语料库上应用了LLM辅助的引文挖掘流程。经过人工验证和整合,我们识别出涵盖53种语言的609个独立数据集,其中356个仍可通过有效的公开链接开放访问。这些结果揭示了一个显著的可见性差距:许多使用人数多的语言在目录记录中看似数据贫乏,但在研究文献中却显示出清晰的数据集活动证据。我们的发现表明,多语言数据稀缺不仅应被理解为生产问题,还应被看作文档、可发现性和长期可访问性的问题。代码和数据公开于(https://github.com/zhiyintan/dataset-visibility-asymmetry)。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:40

# 超越目录统计:低资源多语言NLP中的数据集可见性不对称
来源:https://arxiv.org/html/2605.17442
###### 摘要

多语言自然语言处理(NLP)常常依赖中央化目录中的数据集数量来表征哪些语言资源丰富或资源匮乏。然而,这些目录仅记录了数据集可见性的一个层面:已被注册或由机构分发的数据集。它们不一定反映研究文献中哪些数据集被创建、引用或重用。为了探究这一差距,我们结合了一个基于目录的基线方法与文献支持的数据集流通证据。我们引入了资源密度指数(RDI),定义为每百万母语者对应的编目数据集数量,并针对《民族语》中200种使用最广泛的语言计算了该指数。其中,118种语言(占59%)在LRE地图和语言数据联盟(LDC)中的平均RDI为零,另有23种语言的RDI低于0.1,相当于每千万母语者最多只有一个编目数据集。随后,我们对这141种低可见性语言,在Semantic Scholar语料库上应用了一个大语言模型辅助的引文挖掘流程。经过人工验证和合并,我们识别出53种语言的609个独特数据集,其中356个通过有效的公共链接保持开放可访问。这些结果揭示了显著的可见性差距:许多使用广泛的语言在目录记录中呈现数据匮乏,但在研究文献中却有清晰的数据集活动证据。我们的发现表明,多语言数据稀缺不仅应被理解为创作问题,也应视为文档化、可发现性和长期可访问性的问题。代码和数据公开于https://github.com/zhiyintan/dataset-visibility-asymmetry。

关键词:低资源语言,多语言,数据集可见性,基于引用的数据集发现

\NAT@set@cites

超越目录统计:低资源多语言NLP中的数据集可见性不对称

Zhiyin Tan¹,Changxu Duan²
¹L3S研究中心,莱布尼茨汉诺威大学,Appelstraße 9A, 30167 汉诺威,德国
[email protected]
²达姆施塔特工业大学,Residenzschloss 1, 64283 达姆施塔特,德国
[email protected]
摘要内容

## 1. 引言

语言数据集是多语言自然语言处理(NLP)的核心组成部分。它们决定了哪些语言可以被建模、基准测试和评估,从而影响哪些语言在已部署的语言技术中最为可见(Paullada等人,2021 (https://arxiv.org/html/2605.17442#biba.bib2);Blasi等人,2022 (https://arxiv.org/html/2605.17442#biba.bib15))。在过去十年中,该领域大力投资于语言资源的文档化和编目,以便数据集能够被发现、引用和重用。这一目标在诸如LRE地图(Calzolari等人,2010 (https://arxiv.org/html/2605.17442#biba.bib1);Del Gratta等人,2018 (https://arxiv.org/html/2605.17442#biba.bib4), 2021 (https://arxiv.org/html/2605.17442#biba.bib5))、CLARIN¹¹¹https://www.clarin.eu/以及语言数据联盟(LDC)²²²https://catalog.ldc.upenn.edu/等机构库中体现得尤为明显。这些基础设施已成为数据集审核和多语言调查的重要参考点,用于讨论哪些语言看起来文档完善,哪些则资源不足(例如,Joshi等人,2020 (https://arxiv.org/html/2605.17442#biba.bib11);Hedderich等人,2021 (https://arxiv.org/html/2605.17442#biba.bib13);Ranathunga和de Silva,2022 (https://arxiv.org/html/2605.17442#biba.bib17))。

与此同时,不应将目录统计误解为多语言资源可用性的完整图景。目录记录了可见性的特定层面:那些已提交、策展或由机构分发的数据集。它们不一定能捕捉到研究实践中所有被创建、引用、重用或流通的数据集。覆盖率可能取决于自愿提交、会议参与、许可安排、库的范围以及元数据随时间的持久性。因此,目录统计虽然信息丰富,但对于更广泛的数据集文档化和研究流通图景而言,仍然是一个不完整的代理指标。

这一区分的意义在于,“低资源”这一术语本身比任何单一计数都要宽泛。最近一项针对150篇论文的定性调查显示,低资源状态的定义至少涉及四个维度:社会政治条件、人力和数字资源的可用性、数据集和工具等人造物,以及社区能动性(Nigatu等人,2024 (https://arxiv.org/html/2605.17442#biba.bib14))。然而,在NLP实践中,数据集占据着特别有影响力的位置。它们是语言被基准测试、比较和讨论的主要人造物之一。因此,尽管低资源状态不能简化为数据集计数,但数据集数量通常作为语言看起来资源丰富或资源匮乏的实际信号。

困难在于,数据集的可见性不仅取决于数据集是否存在,还取决于它是否被记录在研究人员通常查阅的基础设施中。例如,LRE地图列出了31个印度尼西亚语资源,社区驱动的NusaCrowd(Cahyawijaya等人,2023 (https://arxiv.org/html/2605.17442#biba.bib16))报告了137个,而我们基于文献的审核则识别出196个具有已验证研究使用证据的不同印度尼西亚语数据集。对于马拉地语,相应的数字是目录视图中的14个和我们验证清单中的41个。这些例子并非表明目录是错误的,也不是说所有资源计数都应合并为一个统一的总额。它们揭示了一个更具体的问题:不同的基础设施呈现了不同层面的证据,而目录侧的可见性可能远低于通过系统追踪研究文献所能看到的水平。

这种差距具有实际后果。像“低资源”这样的标签影响着共享任务的设定(Asai等人,2022 (https://arxiv.org/html/2605.17442#biba.bib10))、哪些语言被优先用于基准构建和模型评估,以及NLP中多语言不平等现象的描述方式(Blasi等人,2022 (https://arxiv.org/html/2605.17442#biba.bib15);Yu等人,2022 (https://arxiv.org/html/2605.17442#biba.bib6))。如果这些判断背后的证据基础不完整,那么关于代表性、资源稀缺和语言不平等的下游说法也可能不完整。

在本文中,我们聚焦于该更广泛问题的一个具体部分:多语言NLP中作为文档化和使用中人造物的数据集的可见性。我们提出了两个相关的问题。首先,当数据集数量按母语人口标准化后,主要目录呈现出的资源可用性图景是怎样的?其次,当我们通过研究文献中的引文证据追踪可见的数据集时,这一图景如何变化?

为了回答这些问题,我们引入了一个人口标准化的指标——资源密度指数(RDI),该指数衡量在2025年《民族语》列表中200种使用最广泛的语言中,每百万母语者对应的编目数据集数量。然后,我们通过基于引文的Semantic Scholar语料库审核来补充这一基于目录的视角,该方法改编自我们先前关于研究问题驱动数据集发现的工作(Duan和Tan,2025 (https://arxiv.org/html/2605.17442#biba.bib25);Tan和Duan,2025 (https://arxiv.org/html/2605.17442#biba.bib24))。这第二个组件并非估算现有资源的全部,而是识别出一个更狭窄但可验证的证据层面:在文献中被引用、描述或重用,并经人工验证为特定语言资源的数据集。这两种视角结合起来,使我们能够比较目录文档化的可见性与文献支持的数据集流通证据。本文做出三项贡献:

1. 1. 目录可见性的人口标准化视角。我们引入了资源密度指数(RDI),这是一个透明的指标,用于比较200种使用最广泛的语言中目录文档化的数据集。通过将《民族语》的人口信息与LRE地图和LDC的条目相结合,RDI使得跨不同规模语言间的文档密度比较成为可能,并能识别出在主要目录中几乎不可见的那部分分布。
2. 2. 数据集流通的引文验证审核。我们改编了一个基于引文的数据集发现框架,构建了一份按语言划分的、在研究文献中有证据的数据集清单。该清单经过人工验证、去重,并附有可访问性元数据,为基于目录的文档化提供了一个以使用为中心的补充。
3. 3. 可见性与可访问性差距的证据。通过将基于目录的RDI估计值与基于引文的、在文献中被引用、描述或重用的数据集证据进行比较,我们表明目录可见性与研究流通常常存在分歧:许多在目录中零存在或接近零存在的语言,在研究文献中却有文档化和使用的数据集。这一发现表明,从目录侧证据推断出的部分稀缺性,可能反而反映了文档化、索引和保存方面的差距,而这些差距掩盖了已经在研究流通中的资源。我们进一步区分了文档化的数据集存在性与当前的可开放访问性,强调多语言数据集不平等不仅由数据集创建所塑造,还受文档化、可发现性和长期访问的影响。

综上所述,这些贡献为重新评估多语言数据集可见性提供了一个以人口为基础、经验验证的框架。它们并非重新定义一般的低资源状态,而是澄清了其中的一个重要部分:该领域如何观察、计数和比较不同语言的数据集。

## 2. 相关工作

#### 目录基础设施与资源可见性。

对多语言资源可用性的研究通常依赖于大型编目基础设施,这些设施负责语言资源的文档化和索引。系统性文档化长期以来一直是语言资源和评估社区的核心目标。LRE地图(Calzolari等人,2010 (https://arxiv.org/html/2605.17442#biba.bib1);Del Gratta等人,2018 (https://arxiv.org/html/2605.17442#biba.bib4), 2021 (https://arxiv.org/html/2605.17442#biba.bib5))在ELRA下开发,旨在成为一个面向社区的语料库、工具和词典注册表,并与研究出版物相关联,旨在提高可发现性、引用性和可重复性。语言数据联盟(LDC)等机构库以及CLARIN等基础设施维护着具有标准化元数据、持久标识符和正式分发流程的策展目录。³³³https://www.clarin.eu/content/component-metadata相关倡议,包括OLAC元数据标准和组件元数据基础设施,进一步反映了支持可互操作资源描述和长期索引的更广泛努力。⁴⁴⁴http://www.language-archives.org/OLAC/metadata.html除了作为存储或分发平台的作用外,这些基础设施还充当*资源可见性*的关键层面。目录条目决定了哪些数据集在后续的多语言NLP调查中易于发现、可引用且可理解。因此,研究人员在将语言描述为低资源或资源不足时,经常使用目录统计(例如,Joshi等人,2020 (https://arxiv.org/html/2605.17442#biba.bib11);Hedderich等人,2021 (https://arxiv.org/html/2605.17442#biba.bib13);Ranathunga和de Silva,2022 (https://arxiv.org/html/2605.17442#biba.bib17))。然而,目录覆盖范围必然是局部的。哪些资源出现在特定目录中,取决于机构的策展标准、提交征集的渠道以及每个库支持的分发模式。因此,目录记录提供了有价值但不完整的多语言数据集可用性视图:它们反映了在特定基础设施内已注册的内容,而非研究实践中可能存在或流通的全部数据集。

#### 社区与区域性策展。

除了这些基础设施外,若干倡议试图在特定语言区域或研究社区内记录语言资源。对于非洲语言,Emezue和Dossou(2020 (https://arxiv.org/html/2605.17442#biba.bib7))介绍了Lanfrica,这是一个汇聚非洲研究小组生产的NLP数据集、工具和基准的知识图谱。社区合作如Masakhane和HausaNLP为非洲大陆的语言策展了特定任务的语料库和资源(Muhammad等人,2025 (https://arxiv.org/html/2605.17442#biba.bib8))。在东南亚,Cahyawijaya等人(2023 (https://arxiv.org/html/2605.17442#biba.bib16))提出了NusaCrowd,这是一个收集印度尼西亚语及相关地区语言数据集的大规模努力。这些倡议说明了数据集文档化也可以通过去中心化的策展实践出现。然而,这类努力通常聚焦于特定区域或语系,因此无法提供一个关于目录记录与研究实际使用数据集之间关系的全球视角。

#### 定义与测量低资源状态。

另一条平行的研究路线探讨如何定义和测量语言资源不平等。早期工作通常将低资源状态等同于标注数据或平行数据的稀缺性,通常将问题框定在特定任务层面,如词性标注、句法分析或机器翻译(Hedderich等人,2021 (https://arxiv.org/html/2605.17442#biba.bib13))。Joshi等人(2020 (https://arxiv.org/html/2605.17442#biba.bib11))强调了NLP研究产出在少数语言(尤其是英语)中的高度集中。后续研究表明,语言技术的差异与更广泛的经济和基础设施因素相关,而非仅仅母语人口(Blasi等人,2022 (https://arxiv.org/html/2605.17442#biba.bib15))。其他研究考察了资源覆盖如何与人口和社会经济指标相关,表明母语人口众多的语言在可用数据集或基准中未必得到良好代表(Ranathunga和de Silva,2022 (https://arxiv.org/html/2605.17442#biba.bib17))。最近,文献的定性分析强调低资源状态是一个多维概念。例如,Nigatu等人(2024 (https://arxiv.org/html/2605.17442#biba.bib14))调查了150篇论文,显示低资源状态的定义涉及一系列因素,包括社会政治背景、人力和数字基础设施、可用的语言技术人造物以及社区能动性。作为对这一视角的补充,Yu等人(2022 (https://arxiv.org/html/2605.17442#biba.bib6))分析了多语言数据集构建实践,表明资源不平等不仅是数量上的,也是质量上的:许多语言的数据集在来源、标注过程和预期用途上存在差异。这些研究共同凸显了定义“低资源”的复杂性。同时,在实践性的NLP论述中,数据集可用性仍然是描述是否

相似文章

BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

用于监测和分类研究文献中数据使用的AI

arXiv cs.CL

本文提出了一种基于多任务GLiNER的框架,用于可扩展地监测研究文献中的数据集使用情况。该框架利用合成数据生成和基于LLM的重新验证,以解决提取、关系识别和使用分类中的挑战。