开放但不兼容:低资源非洲语言语料库的许可证兼容性分析
摘要
本文审计了二十多个非洲自然语言处理语料库家族的许可证来源,识别了兼容性故障,如JW300违规和隐藏的NoDerivs条款,并提供了合法清洁数据集创建的尽职调查清单。
arXiv:2606.28867v1 公告类型:新
摘要:创意共享许可证主导了非洲自然语言处理语料库的发布,但其兼容性规则很少得到应用。CC-BY-SA和CC-BY-NC不能合并到单个已发布的数据集中;NoDerivs条款默默禁止了分词和标注。本文审计了非洲自然语言处理中使用的二十多个语料库家族的许可证来源,构建了一个六层兼容性矩阵,并将其应用于三个案例研究语言:Kituba/Munukutuba、Zarma和Moore。记录了四种故障模式,并附有原始来源证据:完全禁止(JW300,在法律审计确认违反服务条款后从OPUS中移除);复合许可证误述(WAXAL,其CC-BY 4.0声明与其自身的HuggingFace数据集卡片相矛盾);隐藏在CC-BY标签后的NoDerivs条款(Tanzil);以及数据持久性故障(刚果广播语料库,其中405个源URL中有402个现已失效)。论文最后提供了预注释尽职调查清单和合法清洁数据增强机会的调查。
查看缓存全文
缓存时间: 2026/06/30 05:28
# 开放但不兼容:面向低资源非洲语言语料库的许可兼容性分析 来源:https://arxiv.org/html/2606.28867 ###### 摘要 创意共享(Creative Commons)许可在非洲自然语言处理(NLP)语料库发布中占据主导地位,但其兼容性规则却鲜少得到应用。CC-BY-SA 和 CC-BY-NC 许可无法合并到同一公开发布的数据集中;一项“禁止演绎”(NoDerivs)条款悄无声息地禁止了分词和标注。本文对非洲 NLP 中使用的二十多个语料库家族的许可来源进行了审计,构建了一个六层兼容性矩阵,并将其应用于三个案例研究语言:基图巴语/穆努库图巴语(Kituba/Munukutuba)、扎尔马语(Zarma)和莫西语(Moore)。本文通过原始来源证据记录了四种失败模式:完全禁止(JW300,经法律审计确认违反服务条款后从 OPUS 移除);复合许可误述(WAXAL,其 CC-BY 4.0 声明被其自家的 HuggingFace 数据集卡所反驳);隐藏在 CC-BY 标签背后的禁止演绎条款(Tanzil);以及数据持久性失败(刚果广播语料库,其中 405 个源 URL 中有 402 个现已失效)。本文最后提供了一个预标注尽职调查清单以及对法律上清洁的丰富机会的调查。 关键词:语料库许可,许可兼容性,非洲语言,低资源 NLP,创意共享,可复现性,数据持久性,基图巴语,扎尔马语,莫西语 \\NAT@set@cites 开放但不兼容:面向低资源非洲语言语料库的许可兼容性分析 Ernst van Gassen Arktos AI Lab Netherlands [email protected] 摘要内容 ## 1. 引言 NLP 研究者并非律师。对于高资源语言,这通常不是问题。常用语料库经过数十年的实践在法律上得到了审查。对于低资源非洲语言,以上两个条件均不成立。 自 2019 年以来,针对数十种非洲语言的平行语料库、命名实体识别(NER)数据集、情感基准测试和语音资源相继发布。本文认为,这些成果中的大部分并未经过系统的许可审查。其后果正开始显现。JW300(Agić 和 Vulić, 2019 (https://arxiv.org/html/2606.28867#bib.bib3))是一个覆盖 300 多种语言的平行语料库,其中包括数十种没有替代来源的语言。经发现,该语料库的构建违反了耶和华见证人网站的服务条款,后者明确禁止文本和数据挖掘。内罗毕知识产权与信息技术中心(CIPIT)的法律审计确认了该违规行为(知识产权与信息技术法中心 (2020), CIPIT (https://arxiv.org/html/2606.28867#bib.bib7))。OPUS 移除了该语料库。每个整合了 JW300 数据的数据集、模型和基准测试现在都带有受污染的来源链。 JW300 并非孤立案例。荷兰语模型 GEITje 应 Stichting BREIN 的版权执法请求从 HuggingFace 上被移除(Rijgersberg, 2023 (https://arxiv.org/html/2606.28867#bib.bib32); nu.nl / Tweakers, 2024 (https://arxiv.org/html/2606.28867#bib.bib27); RTL Nieuws, 2024 (https://arxiv.org/html/2606.28867#bib.bib33); Tweakers, 2024 (https://arxiv.org/html/2606.28867#bib.bib37); GoingDutch.ai, 2024 (https://arxiv.org/html/2606.28867#bib.bib12));对于高资源语言,这些事件具有破坏性但可以恢复。对于非洲语言,失去一个语料库可能意味着失去了该语言的唯一可用来源。Common Corpus(Langlais 等, 2025 (https://arxiv.org/html/2606.28867#bib.bib20)),一个为开放许可明确策划的两万亿词元语料库,说明了基准情况:对其训练表的审计发现,15 种本地撒哈拉以南非洲语言合计约占 91 行,而英语则有 18,485 行(第 5.1 节 (https://arxiv.org/html/2606.28867#S5.SS1))。 由于多重原因,低资源语言面临的风险高于 NLP 的其他领域:当来源丢失时,没有替代语料库;标注投入成为沉没成本;一次许可冲突可能阻碍可用资源景观的一半;受污染的来源会级联影响多语言基准测试的发布。 三个语言锚定了案例研究。基图巴语/穆努库图巴语(ktu/mkw),作为刚果(布)南部的通用语和金夏萨的通用语,拥有 5-800 万使用者,但在 FLORES-200、MasakhaNER 或 AfriSenti 中均无收录。扎尔马语(dje),由尼日尔西南部的 4-500 万人使用,拥有来自 27Group 的机器翻译(MT)和 NER 资源,但未出现在 FLORES-200、NLLB 以及所有主要基准测试中;人道主义事务协调厅(OCHA)和联合国难民署(UNHCR)将其列为所需的危机沟通语言。莫西语(mos),拥有 FLORES-200 覆盖和布基纳法索活跃的研究小组,作为对比:这是开放许可环境目前为一个相对研究充分但仍属低资源的语言所能提供的上限。 ## 2. 相关工作 #### 关于开放许可的法律学术研究。 创意共享许可一直受到学术界的持续批评。Katz (2006 (https://arxiv.org/html/2606.28867#bib.bib18)) 指出了两个结构性问题:变体激增造成用户困惑,以及相同方式共享(ShareAlike)条款造成兼容性僵局,从而阻碍衍生作品的合法分发。Boyle (2003 (https://arxiv.org/html/2606.28867#bib.bib6)) 提供了理论框架:限制性知识产权许可构成了第二次圈地运动。 #### NLP 中的数据来源与许可审计。 Gebru 等 (2021 (https://arxiv.org/html/2606.28867#bib.bib11)) 以及 Bender 和 Friedman (2018 (https://arxiv.org/html/2606.28867#bib.bib5)) 提出了数据集和 NLP 语料库的结构化文档标准。两者都认为,来源和许可必须作为一等元数据进行记录。Dodge 等 (2021 (https://arxiv.org/html/2606.28867#bib.bib9)) 将其应用于大型网络文本语料库,发现了本可通过文档化揭示的机器生成文本和基准测试污染问题。Kreutzer 等 (2022 (https://arxiv.org/html/2606.28867#bib.bib19)) 审计了跨五个多语言网络爬取数据集的 205 个特定语言语料库,发现至少有 15 个不包含可用文本,且许多使用了模糊的语言代码。Perełkiewicz 和 Poświata (2024 (https://arxiv.org/html/2606.28867#bib.bib31)) 调查了用于大语言模型(LLM)预训练的网络挖掘语料库所面临的挑战。 与本文最接近的先前工作是数据来源倡议(Data Provenance Initiative)(Longpre 等, 2023 (https://arxiv.org/html/2606.28867#bib.bib22), 2024 (https://arxiv.org/html/2606.28867#bib.bib23))。它审计了用于训练 LLM 的 1800 多个文本数据集。许可遗漏率超过 70%;错误率超过 50%。数据来源倡议在通用目的的 LLM 层面运作。它不专注于非洲语言。它未构建许可兼容性矩阵。它也未解决本文记录的那些失败模式。Mahari 和 Longpre (2024 (https://arxiv.org/html/2606.28867#bib.bib24)) 将这条工作线扩展到法律分析,认为来源文档化会影响微调数据的合理使用主张。 #### 对 AI 训练数据的法律分析。 Henderson 等 (2023 (https://arxiv.org/html/2606.28867#bib.bib16)) 分析了应用于基础模型训练的四个美国合理使用因素,得出结论认为合理使用是合理的但并非保证。Lee 等 (2023 (https://arxiv.org/html/2606.28867#bib.bib21)) 绘制了贯穿整个生成式 AI 供应链的版权问题地图。Jernite 等 (2022 (https://arxiv.org/html/2606.28867#bib.bib17)) 提出了一个多利益相关方的数据治理框架,解决了数据旅程每个阶段的许可问题。这些工作均未将此框架应用于低资源非洲语言。 #### 非洲 NLP 数据许可。 Nekoto 等 (2020 (https://arxiv.org/html/2606.28867#bib.bib25)) 是开创性的 Masakhane 论文。这是首部明确处理数据所有权和许可治理的非洲 NLP 工作。它将 JW300 许可问题带到了社区关注的中心,并推动了随后的 CIPIT 法律审计(知识产权与信息技术法中心 (2020), CIPIT (https://arxiv.org/html/2606.28867#bib.bib7))。Adelani 等 (2021 (https://arxiv.org/html/2606.28867#bib.bib1), 2022 (https://arxiv.org/html/2606.28867#bib.bib2)) 记录了 MasakhaNER 发布的许可决策。Okerie 和 Marivate (2024 (https://arxiv.org/html/2606.28867#bib.bib28)) 调查了非洲 NLP 社区关于版权障碍的情况。它发现 JW300 的退出给那些没有替代来源的项目带来了下游干扰。Omino (2025 (https://arxiv.org/html/2606.28867#bib.bib30)) 提出了 Nwulite Obodo 开放数据许可证(NOODL),这是一个专为非洲语言数据集设计的分层社区许可证。 Tiedemann (2020 (https://arxiv.org/html/2606.28867#bib.bib36)) 展示了 Tatoeba 对于低资源 MT 基准测试的价值;本文重点关注其非洲语言子集以及管理哪些来源可以合法组合的许可约束。第 4 节 (https://arxiv.org/html/2606.28867#S4) 中的兼容性矩阵是该综合的实际输出。 ## 3. 许可分类 我为非洲 NLP 文本语料库定义了六个许可层级,按限制程度从低到高排序。为非专业读者说明:NC(非商业性)意味着该资源不得用于许可证定义的创收目的;什么构成商业使用是取决于上下文和司法管辖区的,但通过付费服务或商业 API 发布标注数据集显然是明确案例。ND(禁止演绎)意味着许可证禁止*分享*修改、改编、分词或以其他方式派生的版本;私人使用在适用法律下可能仍被允许(例如,合理使用、文本与数据挖掘例外),但根据许可条款,任何源自 ND 源的已发布标注数据集都无法合法分发。 表格 1:许可层级分类。T4a 和 T4b 被分开是因为它们的限制运作方式不同,并且与 T3 互不兼容。 关键的实际区别在于 T3(相同方式共享会传播,但允许演绎)和 T4b(完全不允许演绎)。许多从业者混淆了这两者,将所有非 T2 来源视为仅需要更严格的输出许可。这是不正确的:无论选择何种输出许可,T4b 来源都不能合法地纳入任何已发布的标注数据集。 ## 4. 许可兼容性矩阵 表格 2 (https://arxiv.org/html/2606.28867#S4.T2) 显示了当组合两个语料库来源时,法律上有效的输出许可。“×\\times” 表示不兼容的组合:不存在能同时满足两个来源要求的单一许可。 表格 2:许可兼容性矩阵。单元格显示当行来源和列来源组合时所需的输出许可。×\\times = 不兼容组合;不存在有效的输出许可。T1+ = 接受任何许可。T4b 和 T5 与所有其他层级不兼容。 关于独立于许可层级的来源质量说明:兼容性矩阵捕捉输出许可要求,而非收集过程的可信度。两个数据集都可以带有 CC0 标签,但其来源状况可能大相径庭。ParaCrawl(Bañón 等, 2020 (https://arxiv.org/html/2606.28867#bib.bib4))是一个网络规模的平行语料库,由欧盟连接欧洲基金(Connecting Europe Facility)共同资助,爱丁堡大学是牵头机构,带有 CC0 许可。重要的是,ParaCrawl 明确声明其不拥有底层文本的所有权;CC0 仅适用于打包和数据库权利。其机构背景提供了非正式网络爬取所不具备的一定程度的问责制。JW300 也以开放获取的形式呈现,但却是违反平台服务条款构建的。仅凭许可层级不足以区分这两种情况;来源状况可以。 ### 4.1. 数据集许可与再分发权利 几个广泛使用的语料库是网络挖掘而来的,这意味着数据集许可反映的是打包或数据库权利,而非底层文本中的权利(Perełkiewicz 和 Poświata, 2024 (https://arxiv.org/html/2606.28867#bib.bib31))。CCMatrix(Schwenk 等, 2021 (https://arxiv.org/html/2606.28867#bib.bib34))是从 Common Crawl 快照中挖掘的,在 OPUS 或其论文中未声明文本许可。NLLB 挖掘的双语文本(NLLB 团队等, 2022 (https://arxiv.org/html/2606.28867#bib.bib26))使用 Common Crawl WET 文件作为主要来源;NLLB 双语文本上的许可 ODC-BY 管辖的是数据库权利,而非底层文本中的权利。WURA(Oladipo 等, 2023 (https://arxiv.org/html/2606.28867#bib.bib29))是通过审计 mC4(其本身源自 Common Crawl)以及额外的定向爬取而构建的。对于这些语料库,数据集级别的许可并不能清理底层文本使其可用于再分发或重新授权。 一个使用场景的区别在实际中至关重要。对源自 mC4 的文本进行*模型*训练,根据司法管辖区的不同,可能在美国合理使用或欧盟文本与数据挖掘(TDM)例外情况下是可辩护的。发布源自相同文本的*标注数据集*则是对版权内容的再分发。数据集的 Apache 2.0 或 CC 打包标签并不能改变这一点:它覆盖的是打包,而非文本。这种区别在兼容性矩阵中不可见。对于非洲 NLP 社区的主要产出(已发布的标注数据集),再分发风险适用于所有源自 mC4 的来源,无论其声明的许可如何。权利已清理的来源(UDHR、TICO-19、FLEURS、SMOL、原始语音录音)完全避免了这种风险。那些使用 WURA 或 Leipzig 作为已发布 NER 或词性标注(POS)数据集标注种子的从业者,是在版权持有人从未授予的许可下再分发受版权保护的网络文本。 来源质量的一个有用指标是机构背景。由欧盟资助、有具名大学牵头、具有公共伦理披露的语料库以及有具名研究者的数据集,往往比匿名上传具有更强的问责制。这是风险较低的指标,而非保证。没有任何机构标签可以替代对实际收集方法的验证。 对于非洲语言,ParaCrawl 的额外版本包括英语–斯瓦希里语(132,517 对句子,CC0)和英语–索马里语(14,879 对句子,CC0)。 来自该矩阵的三个结果对非洲 NLP 具有实际影响: (1) T3×\\timesT4a = 不兼容。维基百科(CC-BY-SA, T3)和 27Group Feriji Zarma 语料库(CC-BY-NC, T4a)不能合并在一个已发布的数据集中。将维基百科句子与 Feriji 句子一起标注并发布结果的从业者,创建了一个法律上无效的数据集。维基百科的相同方式共享要求要求 CC-BY-SA 输出。Feriji 的非商业性限制要求 CC-BY-NC 输出。没有单一许可能满足两者。 (2) T4b×\\times任何情况 = 被阻止。任何带有禁止演绎(NoDerivs)条款的语料库(包括 Tanzil)都不能合法地用于创建已发布的标注数据集。标注本身是衍生作品。这不是输出许可的问题;根据许可条款,分发衍生标注数据集是不允许的,无论适用于私人使用的特定司法管辖区例外情况如何。 (3) T3 向上传播;T4a 同理。一个 T2 来源与一个 T3 来源组合产生 T3 输出。一个 T2 或 T3 源与一个 T4a 源组合产生 T4a 输出(继承非商业性限制)。使用维基百科作为标注种子的从业者必须在 CC-BY-SA 4.0 下发布。MasakhaNER 2.0(Adelani 等, 2022 (https://arxiv.org/html/2606.28867#bib.bib2))在其标注流程中使用维基百科文本。注意 MasakhaNER 的 HuggingFace 数据集卡列出了 CC BY-
相似文章
非洲语言税:量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚
本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚,发现推理成本和延迟最高可达8.9倍,有效上下文窗口仅为英语的11%,突显了子词词汇表中编码的结构性数字鸿沟。
大语言模型在低资源语言人文学科研究中的机遇与挑战
本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。
从单语到多语:评估Mamba在南非语言中的ASR性能
本文评估了Mamba状态空间模型在七种南非语言上的ASR性能,发现其在资源更少的情况下达到了与Conformer相当的准确率,并探讨了多语训练策略和低资源场景。
大型语言模型能否可靠地纠正低资源ASR中的错误?一项关于西弗里斯兰语的污染感知案例研究
本文研究了基于LLM的生成式错误修正(GER)在低资源西弗里斯兰语ASR中的应用,采用污染感知评估方法,使用私有数据集表明GPT-5.1将错误降低至低于oracle水平。
豪萨语和丰贝语文本与语音资源综述:可用性、质量及NLP发展的差距
本综述对两种西非语言——豪萨语和丰贝语的公开文本与语音资源进行了编目,评估了其在NLP开发中的可用性、质量和差距,并提供了针对特定任务的建议。