AfriSUD: 用于评估模型的非洲语言依存树库集合
摘要
AfriSUD是一个新的非洲语言依存树库集合,遵循表层句法通用依存(SUD)框架,旨在评估NLP模型在Naija、Wolof和Yorùbá等语言上的表现。
arXiv:2606.12708v1 Announce Type: new
摘要:尽管非洲语言具有语言多样性和全球重要性,但在支持NLP的研究和资源方面仍然代表性不足。我们旨在通过引入AfriSUD来弥合这一差距,这是首个针对九种不同非洲语言的大规模句法标注树库集合,涵盖了撒哈拉以南非洲的主要语系和区域。利用表层句法通用依存(SUD)框架,我们社区主导的努力提供了高质量、经母语者验证的数据,捕获了诸如黏着和声调等类型学关键特征。我们在AfriSUD上评估了一系列模型,用于词性标注和依存句法分析,包括非Transformer基线、多语言预训练编码器和LLM。我们的结果揭示了显著的句法差距,模型在所有九种语言上仍表现出明显的局限性,表明现有架构可能无法完全捕捉非洲语言句法的结构多样性。
查看缓存全文
缓存时间: 2026/06/12 08:50
# AfriSUD:用于评估非洲语言模型的依存树库集合
来源:https://arxiv.org/html/2606.12708
AfriSUD 的标注遵循表层句法通用依存关系 (SUD) 框架 (Gerdes et al., 2018 (https://arxiv.org/html/2606.12708#bib.bib16)),该框架表示的句法关系贴近表层结构。这对于目标语言(其中助词和其他功能元素通常编码时态、体、语气和一致信息)来说非常有用。标注流程包括词元化、通用词性 (UPOS) 标注、依存中心词标注和依存关系标签,如图 3.1 (https://arxiv.org/html/2606.12708#S3.SS1) 中的沃洛夫语示例所示。我们使用 17 个标准 UPOS 标签 (Petrov et al., 2012 (https://arxiv.org/html/2606.12708#bib.bib24)) 和一个覆盖核心关系(如主语、补足语和修饰语)以及特殊结构(如助动词补足语 `comp:aux`、谓语性补足语 `comp:pred` 和连动结构 `compound:svc`)的 SUD 关系集。附录表 7 (https://arxiv.org/html/2606.12708#A4.T7) 提供了我们标注中使用的完整 POS 标签和依存关系集及其定义。
标注使用 ArboratorGrew (Guibon et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib64)) 进行,对于已存在树库的 Naija、Wolof 和 Yorùbá 等 AfriSUD 语言,我们使用了 ArboratorGrew***https://arborator.grew.fr 中集成的解析器界面,该界面基于 BertForDeprel (Guiller, 2020 (https://arxiv.org/html/2606.12708#bib.bib65)),从现有数据生成初始预标注。预标注由标注员审核并手动修正,其余语言则从头开始标注。在所有语言中,标注均遵循 SUD 约定:助词被视为句法中心词,名词类别信息编码为 UFeats,连动结构标注为 `compound:svc`,必要时未明确指定的关系标记为 `udep`。
### 3.2 质量控制
每种语言由三位母语语言学家进行标注:一位协调员和两位标注员。所有标注员均完成了依存语法、SUD 框架、特定语言指南的培训课程,以及每种语言十句话的试点标注练习。由于依存标注需要关于分词、中心词和关系标签的相互依赖决策,标准的标注员间一致性度量(如 Fleiss's Kappa)无法直接计算或解释。遵循先前非洲语言标注工作的做法 (Dione et al., 2023 (https://arxiv.org/html/2606.12708#bib.bib9)),我们采用基于共识的裁定程序来解决分歧。
语言协调员监督标注工作,并与标注员定期讨论,以解决歧义情况和分歧,确保跨语言标注与 SUD 指南的一致性。裁定后,每个句子获得语言团队一致同意的最终标注。然后我们应用自动验证检查来检测格式错误的依存结构,包括缺少词性或依存关系值、缺少或多个根、根标签/中心词不匹配以及依存图中的循环。标注员和协调员因其工作获得报酬。†††每位标注员获得 750 美元酬劳。
### 3.3 标注挑战
本节分析在将 SUD 形式主义应用于我们的非洲语言时遇到的标注挑战。分析围绕三个主要问题展开:(i) 附着词缀与形态绑定,(ii) 歧义消解,(iii) 语言特有挑战与 SUD 关系。
#### 3.3.1 附着词缀与形态绑定
一个核心困难源于丰富的形态结构,其中语法信息编码在紧密绑定于词干的前缀或附着词缀类成分中。在大多数语言中,粘着现象被反复确认为一个关键问题。数据中出现了两种截然不同的方法论:形态分解(分别考虑词根和附着语素)与单一词元保留。Efik、Yorùbá 和 Kinyarwanda 团队选择将拼写单词切分为句法成分。例如,Efik 是一种粘着语言,反映了语素与意义的——对应关系,这些语素通常按特定的线性顺序排列。例如,动词 `emetem`(“你曾煮了它”)被分解为第二人称代词 `e-`、过去时标记 `me-` 和动词词根 `tem`。同样,在约鲁巴语中,融合的介词结构如 'sílé' 和 'níta' 被还原为其基本形式 'síilé'(在房子里)和 'níìta'(在外面)。
相反,isiXhosa、斯瓦希里语、豪萨语和伊博语则保持了词元的完整性。在 isiXhosa 中,包含主语标记 (`ndi-`, `u-`) 和时态标记 (`ya-`) 的复杂动词被视为单个词元。豪萨语团队将派生名词(如 `ma'aurata`,“已婚夫妇”,源自 `aure`,“结婚”)视为一个整体,而不是拆分出名词化前缀 `ma-`。这一决定符合 SUD 面向表层的方法。在实践中,形态信息通过特征而非句法依存关系来编码,从而在避免过度切分的同时保持了结构一致性。
#### 3.3.2 句法和词汇歧义
歧义是数据集中一个普遍问题,涉及多个层面,包括词汇、形态和句法歧义。
歧义消解的主要策略严重依赖于语境分析和已建立的团队级标注约定。标注员始终倾向于选择语义合理且结构连贯的解释。
例如,在约鲁巴语中,语素 `ní` 是多功能的(系动词、主要动词或连词)。如果 `ní` 跟在主语之后,则被标注为动词;如果它引导一个从句,则被视为从属连词。在 Kinyarwanda 语中,歧义在动词形态中尤为突出,单个形式可能编码多种语法功能。像 `gukora` 这样的词可以是动词(“做”)或名词(“做的行为”),需要检查周围的时态标记以确定正确的词性。在 Efik 语中,歧义出现在涉及修饰语从句、分裂句以及多个嵌入主语和宾语的复杂句子结构中。识别相关模式后,标注通常需要识别每个后续句子中是否存在类似特征并进行相应标注。这里的标注员依靠共享指南来确保整个语料库标注的一致性。
#### 3.3.3 语言特有挑战与 SUD 关系
除了共同挑战外,每种语言都呈现出影响标注过程的独特困难。此外,一些 SUD 关系在跨语言中难以一致应用,尤其是在涉及复杂句法或丰富形态的语境中。
一些问题可以描述如下。在诸如约鲁巴语这样的语言中,中心词(或根)的选择并不总是容易,因为该语言使用多个助词(例如,体标记 `ti` 和 `ǹ`,或将来时标记 `yóò`)。‡‡‡应注意,SUD 基于分布标准,将功能词视为中心词,这与 UD 不同。例如,介词 (ADP) 是介词短语的中心词,助词 (AUX) 是复杂动词形式的中心词,从属连词 (SCONJ) 是从属子句的中心词。标注员之间的约定是建立一个助词层级,并选择在顺序上先于其他助词的那个作为合适的中心词。在像约鲁巴语这样的孤立语中,复数并非通过屈折变化派生,标记 `àwọn` 被添加在名词之前以表示复数。在 SUD 中标注这种句法关系并不直接。标注员决定使用关系 "`compound:prt`",该关系似乎与名词和复数标记之间的句法关系密切相关。此外,未明确指定的 `udep` 关系也出现了问题,该关系同时涵盖 `comp` 和 `mod`,当依存语无法明确归类为论元或修饰语,或无法指定为 `comp` 或 `mod` 时使用。一些语言显示没有显性系动词(如英语的 "to be")的系词结构。例如,在 IsiXhosa 语中,缺少系词结构导致将谓语视为中心词,并将标记视为系词。
总之,虽然 SUD 框架为跨语言标注提供了有用的基准,但其应用于形态丰富且资源匮乏的非洲语言需要仔细调整。常见挑战包括绑定语素的处理、普遍的歧义以及语言现象与形式标注方案之间的结构性错配。应对这些挑战需要结合理论灵活性、经验观察和协作标注实践。标注员必须结合规范化程序和 SUD 指南的语言特定调整。迭代标注和验证周期经常用于优化决策。在某些情况下,标注员明确承认需要稍微偏离标准指南,以更好地反映语言的现实情况。
## 4 实验设置
### 4.1 基线模型
##### Stanza
我们使用 Stanza (Qi et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib46))(一个神经依存解析流水线)作为强大的非 Transformer 基线。我们在可用时使用预训练的 fastText 词嵌入 (Grave et al., 2018 (https://arxiv.org/html/2606.12708#bib.bib67)) 来初始化解析器。对于预训练嵌入未覆盖的 Runyankore (nyn) 和 Efik (efi),我们使用 SALT (Akera et al., 2022 (https://arxiv.org/html/2606.12708#bib.bib53)) 为 `nyn` 训练新嵌入,以及使用 MT560 (Gowda et al., 2021 (https://arxiv.org/html/2606.12708#bib.bib52)) 连同 SIB-200 Ibom (Kalejaiye et al., 2025 (https://arxiv.org/html/2606.12708#bib.bib51)) 为 `efi` 训练新嵌入。
##### 多语言编码器
对于 Transformer 基线,我们微调了一个端到端的双仿射依存解析器 (Dozat and Manning, 2016 (https://arxiv.org/html/2606.12708#bib.bib41)),使用预训练编码器:(1) 通用多语言模型 mBERT (Devlin et al., 2019 (https://arxiv.org/html/2606.12708#bib.bib26)) 和 XLM-RoBERTa Large (Conneau et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib27)),以及 (2) 以非洲为中心的模型 AfriBERTa-large (Ogueji et al., 2021 (https://arxiv.org/html/2606.12708#bib.bib22))、AfroXLMR-large (Alabi et al., 2022 (https://arxiv.org/html/2606.12708#bib.bib29)) 和 AfroXLMR-large-76L (Adelani et al., 2024 (https://arxiv.org/html/2606.12708#bib.bib66))。在实验中,每个树库按 70/10/20 的比例划分为训练集/开发集/测试集。我们报告非标记附着分数 (UAS) 和标记附着分数 (LAS),分别衡量正确中心词分配和正确的中心词加标签预测。所有基于 Transformer 的模型均使用 HuggingFace Transformers (Wolf et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib45)) 进行微调,最大序列长度为 512,批次大小为 16,梯度累积为 2,学习率为 `5×10⁻⁵`,并在单个 NVIDIA A100 GPU 上运行 50 个周期。
### 4.2 LLM 提示
我们评估了广泛使用的 LLM:Gemini-3.1-Pro (Gemini Team, Google DeepMind, 2026 (https://arxiv.org/html/2606.12708#bib.bib68))、GPT-5.2§§§https://developers.openai.com/api/docs/models/gpt-5.2、GPT-4o (Hurst et al., 2024 (https://arxiv.org/html/2606.12708#bib.bib36)) 和 Gemma-3-12B-IT/27B-IT (Team et al., 2025 (https://arxiv.org/html/2606.12708#bib.bib69))。所有模型均通过设置温度 `τ=0` 使用确定性解码进行评估。对于开放权重模型,我们使用贪婪解码并将生成的最大 token 数设置为 2,048。在我们的实验中,任务被制定为结构化生成:给定原始句子文本和预分割的 token(id 和表面形式),模型预测每个 token 的词元、UPOS 标签、句法中心词和依存关系。所有模型和语言使用相同的提示模板以确保公平比较。完整的提示和输出模式见附录 5 (https://arxiv.org/html/2606.12708#A5.F5)。我们进行零样本和少样本提示,其中 `K ∈ {0, 1, 5}` 个示例。少样本示例从每个语言数据 10% 的保留池中采样,该池专门保留用于示例,不参与评估。对于 1-shot 和 5-shot 设置,我们使用种子 13–17 采样五个不同的示例集,并报告多次运行的平均值和标准差。
此外,我们使用 gemma-3-12B 进行了监督微调,训练 5 个周期,学习率为 `1×10⁻⁵`。SFT 数据集通过聚合所有九个 AfriSUD 语言的训练样本获得。每个示例被格式化为提示-补全对,将原始句子映射到其金标准 CoNLL-U/SUD 标注。我们使用固定的随机种子 (42) 为每个训练句子分配一个指令模板。所有使用的指令模板见附录 8 (https://arxiv.org/html/2606.12708#A5.T8)。
### 4.3 跨语言迁移
跨语言迁移取决于几个因素,包括模型选择、迁移策略以及合适的源语言选择。先前关于跨语言依存解析的工作表明,在零样本设置中,源语言的选择很重要,尤其是当源语言和目标语言在类型学上相距甚远时 (Tran and Bisazza, 2019 (https://arxiv.org/html/2606.12708#bib.bib31); Agić, 2017 (https://arxiv.org/html/2606.12708#bib.bib32))。尽管由于资源可用性,英语通常被用作迁移源,但来自跨语言句法迁移的证据表明,从结构上更接近目标语言的源语言通常可以获得更好的迁移效果 (Duong et al., 2015 (https://arxiv.org/html/2606.12708#bib.bib33))。此外,跨语言句法研究表明,迁移性能部分取决于源语言和目标语言之间的关系,包括它们的类型学相似性和更广泛的结构接近度 (Litschko et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib34); Fischer et al., 2019 (https://arxiv.org/html/2606.12708#bib.bib35))。
我们考虑了七种用于跨语言句法迁移的源语言:英语 (eng)、法语 (fra)、南非荷兰语 (afr)、阿拉伯语 (ara)、罗马尼亚语 (ron)、Naija (pcm) 和沃洛夫语 (wol)。这些源语言的选择基于监督式 SUD 树库的可用性和类型学多样性,包括词序变异以及句法中心词与其依存语的相对顺序,这些已知会影响跨语言依存解析 (Scholivet et al., 2019 (https://arxiv.org/html/2606.12708#bib.bib72); Liu et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib71))。对于沃洛夫语和 Naija,我们进一步评估了增强变体,分别记为 `+wtb` 和 `+nsc`。在这些设置中,源语言训练数据补充了来自 SUD 版本¶¶¶https://surfacesyntacticud.org/data/: [email protected] 和 [email protected] 的现有 SUD 树库。将罗马尼亚语包括在内是基于先前工作的结果,该工作表明源语言的选择可以影响性能。
(注:原文在 `su` 处截断,根据上下文,应继续翻译剩余部分,但用户输入到此为止。如果内容继续,请补充。这里我根据已有内容完成翻译。)
(由于用户提供的文本在 "su" 处截断,我假设这是完整的。我已完成至 4.3 节开头。如果还有后续,请提供完整文本。)# AfriSUD:用于评估非洲语言模型的依存树库集合
来源:https://arxiv.org/html/2606.12708
AfriSUD 的标注遵循表层句法通用依存关系 (SUD) 框架 (Gerdes et al., 2018 (https://arxiv.org/html/2606.12708#bib.bib16)),该框架表示的句法关系贴近表层结构。这对于目标语言(其中助词和其他功能元素通常编码时态、体、语气和一致信息)来说非常有用。标注流程包括词元化、通用词性 (UPOS) 标注、依存中心词标注和依存关系标签,如图 3.1 (https://arxiv.org/html/2606.12708#S3.SS1) 中的沃洛夫语示例所示。我们使用 17 个标准 UPOS 标签 (Petrov et al., 2012 (https://arxiv.org/html/2606.12708#bib.bib24)) 和一个覆盖核心关系(如主语、补足语和修饰语)以及特殊结构(如助动词补足语 `comp:aux`、谓语性补足语 `comp:pred` 和连动结构 `compound:svc`)的 SUD 关系集。附录表 7 (https://arxiv.org/html/2606.12708#A4.T7) 提供了我们标注中使用的完整 POS 标签和依存关系集及其定义。
标注使用 ArboratorGrew (Guibon et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib64)) 进行,对于已存在树库的 Naija、Wolof 和 Yorùbá 等 AfriSUD 语言,我们使用了 ArboratorGrew***https://arborator.grew.fr 中集成的解析器界面,该界面基于 BertForDeprel (Guiller, 2020 (https://arxiv.org/html/2606.12708#bib.bib65)),从现有数据生成初始预标注。预标注由标注员审核并手动修正,其余语言则从头开始标注。在所有语言中,标注均遵循 SUD 约定:助词被视为句法中心词,名词类别信息编码为 UFeats,连动结构标注为 `compound:svc`,必要时未明确指定的关系标记为 `udep`。
### 3.2 质量控制
每种语言由三位母语语言学家进行标注:一位协调员和两位标注员。所有标注员均完成了依存语法、SUD 框架、特定语言指南的培训课程,以及每种语言十句话的试点标注练习。由于依存标注需要关于分词、中心词和关系标签的相互依赖决策,标准的标注员间一致性度量(如 Fleiss's Kappa)无法直接计算或解释。遵循先前非洲语言标注工作的做法 (Dione et al., 2023 (https://arxiv.org/html/2606.12708#bib.bib9)),我们采用基于共识的裁定程序来解决分歧。
语言协调员监督标注工作,并与标注员定期讨论,以解决歧义情况和分歧,确保跨语言标注与 SUD 指南的一致性。裁定后,每个句子获得语言团队一致同意的最终标注。然后我们应用自动验证检查来检测格式错误的依存结构,包括缺少词性或依存关系值、缺少或多个根、根标签/中心词不匹配以及依存图中的循环。标注员和协调员因其工作获得报酬。†††每位标注员获得 750 美元酬劳。
### 3.3 标注挑战
本节分析在将 SUD 形式主义应用于我们的非洲语言时遇到的标注挑战。分析围绕三个主要问题展开:(i) 附着词缀与形态绑定,(ii) 歧义消解,(iii) 语言特有挑战与 SUD 关系。
#### 3.3.1 附着词缀与形态绑定
一个核心困难源于丰富的形态结构,其中语法信息编码在紧密绑定于词干的前缀或附着词缀类成分中。在大多数语言中,粘着现象被反复确认为一个关键问题。数据中出现了两种截然不同的方法论:形态分解(分别考虑词根和附着语素)与单一词元保留。Efik、Yorùbá 和 Kinyarwanda 团队选择将拼写单词切分为句法成分。例如,Efik 是一种粘着语言,反映了语素与意义的——对应关系,这些语素通常按特定的线性顺序排列。例如,动词 `emetem`(“你曾煮了它”)被分解为第二人称代词 `e-`、过去时标记 `me-` 和动词词根 `tem`。同样,在约鲁巴语中,融合的介词结构如 'sílé' 和 'níta' 被还原为其基本形式 'síilé'(在房子里)和 'níìta'(在外面)。
相反,isiXhosa、斯瓦希里语、豪萨语和伊博语则保持了词元的完整性。在 isiXhosa 中,包含主语标记 (`ndi-`, `u-`) 和时态标记 (`ya-`) 的复杂动词被视为单个词元。豪萨语团队将派生名词(如 `ma'aurata`,“已婚夫妇”,源自 `aure`,“结婚”)视为一个整体,而不是拆分出名词化前缀 `ma-`。这一决定符合 SUD 面向表层的方法。在实践中,形态信息通过特征而非句法依存关系来编码,从而在避免过度切分的同时保持了结构一致性。
#### 3.3.2 句法和词汇歧义
歧义是数据集中一个普遍问题,涉及多个层面,包括词汇、形态和句法歧义。
歧义消解的主要策略严重依赖于语境分析和已建立的团队级标注约定。标注员始终倾向于选择语义合理且结构连贯的解释。
例如,在约鲁巴语中,语素 `ní` 是多功能的(系动词、主要动词或连词)。如果 `ní` 跟在主语之后,则被标注为动词;如果它引导一个从句,则被视为从属连词。在 Kinyarwanda 语中,歧义在动词形态中尤为突出,单个形式可能编码多种语法功能。像 `gukora` 这样的词可以是动词(“做”)或名词(“做的行为”),需要检查周围的时态标记以确定正确的词性。在 Efik 语中,歧义出现在涉及修饰语从句、分裂句以及多个嵌入主语和宾语的复杂句子结构中。识别相关模式后,标注通常需要识别每个后续句子中是否存在类似特征并进行相应标注。这里的标注员依靠共享指南来确保整个语料库标注的一致性。
#### 3.3.3 语言特有挑战与 SUD 关系
除了共同挑战外,每种语言都呈现出影响标注过程的独特困难。此外,一些 SUD 关系在跨语言中难以一致应用,尤其是在涉及复杂句法或丰富形态的语境中。
一些问题可以描述如下。在诸如约鲁巴语这样的语言中,中心词(或根)的选择并不总是容易,因为该语言使用多个助词(例如,体标记 `ti` 和 `ǹ`,或将来时标记 `yóò`)。‡‡‡应注意,SUD 基于分布标准,将功能词视为中心词,这与 UD 不同。例如,介词 (ADP) 是介词短语的中心词,助词 (AUX) 是复杂动词形式的中心词,从属连词 (SCONJ) 是从属子句的中心词。标注员之间的约定是建立一个助词层级,并选择在顺序上先于其他助词的那个作为合适的中心词。在像约鲁巴语这样的孤立语中,复数并非通过屈折变化派生,标记 `àwọn` 被添加在名词之前以表示复数。在 SUD 中标注这种句法关系并不直接。标注员决定使用关系 "`compound:prt`",该关系似乎与名词和复数标记之间的句法关系密切相关。此外,未明确指定的 `udep` 关系也出现了问题,该关系同时涵盖 `comp` 和 `mod`,当依存语无法明确归类为论元或修饰语,或无法指定为 `comp` 或 `mod` 时使用。一些语言显示没有显性系动词(如英语的 "to be")的系词结构。例如,在 IsiXhosa 语中,缺少系词结构导致将谓语视为中心词,并将标记视为系词。
总之,虽然 SUD 框架为跨语言标注提供了有用的基准,但其应用于形态丰富且资源匮乏的非洲语言需要仔细调整。常见挑战包括绑定语素的处理、普遍的歧义以及语言现象与形式标注方案之间的结构性错配。应对这些挑战需要结合理论灵活性、经验观察和协作标注实践。标注员必须结合规范化程序和 SUD 指南的语言特定调整。迭代标注和验证周期经常用于优化决策。在某些情况下,标注员明确承认需要稍微偏离标准指南,以更好地反映语言的现实情况。
## 4 实验设置
### 4.1 基线模型
##### Stanza
我们使用 Stanza (Qi et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib46))(一个神经依存解析流水线)作为强大的非 Transformer 基线。我们在可用时使用预训练的 fastText 词嵌入 (Grave et al., 2018 (https://arxiv.org/html/2606.12708#bib.bib67)) 来初始化解析器。对于预训练嵌入未覆盖的 Runyankore (nyn) 和 Efik (efi),我们使用 SALT (Akera et al., 2022 (https://arxiv.org/html/2606.12708#bib.bib53)) 为 `nyn` 训练新嵌入,以及使用 MT560 (Gowda et al., 2021 (https://arxiv.org/html/2606.12708#bib.bib52)) 连同 SIB-200 Ibom (Kalejaiye et al., 2025 (https://arxiv.org/html/2606.12708#bib.bib51)) 为 `efi` 训练新嵌入。
##### 多语言编码器
对于 Transformer 基线,我们微调了一个端到端的双仿射依存解析器 (Dozat and Manning, 2016 (https://arxiv.org/html/2606.12708#bib.bib41)),使用预训练编码器:(1) 通用多语言模型 mBERT (Devlin et al., 2019 (https://arxiv.org/html/2606.12708#bib.bib26)) 和 XLM-RoBERTa Large (Conneau et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib27)),以及 (2) 以非洲为中心的模型 AfriBERTa-large (Ogueji et al., 2021 (https://arxiv.org/html/2606.12708#bib.bib22))、AfroXLMR-large (Alabi et al., 2022 (https://arxiv.org/html/2606.12708#bib.bib29)) 和 AfroXLMR-large-76L (Adelani et al., 2024 (https://arxiv.org/html/2606.12708#bib.bib66))。在实验中,每个树库按 70/10/20 的比例划分为训练集/开发集/测试集。我们报告非标记附着分数 (UAS) 和标记附着分数 (LAS),分别衡量正确中心词分配和正确的中心词加标签预测。所有基于 Transformer 的模型均使用 HuggingFace Transformers (Wolf et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib45)) 进行微调,最大序列长度为 512,批次大小为 16,梯度累积为 2,学习率为 `5×10⁻⁵`,并在单个 NVIDIA A100 GPU 上运行 50 个周期。
### 4.2 LLM 提示
我们评估了广泛使用的 LLM:Gemini-3.1-Pro (Gemini Team, Google DeepMind, 2026 (https://arxiv.org/html/2606.12708#bib.bib68))、GPT-5.2§§§https://developers.openai.com/api/docs/models/gpt-5.2、GPT-4o (Hurst et al., 2024 (https://arxiv.org/html/2606.12708#bib.bib36)) 和 Gemma-3-12B-IT/27B-IT (Team et al., 2025 (https://arxiv.org/html/2606.12708#bib.bib69))。所有模型均通过设置温度 `τ=0` 使用确定性解码进行评估。对于开放权重模型,我们使用贪婪解码并将生成的最大 token 数设置为 2,048。在我们的实验中,任务被制定为结构化生成:给定原始句子文本和预分割的 token(id 和表面形式),模型预测每个 token 的词元、UPOS 标签、句法中心词和依存关系。所有模型和语言使用相同的提示模板以确保公平比较。完整的提示和输出模式见附录 5 (https://arxiv.org/html/2606.12708#A5.F5)。我们进行零样本和少样本提示,其中 `K ∈ {0, 1, 5}` 个示例。少样本示例从每个语言数据 10% 的保留池中采样,该池专门保留用于示例,不参与评估。对于 1-shot 和 5-shot 设置,我们使用种子 13–17 采样五个不同的示例集,并报告多次运行的平均值和标准差。
此外,我们使用 gemma-3-12B 进行了监督微调,训练 5 个周期,学习率为 `1×10⁻⁵`。SFT 数据集通过聚合所有九个 AfriSUD 语言的训练样本获得。每个示例被格式化为提示-补全对,将原始句子映射到其金标准 CoNLL-U/SUD 标注。我们使用固定的随机种子 (42) 为每个训练句子分配一个指令模板。所有使用的指令模板见附录 8 (https://arxiv.org/html/2606.12708#A5.T8)。
### 4.3 跨语言迁移
跨语言迁移取决于几个因素,包括模型选择、迁移策略以及合适的源语言选择。先前关于跨语言依存解析的工作表明,在零样本设置中,源语言的选择很重要,尤其是当源语言和目标语言在类型学上相距甚远时 (Tran and Bisazza, 2019 (https://arxiv.org/html/2606.12708#bib.bib31); Agić, 2017 (https://arxiv.org/html/2606.12708#bib.bib32))。尽管由于资源可用性,英语通常被用作迁移源,但来自跨语言句法迁移的证据表明,从结构上更接近目标语言的源语言通常可以获得更好的迁移效果 (Duong et al., 2015 (https://arxiv.org/html/2606.12708#bib.bib33))。此外,跨语言句法研究表明,迁移性能部分取决于源语言和目标语言之间的关系,包括它们的类型学相似性和更广泛的结构接近度 (Litschko et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib34); Fischer et al., 2019 (https://arxiv.org/html/2606.12708#bib.bib35))。
我们考虑了七种用于跨语言句法迁移的源语言:英语 (eng)、法语 (fra)、南非荷兰语 (afr)、阿拉伯语 (ara)、罗马尼亚语 (ron)、Naija (pcm) 和沃洛夫语 (wol)。这些源语言的选择基于监督式 SUD 树库的可用性和类型学多样性,包括词序变异以及句法中心词与其依存语的相对顺序,这些已知会影响跨语言依存解析 (Scholivet et al., 2019 (https://arxiv.org/html/2606.12708#bib.bib72); Liu et al., 2020 (https://arxiv.org/html/2606.12708#bib.bib71))。对于沃洛夫语和 Naija,我们进一步评估了增强变体,分别记为 `+wtb` 和 `+nsc`。在这些设置中,源语言训练数据补充了来自 SUD 版本¶¶¶https://surfacesyntacticud.org/data/: [email protected] 和 [email protected] 的现有 SUD 树库。将罗马尼亚语包括在内是基于先前工作的结果,该工作表明源语言的选择可以影响性能。相似文章
Afrispeech Semantics:评估跨领域和口音的语音语言模型中的音频语义推理
本文介绍了Afrispeech Semantics,这是一个用于评估音频语言模型在语义推理任务上的基准测试,包括跨多种领域和口音的蕴含、一致性、合理性、口音漂移和口音抑制。
非洲语言NLI评估的样本量缩放
本文利用AfriXNLI基准测试,研究标注数据大小对16种非洲语言自然语言推理性能的影响。结果表明,缩放行为对语言敏感且通常非单调,挑战了常见的单调改进假设,并强调了需要为特定语言创建数据集以及更强的多语言策略。
认识UD_Czech-PDTC:通用依赖框架下的大型、体裁丰富的树库
本文介绍了UD_Czech-PDTC,这是通用依赖框架下捷克语的一个大型、体裁多样的树库,源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。
非洲语言税:量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚
本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚,发现推理成本和延迟最高可达8.9倍,有效上下文窗口仅为英语的11%,突显了子词词汇表中编码的结构性数字鸿沟。
豪萨语和丰贝语文本与语音资源综述:可用性、质量及NLP发展的差距
本综述对两种西非语言——豪萨语和丰贝语的公开文本与语音资源进行了编目,评估了其在NLP开发中的可用性、质量和差距,并提供了针对特定任务的建议。