基于循环一致性机器翻译的多语言共指消解

arXiv cs.CL 2026/06/05 04:00 论文

coreference-resolution multilingual machine-translation cycle-consistency low-resource-languages nlp bert

摘要

本文提出了一种新的多语言共指消解流水线，利用从英语到低资源语言的循环一致性机器翻译生成训练数据，并通过反向翻译和BERT相似性进行验证。在四种低资源语言上的实验表明，该方法带来了显著的性能提升，使得在没有现有语料库的语言中也能实现准确的共指消解。

arXiv:2606.05444v1 公告类型：新摘要：共指消解是一项核心的自然语言处理任务，具有广泛的下游应用，例如机器翻译、问答、文档摘要等。虽然该任务在英语中已得到充分研究，但在其他语言（尤其是低资源语言）中的共指消解受到的关注相对较少。为了弥补这一差距，我们提出了一种新颖的共指消解流水线，利用从英语到目标低资源语言的机器翻译（MT）来生成或扩展训练数据。为了自动验证翻译样本的质量，我们将样本反向翻译，并通过BERT模型潜在空间中的余弦相似度评估与原始英语样本的相似性。由此产生的相似度分数被集成到损失函数中，根据其MT循环一致性对训练样本进行加权。在四种低资源语言上的大量实验表明，我们的流水线在共指消解方面带来了显著的性能提升。此外，我们的流水线使得在没有先前语料库的语言中也能实现准确的共指消解。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:06

# 基于循环一致机器翻译的多语言共指消解  
**来源：** https://arxiv.org/html/2606.05444  

Adriana\-Valentina Costache\*、Eduard Poesina\*、Silviu\-Florin Gheorghe、Paul Irofti、Radu Tudor Ionescu\⋄  
布加勒斯特大学计算机科学系，罗马尼亚  
\*同等贡献。⋄raducu\.ionescu@gmail\.com  

###### 摘要  

共指消解是一项核心自然语言处理任务，具有广泛的下游应用，例如机器翻译、问答系统、文档摘要等。虽然该任务在英语中已得到充分研究，但其他语言（尤其是低资源语言）的共指消解所受关注相对较少。为了弥补这一差距，我们提出了一种新颖的共指消解流程，该流程利用从英语到目标低资源语言的机器翻译来生成或扩展训练数据。为了自动验证翻译样本的质量，我们将样本反向翻译，并通过BERT模型潜在空间中的余弦相似度来评估其与原始英语样本的相似度。最终的相似度分数被整合到损失函数中，根据样本的机器翻译循环一致性来加权训练样本。在四种低资源语言上的大量实验表明，我们的流程在共指消解方面带来了显著的性能提升。此外，我们的流程使得在之前没有可用语料库的语言中也能实现准确的共指消解。  

---

## 1 引言  

共指消解是一项基础的自然语言处理任务，旨在识别文本中所有指向同一实体的表达。解决共指消解问题的早期尝试严重依赖于为英语语言设计的人工规则（Hobbs, 1978；Ng, 2005；Ponzetto and Strube, 2006；Raghunathan 等, 2010）。这类方法受限于难以制定一套完整的无矛盾规则，并且容易受到语言统计特性的影响。Lee 等人（2017）的基础性工作旨在通过创建一种完全可训练的解决方案来解决共指消解问题，无需人工设计的语言规则。作者引入了第一个端到端神经体系，使用双向LSTM生成上下文相关的跨度表示，用于英语中的联合提及检测。深度模型后来受益于更好神经编码器的出现（Joshi 等, 2019），例如 BERT（Devlin 等, 2019）。虽然端到端模型达到了有竞争力的结果（Kirstain 等, 2021；Xu and Choi, 2020），但它们通常具有许多特定任务的超参数，并且难以调优，正如 Zhang 等人（2023）所述。  

最近，研究人员引入了一类新的序列到序列解决方案（Urbizu 等, 2020；Liu 等, 2022；Bohnet 等, 2023；Straka, 2023），旨在生成实体簇的文本表示。值得注意的是，CorPipe（Straka, 2023）赢得了2023年CRAC多语言共指消解共享任务，而CorPipe集成系统在2025年CRAC（无约束组）中排名第一。另一个研究方向是通过提示使用零样本大语言模型。Le and Ritter（2024）发现，尽管提示型大语言模型的零样本性能尚可，但在CoNLL-2012/OntoNotes等基准测试上，它们仍比专门的最新模型低10-20%。CRAC 2025的结果（Novák 等, 2025）也表明，零样本大语言模型远远落后于专门模型，在F1分数上存在约13%的明显差距。这些实证观察强调了用于训练和测试专门共指消解模型的特定任务数据集的实用性。然而，某些语言的共指消解数据集规模小、过时或完全缺失。已有明确努力来改善这种情况，例如CRAC 2025共享任务（Novák 等, 2025）将CorefUD描述为一个包含17种语言22个数据集的调和多语言集合。相比之下，对于低资源语言（如罗马尼亚语），我们未发现任何可用于评估和训练专门模型的共指消解数据集。更糟糕的是，可以合理预期这些语言的零样本性能甚至更低。  

![图1：所提出的共指消解流程概览。](图1标题)  
**图1：** 所提出的共指消解流程概览。使用大语言模型（即Claude Sonnet 4.6，Anthropic, 2026）将带注释的样本从英语翻译成目标语言并回译。通过BERTScore（Zhang 等, 2020）估计回译的循环一致性。最后，共指消解模型（即Maverick，Martinelli 等, 2024）在目标语言上训练，根据每个翻译样本的循环一致性对损失进行加权，其中 \( s^p \) 表示该样本的BERTScore，\( p \) 是控制循环一致性重要性的超参数。最佳彩色查看。  

为此，我们提出了一种新颖的共指消解框架，通过利用现有的英语资源，借助机器翻译为目标低资源语言生成新的训练数据。如图1所示，我们采用回译并评估原始英语样本与回译英语样本之间的重叠，该重叠由预训练BERT模型（Devlin 等, 2019；Zhang 等, 2020）嵌入空间中计算的余弦相似度给出。我们推测翻译数据样本的效用与其循环一致性（即其回译的余弦相似度）成正比。因此，我们将原始英语与回译英语样本之间的余弦相似度整合到损失函数中，根据循环一致性对翻译样本的重要性进行加权。为了验证所提出的框架，我们在四种低资源语言（法语、匈牙利语、罗马尼亚语和俄语）上进行了实验。虽然其中三种语言有公开可用的较小规模共指消解数据集，但罗马尼亚语没有任何共指消解资源。结果表明，我们的循环一致机器翻译增强框架在训练数据集扩展和训练数据集生成两种场景下，均能显著提升四种语言的共指消解性能。  

综上所述，我们的贡献有三点：  
- 我们提出了一种基于机器翻译的新颖共指消解框架，为低资源语言生成新的训练样本，并根据机器翻译循环一致性调节样本重要性。  
- 我们在四种低资源语言上进行了全面实验，表明所提出的框架能够显著提升共指消解性能。  
- 我们手动整理了一个罗马尼亚语共指消解测试集，从而能够评估该低资源语言的共指消解系统。  

## 2 方法  

我们的模型扩展了Maverick（Martinelli 等, 2024），进行了三项修改，使其适用于低资源语言的共指消解。首先，我们将仅英语的编码器 DeBERTa-v3-large（He 等, 2023）替换为 mmBERT-base（Marone 等, 2025），一个在200多种语言上预训练的多语言编码器。这样，单个模型可以跨多种语言使用。其次，我们将训练分为两个阶段：(i) 使用冻结编码器训练提及检测器，(ii) 使用真实提及作为输入微调解码器和共指头，将链接信号与提及检测噪声分离。第三，我们在双线性共指评分器（Lee 等, 2017）中增加了机器翻译循环一致性，提供了独立于编码器表示的区分性信号。  

**通过机器翻译生成数据。** 许多语言缺乏大规模共指消解资源，这促使我们采用基于机器翻译的增强策略。我们使用高性能大语言模型进行机器翻译，即Claude Sonnet 4.6（Anthropic, 2026）。如图1所示，每个源（英语）文档通过Claude Sonnet（Anthropic, 2026）使用零样本提示进行翻译（具体提示在表A.1中给出）。该提示引导模型生成流利的目标语言翻译，同时保留每个英语提及对应的目标语言等价物周围的“⟦k⟧...⟨/k⟩”跨度，从而保持所有簇标识符 \( k \in \{1,2,...,K\} \)，其中 \( K \) 是实体数量。  

**回译质量评分。** 翻译错误会将噪声引入投影后的注释。为了量化每个文档的这种噪声，我们使用回译完成翻译循环：每个目标语言翻译本身被提交给Claude Sonnet 4.6，使用一个对称的提示请求翻译回英语，同时保留所有簇标记。然后将回译的英语文本与原始英语源通过BERTScore（Zhang 等, 2020）进行比较，得到每个文档的质量分数 \( s \in [0,1] \)。我们的直觉是，高保真翻译后跟忠实的回译能够恢复与源文本语义相近的文本，而丢失或错误对齐提及的翻译会产生偏离的回译。  

**每个文档的损失加权。** 我们不是采用硬阈值来丢弃低质量文档（这会丢失可能有用的训练数据），而是将BERTScore直接纳入训练目标。每个文档 \( D \) 贡献以下权重：  
\[
w_D = s_D^{\,p},
\tag{1}
\]  
其中 \( s_D \) 是文档 \( D \) 的源版本与回译版本之间的BERTScore，\( p \geq 0 \) 控制惩罚强度。那么，加权的训练目标变为：  
\[
\mathcal{L}(\theta) = \frac{1}{|\mathcal{D}|} \sum_{D \in \mathcal{D}} w_D \cdot \mathcal{L}_D(\theta),
\tag{2}
\]  
其中 \( \mathcal{D} \) 是翻译文档（原始来自英语）的集合，\( \theta \) 表示共指消解模型的参数，\( \mathcal{L}_D \) 是当前训练阶段的每个文档损失。对于训练阶段 (i)，\( \mathcal{L}_D \) 是提及开始/结束logits上的标准二元交叉熵；对于阶段 (ii)，它是真实先行词上的边际对数似然（Lee 等, 2017）。  

| 语言→<br>方法→ | 英语 | 法语 | | | 匈牙利语 | | | 罗马尼亚语 | | | 俄语 | | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| | 基础 | 基础 | +MT | +\( s^p \) | 基础 | +MT | +\( s^p \) | ZS | +MT | +\( s^p \) | 基础 | +MT | +\( s^p \) |
| MUC | P | 95.0 | 85.2 | 85.5 | 89.3 | 87.3 | 87.5 | 88.9 | 70.1 | 86.2 | 87.8 | 95.5 | 95.6 | 95.9 |
| | R | 95.7 | 82.3 | 83.4 | 88.0 | 88.9 | 89.5 | 90.8 | 66.0 | 84.8 | 86.5 | 95.8 | 96.2 | 96.5 |
| | F1 | 95.4 | 83.7 | 84.4 | 88.6 | 88.1 | 88.5 | 89.8 | 68.0 | 85.5 | 87.1 | 91.7 | 92.0 | 92.4 |
| B3 | P | 88.1 | 80.8 | 80.2 | 85.6 | 84.2 | 84.2 | 85.4 | 65.8 | 81.5 | 83.2 | 92.1 | 92.0 | 92.3 |
| | R | 91.7 | 79.0 | 80.6 | 85.4 | 89.3 | 90.2 | 91.2 | 62.4 | 80.9 | 82.4 | 93.5 | 94.0 | 94.3 |
| | F1 | 89.9 | 79.9 | 80.7 | 85.5 | 86.7 | 87.1 | 88.2 | 64.1 | 81.2 | 82.8 | 92.8 | 92.9 | 93.3 |
| CEAF-\( \phi_4 \) | P | 92.7 | 78.1 | 78.6 | 83.7 | 87.8 | 88.2 | 89.1 | 62.8 | 80.1 | 81.9 | 92.6 | 92.8 | 93.1 |
| | R | 86.2 | 73.2 | 73.5 | 79.0 | 80.1 | 80.7 | 82.0 | 57.9 | 75.4 | 71.1 | 90.8 | 91.1 | 91.6 |
| | F1 | 89.4 | 75.6 | 76.0 | 81.3 | 83.8 | 84.2 | 85.4 | 60.2 | 77.7 | 79.4 | 91.7 | 92.0 | 92.4 |
| CoNLL F1 | | 91.6 | 79.7 | 80.4 | 85.1 | 86.2 | 86.5 | 87.8 | 64.1 | 81.5 | 83.1 | 93.4 | 93.6 | 94.0 |

**表1：** 四种目标语言（法语、匈牙利语、罗马尼亚语、俄语）上的共指消解结果，使用官方CoNLL-2012评分器。每种语言的最佳分数以**粗体**标出。图例：**基础** – 在原始目标语言数据上训练的Maverick；**ZS** – 零样本大语言模型（当没有原始训练数据可用时）；**+MT** – 使用翻译示例训练的Maverick；**+\( s^p \)** – 使用翻译示例和循环一致损失加权训练的Maverick。作为参考，我们报告了英语上使用**基础**模型的结果。  

## 3 实验  

**数据集。** 对于法语，我们使用ANCOR语料库（Muzerelle 等, 2014），其中包含530份从采访、对话和口头调查中采集的自发法语口语转录文本。对于匈牙利语，我们使用SzegedKoref（Vincze 等, 2018），一个包含320篇短评论文和新闻文档的数据集，标注了名词性共指。对于俄语，我们使用RuCor（Toldova 等, 2014），一个由180篇文本组成的语料库，涵盖新闻、科学文章、博客文章和小说。对于法语、匈牙利语和俄语，由于本地标注数据规模小或领域受限，我们通过大语言模型翻译的OntoNotes 5.0文档来补充语言内训练数据，以扩大数据量和领域多样性。对于通过机器翻译进行数据增强，我们选择OntoNotes 5.0（Weischedel 等, 2013；Pradhan 等, 2012）作为源英语语料库，因为它涵盖广泛的文体类型：新闻专线、广播新闻、广播对话、杂志、网络文本、电话语音和圣经文本。对于罗马尼亚语，不存在公开可用的共指消解数据集。因此，我们完全从OntoNotes 5.0（Weischedel 等, 2013；Pradhan 等, 2012）的英语文档构建了一个罗马尼亚语数据集。这些文档由Claude Sonnet 4.6翻译，并被指示保留注释。此外，相应的罗马尼亚语测试集由一位母语为罗马尼亚语的人士手动验证和纠正，以确保翻译、提及边界和共指链接正确。  

**评估指标。** 遵循Martinelli等人（2024），我们采用三种评估指标：MUC（Vilain 等, 1995）、B3（Bagga and Baldwin, 1998）和CEAF-\( \phi_4 \)（Luo, 2005）。对于每个指标，我们报告精确率（P）、召回率（R）和F1分数。我们还报告CoNLL F1分数，定义为M

基于循环一致性机器翻译的多语言共指消解

相似文章

缩小CRAC 2026差距：基于LLM的多语言共指解析的两阶段自适应方法

跨语言共识：通过多语言自一致性对齐多语言文化知识

LLMBridge：面向英语端到端指称桥接解析的LLM流水线

提升科学论述：科学领域的机器翻译

推理语法：合成的语言学推理轨迹能否提升低资源机器翻译？

提交意见反馈