缩小CRAC 2026差距:基于LLM的多语言共指解析的两阶段自适应方法

arXiv cs.CL 论文

摘要

本文提出了一种基于LLM的多语言共指解析的两阶段自适应方法,在CRAC 2026的LLM赛道中以74.32的CoNLL F1分数获得第一名。该方法使用多语言基适配器后接数据集特定适配器对Gemma-3-27b进行微调。

arXiv:2605.16984v1 公告类型:新 摘要:我们提交了2026年计算模型中的指代、回指和共指(CRAC 2026)共享任务LLM赛道的参赛作品。在官方测试集上平均CoNLL F1得分为74.32,我们的系统在LLM赛道排名第一,总排名第三。我们的系统基于Gemma-3-27b模型,采用两阶段策略进行微调:先使用多语言基适配器,再使用数据集特定适配器。我们使用一种受XML启发的格式,通过头部词表示提及跨度,并进行局部重新索引和迭代标注文档。这些设计选择在多种语言、文档长度和标注指南下均被证明有效。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:37

# 缩小差距:CRAC 2026 中基于LLM的多语言共指消解的两阶段适配方法

来源:https://arxiv.org/html/2605.16984

Olga Seminck, Thierry Poibeau  
Lattice(法国国家科学研究中心 UMR 8094 & 巴黎高等师范学院-巴黎文理研究大学 & 新索邦大学),蒙鲁日,法国  
[email protected], [email protected], [email protected]

###### 摘要

我们提交了参加 2026 年计算参考、回指与共指模型(CRAC 2026)共享任务中 LLM 赛道的结果。我们的系统在官方测试集上取得了 74.32 的平均 CoNLL F1 分数,在 LLM 赛道中排名第一,在所有参赛系统中排名第三。我们的系统基于 Gemma-3-27b 模型,采用两阶段微调策略:先训练一个多语言基础适配器,再为每个数据集训练专用适配器。我们使用受 XML 启发的格式来表示指称跨度,以中心词为标识,并采用局部重新索引策略,同时以迭代方式对文档进行标注。这些设计选择在多种语言、文档长度和标注规范下均被证明有效。

---

# 缩小差距:CRAC 2026 中基于LLM的多语言共指消解的两阶段适配方法

Antoine Bourgois, Olga Seminck, Thierry Poibeau  
Lattice(法国国家科学研究中心 UMR 8094 & 巴黎高等师范学院-巴黎文理研究大学 & 新索邦大学),蒙鲁日,法国  
[email protected], [email protected], [email protected]

## 1 引言

共指消解(CR)是一项识别文本跨度(指称)并将其归类到同一真实世界实体的任务,它是自然语言理解的基础组成部分。它支撑着信息抽取(Yao et al., 2019 (https://arxiv.org/html/2605.16984#bib.bib8))、文本摘要(Liu et al., 2021 (https://arxiv.org/html/2605.16984#bib.bib7))和机器翻译(Vu et al., 2024 (https://arxiv.org/html/2605.16984#bib.bib2))等下游任务。除了这些通用的 NLP 应用外,CR 在广泛的专业领域也具有关键意义,包括生物医学文献(Lu and Poesio, 2021 (https://arxiv.org/html/2605.16984#bib.bib5))、临床记录(Tourille et al., 2020 (https://arxiv.org/html/2605.16984#bib.bib4))、政治科学(Radford, 2020 (https://arxiv.org/html/2605.16984#bib.bib3))和计算人文学科(Barré et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib9)),每个领域都有独特的标注惯例和语言挑战。

### 1.1 CR 系统的演进

自动 CR 的演进反映了自然语言处理的整体演进。20 世纪 70 年代和 80 年代的早期系统主要基于规则,依赖手工制作的启发式规则和句法约束来解决代词回指(Winograd, 1972 (https://arxiv.org/html/2605.16984#bib.bib33); Hirst, 1981 (https://arxiv.org/html/2605.16984#bib.bib34))。随着大规模标注数据集的可用(Grishman and Sundheim, 1995 (https://arxiv.org/html/2605.16984#bib.bib35)),该领域转向了数据驱动的机器学习方法。首先是基于统计分类器的指称对模型(Soon et al., 2001 (https://arxiv.org/html/2605.16984#bib.bib36)),然后是指称排序架构(Denis and Baldridge, 2008 (https://arxiv.org/html/2605.16984#bib.bib38)),通常将任务分离为指称检测和聚类的不同阶段。深度神经模型在端到端架构中的引入标志着 CR 的又一步进展(Lee et al., 2017 (https://arxiv.org/html/2605.16984#bib.bib40))。随后,基于 Transformer 的编码器(如 BERT 和 SpanBERT)的集成(Joshi et al., 2019 (https://arxiv.org/html/2605.16984#bib.bib41))在基准数据集上带来了稳步提升(Porada et al., 2024 (https://arxiv.org/html/2605.16984#bib.bib27))。基于 seq2seq 模型(Zhang et al., 2023 (https://arxiv.org/html/2605.16984#bib.bib55))和生成式大语言模型(LLM)的解决方案(Zhu et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib56))已被引入。这些生成式方法显示出潜力,同时也揭示出重大局限性,包括为语言模型形式化 CR 任务的困难以及更高的计算需求(Gan et al., 2024 (https://arxiv.org/html/2605.16984#bib.bib57))。

### 1.2 数据集

长期以来,CR 系统仅在 OntoNotes 等受限数据集上进行训练、评估和优化,这些数据集主要由新闻、广播对话和网络数据组成(Hovy et al., 2006 (https://arxiv.org/html/2605.16984#bib.bib61))。随着 CR 获得更广泛的关注,人们发现基于这些通用数据集训练的模型在应用于特定领域任务时表现不佳(Xia and Van Durme (2021 (https://arxiv.org/html/2605.16984#bib.bib58))。为解决这个问题,专门的数据集被开发出来,涵盖了百科全书(Ghaddar and Langlais, 2016 (https://arxiv.org/html/2605.16984#bib.bib59))或生物医学数据(Cohen et al., 2017 (https://arxiv.org/html/2605.16984#bib.bib63))、文学作品(van Cranenburgh (2019 (https://arxiv.org/html/2605.16984#bib.bib64)); Bamman et al. (2020 (https://arxiv.org/html/2605.16984#bib.bib10)); Mélanie et al. (2024 (https://arxiv.org/html/2605.16984#bib.bib12))或法律文档(Wei et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib6))等领域。除了为新领域开发资源外,创建资源的语言数量也在增长。专业化语料库的激增导致了碎片化的局面:不同数据集的标注方案和指南、文件格式以及评估指标各异,最终使得比较和泛化变得困难。这种情况凸显了对统一基准的需求,以便跨数据集进行一致的评估。

## 2 CorefUD 和 CRAC 共享任务

### 2.1 CorefUD 倡议

CorefUD 倡议旨在将异构的 CR 语料库整合到一个通用框架中(Nedoluzhko et al., 2022 (https://arxiv.org/html/2605.16984#bib.bib66))。它将独立开发的数据集统一为基于通用依存关系(de Marneffe et al., 2021 (https://arxiv.org/html/2605.16984#bib.bib67))的标准化格式,从而实现更可靠的跨领域和跨语言评估。在其最新版本中,CorefUD 1.4 包含 33 个数据集,覆盖 19 种语言和 700 万 tokens(Novák et al., 2026b (https://arxiv.org/html/2605.16984#bib.bib65))。所有数据集均遵循 CoNLL-U 标准格式,具有一致的共指及相关现象编码。该集合涵盖广泛的语言,包括非欧洲语言(如印地语、韩语)和古代语言(如教会斯拉夫语、古希腊语、古希伯来语)。

### 2.2 CRAC 共享任务

CRAC 共享任务基于 CorefUD 的子集,为多语言共指消解提供了一个统一的基准。它旨在标准化评估,并鼓励跨数据集开发稳健的系统。自 2022 年首次举办(Žabokrtský et al., 2022 (https://arxiv.org/html/2605.16984#bib.bib73))以来,该共享任务的范围和难度逐步扩大。2024 年版本引入了零指代消解,并增加了覆盖低资源和历史语言的数据集(Novák et al., 2024 (https://arxiv.org/html/2605.16984#bib.bib68))。2025 年版本在传统的无限制赛道之外,引入了专门的 LLM 赛道,突显了人们对生成式方法日益增长的兴趣(Novák et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib69))。2026 年版本新增了五个数据集,总计 27 个数据集。值得注意的是,其中两个语料库(Dutch-OpenBoek (van Cranenburgh and van Noord, 2022 (https://arxiv.org/html/2605.16984#bib.bib70))和 French-LitBankFr (Mélanie et al., 2024 (https://arxiv.org/html/2605.16984#bib.bib12))包含明显更长的文档,平均长度是 2025 年共享任务中最长文档长度的两倍。

#### 2.2.1 评估指标

系统使用 CoNLL F1 分数进行评估(Pradhan et al., 2012 (https://arxiv.org/html/2605.16984#bib.bib75)),采用基于头部匹配的指称匹配方式,并排除单例。该分数计算为 MUC、B³ 和 CEAFₑ 指标的平均值。最终排名由所有测试集上 CoNLL F1 分数的宏平均决定。

#### 2.2.2 往届结果

在 2025 年版本中,整体表现最好的系统是 CorPipe,它建立在多年的迭代改进和优化基础之上(Straka, 2025 (https://arxiv.org/html/2605.16984#bib.bib71))。它依赖于多语言预训练编码器架构,结合精细的训练策略和集成方法,持续为共享任务设定性能标准。与此同时,LLM 赛道的参与者探索了多种方法,包括微调模型以及小样本或基于提示的系统。在其赛道中,GLaRef-CRAC25 (Seminck et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib72)) 以 62.96 的分数排名第一,但仍显著低于 CorPipe(75.84;Δ = -12.8 分)。这一差距既凸显了当前基于 LLM 的方法在 CR 中的局限性,也表明了其改进潜力,特别是考虑到它们在许多其他 NLP 任务上的强大表现。在此背景下,我们的提交专注于改进基于 LLM 的共指消解。

### 2.3 贡献

我们的主要贡献包括:

- **格式与任务优化**:我们引入了一种极简的 XML 中心词格式,配合自定义清理函数和局部重新索引策略,在实践中被证明是有效的。
- **两阶段适配**:我们提出了一种两阶段微调策略,先训练一个稳健的多语言基础适配器,然后针对每个数据集进行持续的监督微调(SFT),以解决不同语料库之间标注规范的不一致问题。
- **最终模型性能**:我们的最终系统在 LLM 赛道中排名第一,并在多个数据集上取得了与最佳无限制系统相竞争的结果。

## 3 系统开发

我们基于 2025 年最佳提交的逻辑(Seminck et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib72))开发了基于 LLM 的共指消解系统。总体工作流程是迭代式的:模型每次以 N 个句子为一批对文档进行标注,并将部分已标注的文本输入到下一批中。我们使用 Gemma-3-it 系列作为基础模型,该系列表现出强大的多语言性能,并支持长达 128K tokens 的长上下文(Gemma et al., 2025 (https://arxiv.org/html/2605.16984#bib.bib74))。在所有实验和最终提交中,我们使用参数高效微调(PEFT),通过 QLoRA(低秩适应)结合 4 位量化(Dettmers et al., 2023 (https://arxiv.org/html/2605.16984#bib.bib53))。我们系统使用的通用提示模板如下所示:

```
TASK: COREFERENCE ANNOTATION
Annotate mentions and zero anaphora.
Do not modify the input text.
ALLOWED TAGS
- Entities: {OpenTag} {CloseTag}
- Zeros: {ZeroNodeTag}
PREVIOUS CONTEXT {250 annotated tokens}
INPUT TO ANNOTATE {4 unannotated sentences}
ANNOTATED OUTPUT {model output}
```

### 3.1 缩放定律

为加速迭代实验,我们使用较小的 1B 参数模型(而非最终提交所用的 27B 模型)来优化基础配置。根据 Kaplan et al. (2020 (https://arxiv.org/html/2605.16984#bib.bib1)) 关于神经缩放定律的研究,我们假设在此代理模型上观察到的改进将迁移到更大的模型。该假设预计对预处理和后处理步骤、标注格式选择以及针对数据集的持续监督微调(SFT)成立。然而,它不适用于超参数选择(如学习率、批量大小或最佳训练轮数),这些本质上依赖于模型规模。关于迭代式标注配置,Gemma-3-1B-it 模型每次通过最多标注 4 个句子,最大先前上下文为 250 个词。该配置同时用于训练和推理。

### 3.2 基线模型

我们使用 CRAC 组织者提供的 text2text-coref 工具³ 将 CoNLL 格式的数据集转换为带有内联标注的纯文本,并清理模型输出的纯文本,再将其转换回 CoNLL-U 格式。基线模型在所有数据集的拼接上训练一个 epoch。在开发集上,该模型的平均 CoNLL F1 分数为 48.22。不同语料库的结果差异显著:对于某些数据集,分数超过 60 分,而对于其他数据集,系统表现较差(拉丁语数据集低至 4.93 分)。以此基线为起点,我们改进方法并评估所提议修改的影响。

### 3.3 标注格式

表 1:一个虚构的英语示例,包含一个零指称,以说明不同的共指标注格式,从原始文本到显式 XML 和中心词标记。Token 计数(TOK)表示每种格式产生的子词 token 数量。子词使用 Gemma-3 tokenizer 进行分词。

| 格式 | 输入文本 | TOK |
|------|----------|-----|
| 原始 | When Lison visits her sister , ∅ brings flowers. | 10 |
| CRAC | When Lison—[e1] visits her—[e1], [e2 sister—e2], brings##—[e1] flowers. | 29 |
| 显式 XML | When <ent id=COREF_1>Lison</ent> visits <ent id=COREF_2><ent id=COREF_1>her</ent> sister</ent>, brings <zero_ent id=COREF_1> flowers. | 56 |
| 极简 XML | When <ent1>Lison</ent1> visits <ent2><ent1>her</ent1> sister</ent2>, brings <zero1> flowers. | 35 |
| 中心词 XML | When Lison<ent1> visits her<ent1> sister<ent2>, brings<zero1> flowers. | 26 |

- a ∅ 是“brings”的空主语。

改进基于 LLM 的 CR 的第一个方向涉及提供给 LLM 的纯文本格式,更具体地说是内联标注方案。CRAC 共享任务中提供的格式使用紧凑的纯文本编码,其中指称边界和实体标识符通过括号标记嵌入到文本中。虽然这种格式在 token 效率上较高(对于单个 token 的指称仅使用一个标签),但正如 Seminck et al. (2025 (https://arxiv.org/html/2605.16984#bib.bib72)) 所建议的,它可能不是 LLM 最容易解释的格式。我们探索了受标记语言启发的替代标签方案,这些方案很可能在模型的预训练数据中具有良好代表性。它们使用可读的嵌套标签清晰地界定指称边界,显式标记每个跨度的开始和结束(如 `<...>`)。此外,虽然 CRAC 格式在结束标签中重复了共指链标识符(对于多 token 指称),并且由于指称跨度边界不能交叉,我们可以利用“最后打开、最先关闭”的原则,允许我们表示嵌套指称而无需重复共指索引,因为 ID 可以从最近打开的标签中隐式恢复。对于少数不连续的指称,我们仅保留包含指称中心词的片段。

表 1 (https://arxiv.org/html/2605.16984#S3.T1) 说明了我们实验的两种基于 XML 的格式:

1. **显式 XML 标注**:每个指称跨度用完整指定的标签包裹(例如 `<ent id=COREF_1>`...`</ent>`)。这种格式使实体边界和身份明确且结构清晰。对于结束边界,使用通用标签 `</ent>`。零指称通过插入专用标签 `<zero_ent id=COREF_1>`(在句法中心词之后)来标记。
2. **极简 XML**:实体标签被缩短(例如 `<ent1>`、`</ent1>`、`<zero1>`)以减少冗余。这保留了显式 XML 格式的大部分结构清晰性,同时降低了分词开销。

这些设计选择的影响反映在分词成本和下游性能上。如表 1 (https://arxiv.org/html/2605.16984#S3.T1) 所示,

相似文章

基于循环一致性机器翻译的多语言共指消解

arXiv cs.CL

本文提出了一种新的多语言共指消解流水线,利用从英语到低资源语言的循环一致性机器翻译生成训练数据,并通过反向翻译和BERT相似性进行验证。在四种低资源语言上的实验表明,该方法带来了显著的性能提升,使得在没有现有语料库的语言中也能实现准确的共指消解。

CRMA: 一种用于LLM模块化持续微调的谱界主干

arXiv cs.LG

CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。

基于对比 LLM 微调对齐对话附和信号与语境表征

arXiv cs.CL

KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。