LLMBridge:面向英语端到端指称桥接解析的LLM流水线
摘要
LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。
arXiv:2605.29048v1 公告类型:新
摘要:本文介绍了LLMBridge,一种基于LLM的新系统,用于英语端到端指称桥接解析任务。我们的桥接解析流水线结合了启发式预处理/后处理与LLM的自然语言推理能力。我们在三个用于英语指称桥接解析评估的数据集上评估了我们的桥接解析流水线:ISNotes、BASHI 和 GUMBridge。与先前的桥接解析系统相比,LLMBridge 在所有三个数据集上,在具有挑战性的端到端评估设置以及基础桥接解析评估设置(给定黄金桥接回指)中均超越了之前的最先进(SoTA)系统。我们还对LLMBridge的性能进行了彻底的错误分析,研究了哪些类型的桥接对于基于LLM的系统来说仍然难以识别。通过本文,我们发布了LLMBridge流水线的代码。
查看缓存全文
缓存时间: 2026/05/29 09:15
# 面向端到端指称桥接解析的LLM流水线
来源:https://arxiv.org/html/2605.29048
Amir Zeldes 乔治城大学语言学系 \{lel76, amir\.zeldes\}@georgetown\.edu
###### 摘要
本文介绍LLMBridge——一种基于大语言模型(LLM)的英文端到端指称桥接解析系统。我们的桥接解析流水线将启发式前后处理与LLM的自然语言推理能力相结合。我们在三个用于英文指称桥接评估的数据集(ISNotes、BASHI和GUMBridge)上评估了该流水线。与以往桥接解析系统相比,LLMBridge在三个数据集的**端到端评估设置**以及**基础桥接解析评估设置**(给定金标准桥接照应语)中均超越了此前的最优系统(SoTA)。我们还对LLMBridge的性能进行了深入的错误分析,考察了基于LLM的系统仍难以识别哪些类型的桥接。本文同时发布了LLMBridge流水线的代码。
LLMBridge:面向端到端指称桥接解析的LLM流水线
Lauren Levine 和 Amir Zeldes
乔治城大学语言学系
\{lel76, amir\.zeldes\}@georgetown\.edu
## 1 引言
桥接(Bridging)是一种照应现象,其中新引入实体的所指可以通过其与先前引入实体的关系推断出来。考虑以下句子:
\ex
\. 有一**所房子**。**那扇门**是红色的。¹¹¹桥接照应用粗体表示,其关联先行语加下划线。
在示例1 (https://arxiv.org/html/2605.29048#footnote1)中,我们理解新引入的实体“那扇门”特指前述房子的门,这是由于句子的顺序以及“房子”和“门”这两个实体之间存在的语义部分-整体关系。在这个桥接对中,“那扇门”被称为桥接照应语,“一所房子”是其关联先行语。除了此类部分-整体关系外,产生桥接的关联关系还以多种不同方式呈现,包括相对形容词(a dog→\\rightarrowa larger/different/other dog),以及典型关联(a library→\\rightarrowthe books)。理解此类隐式实体关系对于各种下游NLP任务(如问答、可控自然语言生成和模型输出事实性验证)是必要的。目前尚不清楚LLM系统在多大程度上跟踪此类隐式实体关系。
桥接解析(Bridging resolution)是自动检测自然语言中的桥接照应语并将其解析回各自关联先行语的任务。尽管桥接解析任务未像共指消解等其他照应现象那样受到广泛关注,但近年来由于被纳入共享任务数据集Khoslaet al.\(2021 (https://arxiv.org/html/2605.29048#bib.bib5)\); Yuet al.\(2022 (https://arxiv.org/html/2605.29048#bib.bib6)\)以及独立开发桥接数据集和桥接解析系统的努力而受到更多关注Kobayashi and Ng \(2020 (https://arxiv.org/html/2605.29048#bib.bib11)\)。以往的桥接解析系统包括基于规则的Houet al.\(2014 (https://arxiv.org/html/2605.29048#bib.bib14)\); Roesigeret al.\(2018 (https://arxiv.org/html/2605.29048#bib.bib15)\)、神经网络的Yu and Poesio \(2020 (https://arxiv.org/html/2605.29048#bib.bib16)\); Kobayashiet al.\(2022b (https://arxiv.org/html/2605.29048#bib.bib17)\)以及混合方法Kobayashiet al.\(2022a (https://arxiv.org/html/2605.29048#bib.bib12)\)。然而,尽管有这些尝试,桥接解析仍然是一项极具挑战性的NLP任务。在**端到端评估设置**中,SoTA系统的照应语识别F1分数不超过40%,照应语解析F1分数不超过30%Kobayashiet al.\(2022b (https://arxiv.org/html/2605.29048#bib.bib17),2023 (https://arxiv.org/html/2605.29048#bib.bib13)\)。
先前研究表明,即使对于人工标注者来说,识别桥接实例也是一项非常困难的任务,这主要是由于其高度主观性Levine and Zeldes \(2025 (https://arxiv.org/html/2605.29048#bib.bib7)\)。迄今为止,关于LLM可靠识别桥接现象的能力的探索很少。虽然最近的工作包括在有限评估设置中提供基准/基线的努力Buet al.\(2025 (https://arxiv.org/html/2605.29048#bib.bib9)\); Levine and Zeldes \(2026 (https://arxiv.org/html/2605.29048#bib.bib18)\),但尚未有先例利用LLM执行**端到端设置**下的桥接解析任务。然而,先前将桥接照应解析构建为QA任务的工作Hou \(2020 (https://arxiv.org/html/2605.29048#bib.bib10)\),以及Levine and Zeldes \(2026 (https://arxiv.org/html/2605.29048#bib.bib18)\)中最近的桥接解析基线表明,基于LLM的查询系统有潜力改进以往的桥接解析系统。
在本文中,我们提出了LLMBridge,这是首个基于LLM的端到端桥接解析流水线。我们在三个英文指称桥接数据集(ISNotesMarkertet al.\(2012 (https://arxiv.org/html/2605.29048#bib.bib2)\)、BASHIRösiger \(2018 (https://arxiv.org/html/2605.29048#bib.bib1)\)和GUMBridgeLevine and Zeldes \(2026 (https://arxiv.org/html/2605.29048#bib.bib18)\))上评估了我们的桥接解析流水线,并发现我们的流水线在**端到端**和**基础**桥接解析评估设置中均超越了之前的SoTA系统。我们提供了重现LLMBridge流水线和评估的代码,以及预处理评估数据集的代码。²²²匿名处理此外,我们还提供了对LLMBridge性能的详细错误分析,研究了哪些类型的桥接对基于LLM的系统来说容易/难以识别。
## 2 指称桥接背景
Roesigeret al.\(2018 (https://arxiv.org/html/2605.29048#bib.bib15)\)引入了指称桥接(referential bridging)和词汇桥接(lexical bridging)之间的区别,用以描述英文桥接语料库所用桥接定义的差异。ISNotes、BASHI和GUMBridge均采用基于信息状态的桥接定义,因此完全由指称桥接实例组成。
**指称桥接**指的是桥接的真正照应用例,其中桥接照应语需要一个先行语才能被理解,如示例2 (https://arxiv.org/html/2605.29048#S2):
\ex
\. 她喜欢**那所房子**,因为**窗户**很大。
另一方面,**词汇桥接**指的是实体对之间的词汇语义关系,如部分-整体或集合-成员关系,这些关系可能是照应的,也可能不是,如示例2 (https://arxiv.org/html/2605.29048#S2)中先行语对于理解并非严格必要:
\ex
\. 我上个月去了**美国**。我的第一站是**华盛顿特区**。
请注意,示例中“华盛顿特区”的含义无需回溯“美国”即可恢复,尽管两者之间存在语义上的部分-整体关系。
在本文中,我们专注于指称桥接的桥接解析任务。³³³ARRAU语料库Poesio and Artstein \(2008 (https://arxiv.org/html/2605.29048#bib.bib3)\); Uryupinaet al.\(2019 (https://arxiv.org/html/2605.29048#bib.bib4)\)将通过非身份关系建立实体连贯性的相关提及标注为桥接,而非使用基于信息状态的定义。因此,ARRAU包含指称桥接和词汇桥接的混合,我们未将ARRAU纳入评估数据。表1 (https://arxiv.org/html/2605.29048#S2.T1)显示了以下指称桥接语料库的语料统计:ISNotes、BASHI和GUMBridge。
- \*计数包括间接/桥接(mediated/bridging)和间接/比较(mediated/comparative)实例。
表1:用于评估桥接解析系统的英文指称桥接语料库比较。
## 3 桥接解析
### 3.1 任务定义
桥接解析是自动识别文本中的桥接照应语并将其解析回各自关联先行语的任务。桥接解析任务可分解为以下3个子任务:
#### 照应语识别
给定语篇文本,识别其中出现的桥接照应语。
#### 照应语解析
给定语篇中的桥接照应语,识别使得照应语所指可推断的关联先行语。当此子任务孤立进行时,也可称为**先行语选择**。
#### 子类型分类
给定语篇中的桥接照应语和先行语对,从一组预定义的语义关系(例如部分-整体)中选择桥接的子变体(需假设特定的子类型模式)。
### 3.2 评估设置
桥接解析的评估通常采用以下3种设置,每种设置允许输入数据中包含不同量的金标准提及信息。在**基础桥接解析**⁴⁴⁴该设置此前仅称为“桥接解析”。我们添加“基础”以区别于一般任务名称。中,系统获得金标准提及信息和金标准桥接照应语,任务是将每个桥接照应语解析回其各自的关联先行语(也称为照应语解析/先行语选择)。在**完全桥接解析**中,系统获得金标准提及信息,任务是同时识别桥接照应语并将其解析回语篇中各自的关联先行语。在**端到端桥接解析**中,任务与**完全**设置相同,但系统仅接收原始文本作为输入。
以往的桥接解析工作主要集中在较容易的**基础**和**完全**桥接解析设置上,而对更具挑战性的**端到端设置**关注较少,尽管它是最符合实际的评估设置。因此,在本文中,我们专注于在更实际和更具挑战性的**端到端设置**下,为英文指称桥接资源(ISNotes、BASHI和GUMBridge)提供分数。在此评估设置中,我们报告照应语识别以及照应语解析(照应语-先行语对的联合识别)的P/R/F1。我们还报告了**基础设置**的一个变体下的分数,提供金标准照应语作为输入,但不提供额外的金标准提及信息。在此评估设置中,我们报告准确率(正确识别的先行语数/金标准桥接照应语总数)。在两个评估设置中,我们还额外报告了LLMBridge在GUMBridge语料库上的子类型分类分数。由于GUMBridge允许多重子类型标注,我们报告每个桥接实例精确匹配的准确率以及预测单个子类型标注的P/R/F1。
我们在GUMBridge指定的测试集上进行评估,在ISNotes和BASHI的完整数据集(每个语料库保留5个文档用于提示开发;见附录B (https://arxiv.org/html/2605.29048#A2))上进行评估,因为它们没有测试集划分。虽然我们在两个评估设置中均未提供金标准提及信息,但我们使用了从可用的Stanza共指模型(基于GUM语料库训练⁵⁵⁵gum-nospeakers_roberta-large-loraZeldes \(2017 (https://arxiv.org/html/2605.29048#bib.bib42)\)(用于GUMBridge)和OntoNotes语料库训练⁶⁶⁶ontonotes-singletons_roberta-large-loraWeischedelet al.\(2011 (https://arxiv.org/html/2605.29048#bib.bib43)\)(用于ISNotes和BASHI))获得的预测提及和共指信息,这些模型能预测共指提及和单例提及。
## 4 此前的最优桥接解析系统
随着Transformer模型Devlinet al.\(2019 (https://arxiv.org/html/2605.29048#bib.bib37)\); Vaswaniet al.\(2017 (https://arxiv.org/html/2605.29048#bib.bib38)\)引入后神经方法的兴起,已有多次尝试用神经模型处理桥接解析任务。
Kobayashiet al.\(2022b (https://arxiv.org/html/2605.29048#bib.bib17)\)概述了近期桥接解析系统在更具挑战性的**端到端设置**(以及更常报告的**完全设置**)下在ISNotes和BASHI上的性能。在这些实验中适配和评估的模型包括Roesigeret al.\(2018 (https://arxiv.org/html/2605.29048#bib.bib15)\)、Yu and Poesio \(2020 (https://arxiv.org/html/2605.29048#bib.bib16)\)和Kobayashi and Ng \(2021 (https://arxiv.org/html/2605.29048#bib.bib40)\)。最近,Kobayashiet al.\(2023 (https://arxiv.org/html/2605.29048#bib.bib13)\)提出了PairSpanBERT,这是一个基于SpanBERTJoshiet al.\(2020 (https://arxiv.org/html/2605.29048#bib.bib41)\)的桥接解析预训练模型。通过扩展Kobayashiet al.\(2022b (https://arxiv.org/html/2605.29048#bib.bib17)\)及其他先前系统,利用PairSpanBERT,他们在BASHI和ISNotes上针对**端到端设置**和**完全设置**进行了评估。该系统在**完全设置**下接近SoTA性能,并在**端到端设置**下达到SoTA性能。
采用不同方法,Hou \(2020 (https://arxiv.org/html/2605.29048#bib.bib10)\)提出了一个将桥接解析任务重新构建为基于上下文的问答任务的系统。Hou (https://arxiv.org/html/2605.29048#bib.bib10)的BARQA(桥接照应解析问答)系统设计为输入一段文本和一个关于该文本段中现有桥接照应语的问题,并返回相应的关联先行语。使用这种方法,Hou (https://arxiv.org/html/2605.29048#bib.bib10)报告了在**基础桥接解析设置**下ISNotes和BASHI语料库的SoTA性能。
作为与LLMBridge性能的对比,上述SoTA系统在**端到端设置**下的报告分数见表2 (https://arxiv.org/html/2605.29048#S6.T2),在**基础设置**下的报告分数见表3 (https://arxiv.org/html/2605.29048#S6.T3)。
## 5 LLMBridge流水线
LLMBridge是一个基于LLM的桥接解析流水线。它将启发式前后处理与后端LLM查询相结合,构建了一个稳健的指称桥接解析系统。该流水线处理桥接解析的3个子任务:(1)照应语识别,(2)照应语解析,以及(3)子类型分类。我们的系统提供代码来单独运行子任务(如**基础桥接解析设置**中,为先行语选择和子类型分类任务提供金标准输入),或作为完整的端到端流水线运行(如**端到端设置**中,一个任务的输出用作下一个任务的输入)。
### 5.1 子任务操作化
下面描述我们如何将桥接解析的子任务操作化,以通过LLM查询完成。在提示设计中,我们遵循基于信息状态、指称性的桥接定义,即桥接照应语必须是新引入的实体,并且它必须能够通过与语篇中先前实体的照应性、关联性(非身份)关系推断出来。完整的提示模板包含在附录B (https://arxiv.org/html/2605.29048#A2)中。缓冲区/上下文窗口相似文章
LELA: 一种基于LLM的端到端实体链接框架,支持零样本领域自适应
LELA是一个基于LLM的实体链接框架,将零样本命名实体识别和实体消解整合为端到端的Python库,并在多种场景下验证了其有效性。
缩小CRAC 2026差距:基于LLM的多语言共指解析的两阶段自适应方法
本文提出了一种基于LLM的多语言共指解析的两阶段自适应方法,在CRAC 2026的LLM赛道中以74.32的CoNLL F1分数获得第一名。该方法使用多语言基适配器后接数据集特定适配器对Gemma-3-27b进行微调。
ConlangCrafter:使用多跳LLM流程构造语言
ConlangCrafter是一个多跳LLM流程,通过将构造语言(conlang)创建过程分解为包括音系、形态、句法、词汇生成和翻译在内的模块化阶段,实现构造语言的自动化创建。该系统利用LLMs的元语言推理能力,结合随机性注入和自我完善来生成连贯且类型学多样的构造语言。
STRIDE:面向LLM推理的可学习逐步语言反馈
STRIDE提出了一种训练框架,使用可学习的逐步语言反馈而非标量奖励来提升LLM推理能力,在多种基准测试上取得了最先进的结果。
LLM Wiki v2(16分钟阅读)
本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。