通过结构化内联引用生成实现显式证据溯源

arXiv cs.CL 论文

摘要

本文介绍了 FullCite,一个用于生成结构化内联引用的框架,该框架能将每个声明同时链接到其源文档和具体的证据跨度。在三个问答基准(ASQA、BioASQ、ExpertQA)上评估后发现,虽然 LLM 在文档级归因方面表现良好,但在精确的证据跨度识别上仍有困难。

arXiv:2606.07130v1 Announce Type: new 摘要:随着 AI 系统被更广泛地采用,对事实性和忠实性生成的需求日益增长。因此,通过引用正确归因信息变得至关重要。本文介绍了 FullCite 框架,与大多数先前工作不同,该框架生成结构化内联引用,将每个声明同时链接到其源文档和支持证据。FullCite 提出了三种内联引用生成策略:基于提示的生成、在引用语法上的约束解码,以及事后跨度对齐。使用三个问答基准(ASQA、BioASQ 和 ExpertQA),我们从三个维度评估引用质量和忠实性:文档级正确性、证据跨度识别以及声明-引用忠实性。我们的评估表明,虽然 LLM 在识别相关文档方面通常有效,但在识别文档内精确的支持跨度方面仍有困难。这一差距表明,实现忠实归因的问答将需要研究更加重视精确的证据跨度识别。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:22

# 通过结构化内联引文生成实现显式证据溯源

来源:https://arxiv.org/html/2606.07130

Anar Yeginbergen¹  Amelie Wührl²  Anna Rogers²  Rodrigo Agerri¹  
¹巴斯克大学 (UPV/EHU)  ²哥本哈根信息技术大学

###### 摘要

随着AI系统被更广泛地采用,对事实性和忠实性生成的需求日益增长。因此,通过引文恰当地归因信息变得至关重要。本文介绍了FullCite,一个与大多数先前工作不同、能够生成结构化内联引文的框架,将每条声明链接到其源文档和支撑证据。FullCite提出了三种内联引文生成策略:基于提示的生成、基于引文语法的约束解码、以及事后跨度对齐。使用三个问答基准(ASQA、BioASQ和ExpertQA),我们从文档级别正确性、证据跨度识别和声明-引文忠实性三个维度评估引文质量和忠实性。我们的评估表明,尽管LLM通常能有效识别相关文档,但它们在识别文档内的精确支撑跨度方面存在困难。这一差距表明,实现忠实的归因QA需要研究更加注重精确的证据跨度识别。

## 1 引言

鉴于ChatGPT等AI系统在日常生活中的广泛采用,大语言模型(LLM)正日益成为传统搜索引擎的替代品,提供直接答案而非相关来源的排名列表[Nakano等人 (2021)](https://arxiv.org/html/2606.07130#bib.bib21);[Shi等人 (2025)](https://arxiv.org/html/2606.07130#bib.bib25)。特别是在高风险领域(医学、科学、法律等),用户和从业者都需要验证生成的陈述是否基于可信证据,而不仅仅依赖LLM的参数化知识[Schreieder等人 (2025)](https://arxiv.org/html/2606.07130#bib.bib31)。

![图1:FullCite结构化内联生成概览](https://arxiv.org/html/2606.07130#S1.F1)

我们相信,同时结合文档级别和细粒度证据级别引文,可以更可靠、更透明地进行文本归因。基于此,我们引入了**FullCite**,一个面向长上下文问答(QA)同时生成文档级别和证据级别引文的框架。FullCite的概览如图1所示。

| 数据集 | 领域 | 问题类型 | 问题数量 | 文档数量(平均) |
|--------|------|----------|----------|----------------|
| BioASQ | 生物医学 | 是否/事实/摘要/列表 | 177/175/156/170 | 5.0 |
| ASQA   | 通用   | 事实     | 580      | 1.61 |
| ExpertQA | 32个领域 | 是否/事实/摘要/列表 | 259/702/314/244 | 3.25 |

表1:三个数据集的数据分布:BioASQ、ASQA和ExpertQA。问题数量按数据集中的问题类型显示。文档数量(平均)显示用于引文生成的上下文文档的平均数量。每种问题类型的示例见附录E。

在FullCite中,我们分析了长上下文场景下数据归因的不同策略,使用了三个QA基准:BioASQ [Tsatsaronis等人 (2015)](https://arxiv.org/html/2606.07130#bib.bib7); [Krithara等人 (2023)](https://arxiv.org/html/2606.07130#bib.bib1)、ExpertQA [Malaviya等人 (2023)](https://arxiv.org/html/2606.07130#bib.bib11)和ASQA [Stelmakh等人 (2022)](https://arxiv.org/html/2606.07130#bib.bib10)。事实上,我们表明,联合引用文档和支撑证据跨度比单独依赖文档引用或证据片段能实现更透明、更忠实的溯源。主要贡献如下:(C1)我们的结果表明,LLM在文档级别引文方面表现更好,但仍难一致地识别正确的支撑证据。(C2)对于基于跨度的证据识别,FullCite提供了三种不同的引文策略:基于提示的生成、通过有限状态自动机基于引文语法进行约束解码、以及事后证据跨度对齐,并表明事后策略通过将ASQA的片段F1从12.80提升到61.87,在正确证据识别方面取得了最大收益。(C3)我们发现了破坏证据溯源过程的两种系统性模式:(i)文档选择中的强烈首因偏差,即BioASQ中81.8%的引文仅针对五个上下文文档中的前两个,与中间丢失现象一致 [Liu等人 (2024)](https://arxiv.org/html/2606.07130#bib.bib45),以及(ii)对二元是否问句的引文遗漏,这虚高了基线分数,一旦强制执行归因,该现象即消失。FullCite的关键优势在于其联合覆盖:它是唯一同时优化文档级别和证据跨度归因,同时保持具有竞争力的语义相似度分数的框架,使其成为忠实归因QA中最平衡、最透明的方法。

## 2 相关工作

归因答案生成是一个已确立的研究问题 [Nakano等人 (2021)](https://arxiv.org/html/2606.07130#bib.bib21); [Bohnet等人 (2022)](https://arxiv.org/html/2606.07130#bib.bib6),随着LLM在信息访问中的广泛使用而更加突出。检索增强生成(RAG)已成为一种将模型输出锚定在外部检索文档中的方法,使模型能够基于相关上下文信息生成答案 [Lewis等人 (2020)](https://arxiv.org/html/2606.07130#bib.bib32); [Guu等人 (2020)](https://arxiv.org/html/2606.07130#bib.bib33)。RAG通过引入外部知识提升了LLM的性能 [Gao等人 (2023c)](https://arxiv.org/html/2606.07130#bib.bib34)。然而,检索到的文档存在并不能保证模型在生成过程中忠实地使用它们 [Wallat等人 (2024)](https://arxiv.org/html/2606.07130#bib.bib9); [Zhou等人 (2023)](https://arxiv.org/html/2606.07130#bib.bib37)。模型仍可能基于记忆知识生成答案 [Longpre等人 (2021)](https://arxiv.org/html/2606.07130#bib.bib38); [Xu等人 (2024)](https://arxiv.org/html/2606.07130#bib.bib39),错误地将声明归因于不相关的文档,或产生仅部分由检索证据支持的输出。

![图2:不同设置和数据集下引文的总体质量比较](https://arxiv.org/html/2606.07130#S2.F2)

为解决这一问题,先前工作探索了显式引文生成,即提示LLM引用用于回答问题的来源 [Menick等人 (2022)](https://arxiv.org/html/2606.07130#bib.bib40); [Nakano等人 (2021)](https://arxiv.org/html/2606.07130#bib.bib21); [Bohnet等人 (2022)](https://arxiv.org/html/2606.07130#bib.bib6); [Gao等人 (2023b)](https://arxiv.org/html/2606.07130#bib.bib8)。然而,文档级别引文仅提供粗粒度归因。被引用的文档可能包含相关信息,但缺乏支撑证据 [Huang等人 (2024)](https://arxiv.org/html/2606.07130#bib.bib41); [Cao and Wang (2024)](https://arxiv.org/html/2606.07130#bib.bib42)。为解决此问题,已有细粒度引文方法被提出,它们引用源文档中的特定证据跨度而非整篇文档 [Huang and Chang (2024)](https://arxiv.org/html/2606.07130#bib.bib26); [Cao and Wang (2024)](https://arxiv.org/html/2606.07130#bib.bib42); [Xu等人 (2025)](https://arxiv.org/html/2606.07130#bib.bib43)。现有方法通常遵循三种策略之一:(i)通过提示直接生成源于模型参数化知识的引文 [Sun等人 (2023)](https://arxiv.org/html/2606.07130#bib.bib44); [Huang and Chang (2024)](https://arxiv.org/html/2606.07130#bib.bib26),(ii)检索文档并使答案生成基于检索到的上下文 [Lewis等人 (2020)](https://arxiv.org/html/2606.07130#bib.bib32); [Bohnet等人 (2022)](https://arxiv.org/html/2606.07130#bib.bib6); [Gao等人 (2023b)](https://arxiv.org/html/2606.07130#bib.bib8),或(iii)先生成答案,再检索支撑证据 [Gao等人 (2023a)](https://arxiv.org/html/2606.07130#bib.bib22); [Schreieder等人 (2025)](https://arxiv.org/html/2606.07130#bib.bib31)。

## 3 数据

为评估跨领域和问题类型的内联引文生成,我们在三个著名的数据集上进行实验,这些数据集非常适合内联归因问题,并包含用于回答输入问题的标注黄金文档:BioASQ [Krithara等人 (2023)](https://arxiv.org/html/2606.07130#bib.bib1):一个生物医学问答数据集,除各种细粒度标注外,还包含来自PubMed的黄金文档及正确答案对应的证据位置。ASQA [Stelmakh等人 (2022)](https://arxiv.org/html/2606.07130#bib.bib10):一个事实型长格式模糊问答数据集,配有来自Wikipedia的相关知识段落。ExpertQA [Malaviya等人 (2023)](https://arxiv.org/html/2606.07130#bib.bib11):一个专门为事实性和归因评估任务设计的数据集,涵盖32个不同领域(包括医学),每个问题都有专家标注的知识源。

我们对数据集进行了以下改编。尽管ASQA和ExpertQA是为数据归因设计的,但它们仅提供文档级别标注,标识源文档而未提供细粒度引文所需的精确证据跨度。因此,我们使用GPT-5.4-mini执行了额外的标注步骤,从黄金文档中提取原子证据跨度 [Singh等人 (2025)](https://arxiv.org/html/2606.07130#bib.bib12)。为验证此过程,我们将其应用于同时提供文档和证据级别标注的BioASQ,并将提取的跨度与黄金标注进行比较。结果证实了强对齐,所有指标均达到90%以上的ROUGE-L和chrF++ [Lin, 2004](https://arxiv.org/html/2606.07130#bib.bib15)分数以及85%的F1 token重叠。我们手动审查并精炼了ExpertQA和ASQA中每个问题提取的证据,发现并非所有检索到的文档都适合细粒度引文提取。具体而言,许多文档本质上是信息性或介绍性的,提供有关主题的一般背景而非显式支撑陈述(参见附录D中的示例)。尽管此类文档可能隐含地引导模型走向正确答案,但它们不适合评估模型的显式引文能力。因此,我们仅保留检索上下文直接且明确存在支撑证据的文档,丢弃了ExpertQA中的约500个示例和ASQA中的约350个示例。表1总结了每个数据集最终版本的统计信息,附录E提供了示例。BioASQ和ExpertQA涵盖四种问题类型:是否、事实、列表和摘要;ASQA仅包含事实型问题。

| 模型 | ASQA |  |  | BioASQ |  |  | ExpertQA |  |  |
|------|------|------|------|--------|------|------|----------|------|------|
|      | Doc-F1 | Snippet-F1 | 相似度 | Doc-F1 | Snippet-F1 | 相似度 | Doc-F1 | Snippet-F1 | 相似度 |
| **基于提示** |  |  |  |  |  |  |  |  |  |
| Qwen3-8B | 33.87 | 12.80 | 56.55 | 58.08 | 6.18 | 64.89 | 56.42 | 5.56 | 64.61 |
| Gemma-3-12B-it | 18.16 | 12.42 | 63.56 | 36.57 | 28.84 | 69.43 | 42.15 | 16.01 | 69.16 |
| **事后** |  |  |  |  |  |  |  |  |  |
| 生成-然后-检索 | 93.74 | 75.07 | 42.93 | 47.36 | 16.83 | 57.29 | 82.50 | 32.70 | 42.41 |
| FullCite (Qwen3-8B) | 80.98 | 61.87 | 52.17 | 49.25 | 24.23 | 56.75 | 53.92 | 28.44 | 56.82 |
| FullCite (Gemma-3-12B-it) | 53.17 | 41.80 | 73.46 | 43.37 | 20.90 | 71.89 | 44.18 | 30.13 | 69.02 |
| **约束** |  |  |  |  |  |  |  |  |  |
| ReClaim (Qwen3-8B) | - | 58.22 | 68.07 | - | 43.96 | 68.01 | - | 33.55 | 61.71 |
| ReClaim (Gemma-3-12B-it) | - | 42.16 | 73.85 | - | 10.31 | 78.35 | - | 13.12 | 68.53 |
| FullCite (Qwen3-8B) | 74.59 | 55.11 | 51.60 | 43.37 | 17.35 | 53.53 | 65.80 | 27.23 | 53.54 |
| FullCite (Gemma-3-12B-it) | 39.43 | 29.99 | 72.16 | 38.91 | 20.76 | 76.12 | 56.06 | 27.34 | 67.99 |

表2:ASQA、BioASQ和ExpertQA上三种引文策略的结果:基于提示、事后和约束解码。报告了Doc-F1(文档级别引文准确性)、Snippet-F1(证据跨度识别)和相似度(被引跨度对生成答案的语义忠实性)。加粗表示每个指标和数据集的最佳分数。

## 4 实验设置

我们旨在理解结构化逐字内联引文方法FullCite是否有助于基于RAG的QA实现可靠归因,同时与流行的最先进方法进行比较。为衡量归因质量,我们在文档和片段级别评估引文,并与其他方法进行比较。

### 4.1 FullCite:逐字内联引文生成

FullCite要求答案中的每条声明后跟一个引文,包含(i)源文档的标识符,以及(ii)从所选文档中选取的、支持前述声明的逐字证据跨度,格式为 `{doc_id: , snippet: }`。我们测试了三种结构强制方式不同的变体。

**基于提示的引文生成。** 模型被指示在每条生成的声明后提供来自上下文文档的逐字证据引文。格式遵守和逐字溯源完全依赖模型的指令遵循能力,无需解码时干预或后处理。

**约束引文生成。** 我们在推理时通过逻辑处理器基于引文语法的有限状态自动机强制引文格式。为确保结构和逐字证据跨度,自动机跟踪模型当前是否正在生成声明、文档ID或片段,并在每个状态将下一个token限制为与语法一致以及证据生成时与上下文文档逐字内容一致的token。若在任何状态失败,模型从头开始重试最多三次,每次失败后温度增加0.5。

**带近似的事后引文生成。** 使用约束解码生成归因文本相较于基于提示的引文生成更高效,且保证输出是逐字的并符合精确定义的结构。然而,此设置可能过于严格,若模型未能遵循结构,则生成的输出将被丢弃为无效输出。在分析基线实验和约束解码设置的结果后,我们注意到LLM通常生成接近逐字的片段,但与源文档相差少量token,需要进一步处理。因此,我们引入了第三种引文策略:在推理时生成文本,然后根据生成的文本,尝试近似找到文档中被引用的部分。换句话说,若生成的引文片段未逐字匹配一个或多个单词,系统通过计算与文档文本最相似的片段来尝试重建,前提是文档ID生成正确。我们通过计算词级重叠Jaccard相似度从文档中选择证据 [Niwattanakul等人 (2013)](https://arxiv.org/html/2606.07130#bib.bib16)。我们通过实验发现将相似度分数设为0.7(参见附录A)效果最佳,并在所有设置和模型中使用此值。以下是事后策略具有优势的一个示例:

相似文章