ProvenAI：生成答案中的溯源原生证据追踪

arXiv cs.CL 2026/06/26 04:00 论文

摘要

ProvenAI 提出了一种框架，将多跳问答中的透明度分解为三个可独立衡量的层次：答案正确性、引用忠实度和每文档影响力，揭示了一个引用-影响力差距，即被引用的来源可能影响力较弱，而未引用的来源却显著影响输出。

arXiv:2606.26449v1 公告类型：新提交摘要：检索增强系统通常在生成的答案旁附带引用，但引用并不确认相应的来源对输出有实质性的影响。本文介绍了 ProvenAI，一个将多跳问答中的透明度分解为三个可独立衡量层次的框架：答案正确性、针对基准支持证据的引用忠实度，以及在留一资源干预下的每文档影响力。针对 HotpotQA 干扰基准，通过一个包含数据标准化、检索索引、引用感知答案生成、归因审计、基于消融的影响力估计、批量评估和交互式检查的七阶段流程，ProvenAI 评估了来自 509,300 篇文档的标准语料库中的 7,405 个验证样本。该系统达到了 53.53% 的答案准确率和 71.55% 的平均引用忠实度得分，一个工作示例揭示了我们称之为引用-影响力差距的现象：一个干净的引用审计与一个配置文件同时出现，其中被引用的一个来源仅显示出微弱的影响力，而七个未引用的来源明显改变了输出。我们通过一个陈述的忠实性条件，形式化了实现的表面代理与标记级 KL 散度目标之间的关系，将框架植根于因果中介分析和数据库溯源理论，并讨论了这三个测量层次如何与自主科学发现中出现的加密溯源架构相结合。ProvenAI 确立了在基于检索的问答中，有意义的透明度需要跨越检索到的、引用的和行为上有影响力的证据之间的可追踪链接，作为三个独立且分别测量的层次。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:16

# 生成答案中基于来源的追溯性证据链
来源：https://arxiv.org/html/2606.26449
Mohammad Faizan Dalal Alharthi 亚利桑那大学信息科学学院 \{mohammadfaizan, dalharthi\}@arizona\.edu

###### 摘要

检索增强系统通常会在生成答案的同时附上引文，但引文并不能证明相应的来源确实影响了输出。本文介绍ProvenAI框架，它将多跳问答中的透明度分解为三个可独立测量的层次：答案正确性、引文与基准支撑证据的保真度，以及在留一资源干预下的每文档影响力。该系统针对HotpotQA干扰项基准，通过一个七阶段流水线（涵盖数据标准化、检索索引、引文感知的答案生成、归因审计、基于消融的影响力估计、批量评估和交互式检查），评估了从包含509,300段篇章的标准语料库中抽取的7,405个验证示例。系统实现了53.53%的答案准确率和71.55%的平均引文保真度评分，一个具体案例揭示了所谓的“引文-影响力鸿沟”：引文审计看似干净，但其中一篇被引来源仅表现出微弱影响力，而七篇未引用的来源却显著改变了输出。我们通过一个明确的可信条件，将实现的表面代理与词元级KL散度目标之间的关系形式化，将该框架植根于因果中介分析和数据库溯源理论，并讨论三个测量层如何与自主科学发现中新兴的密码学溯源架构相结合。ProvenAI表明，在检索驱动型问答中实现有意义的透明度，需要将检索到的、引用的和行为上具有影响力的证据作为三个独立测量的不同层次，建立可追溯的联系。

预印本。

## 1 引言

检索增强生成已成为一种主流机制，通过推理时提供外部文档来改进语言模型输出的事实依据[21 (https://arxiv.org/html/2606.26449#bib.bib2),18 (https://arxiv.org/html/2606.26449#bib.bib3)]。多跳问答放大了这一挑战：正确答案通常需要跨多个文档连接证据，因此理解不仅检索到了什么，而且每条证据如何影响最终响应就变得至关重要[37 (https://arxiv.org/html/2606.26449#bib.bib1),34 (https://arxiv.org/html/2606.26449#bib.bib8)]。HotpotQA干扰项基准提供了句子级的支撑事实标注，因此成为研究检索到的证据如何在流水线中传播的原则性试验平台。

尽管带有引文的输出前景可期，但一个模型收到十篇检索到的段落却只引用其中两篇时，其余八篇仍可能塑造其输出。引文列表回答了一个狭隘的问题：即模型声称使用了什么，但它既未说明这些来源是否匹配黄金支撑事实，也未说明移除任何特定文档是否会改变响应。最先进的系统在相当一部分时间里引文缺乏支撑，且经常以未反映其实际上下文使用的方式引用来源[22 (https://arxiv.org/html/2606.26449#bib.bib11),17 (https://arxiv.org/html/2606.26449#bib.bib15),28 (https://arxiv.org/html/2606.26449#bib.bib16)]。最近的研究进一步表明，语言模型可能被无关的检索上下文干扰[33 (https://arxiv.org/html/2606.26449#bib.bib24)]，并且可能依赖参数记忆而不是被引段落[23 (https://arxiv.org/html/2606.26449#bib.bib25)]，这使得被引证据与实际有影响力的证据之间的差距在操作上变得重要。在安全和取证应用中，输出级别的审计尤其紧迫，因为这些场景中LLM驱动的流水线越来越多地分析日志和证据，却必须对塑造每个结论的可验证记录负责[7 (https://arxiv.org/html/2606.26449#bib.bib32),2 (https://arxiv.org/html/2606.26449#bib.bib29)]。

ProvenAI正是围绕这一差距构建的。它不是一个更强的问答模型，而是一个用于衡量证据如何在检索驱动的流水线中传播的基础设施。其核心前提是：答案质量、引文忠实度和资源影响力各自捕捉了透明度的一个不同维度，将它们合并为单一分数会丢弃从业者所需的诊断信息。实现的系统遵循一个七阶段工作流：将HotpotQA数据转换为稳定的本地工件，构建密集检索索引，生成步骤产生引文感知的答案，审计步骤对照黄金支撑事实检查引文，留一资源消融实验估计每文档影响力，在完整验证集上聚合指标，并通过Streamlit仪表板结合模型上下文协议[9 (https://arxiv.org/html/2606.26449#bib.bib27)]追踪工件展示结果。

本文的贡献有四个方面。我们提出了将检索驱动型问答透明度分解为三个独立可测量层次的实际方案，并为每个层次提供形式化操作定义。我们报告了一个端到端流水线，在完整的HotpotQA干扰项验证集上进行了评估，每个阶段都有可复现的结构化报告工件。我们展示并刻画了引文-影响力鸿沟，将实现的表面代理与词元级KL散度目标之间的关系形式化，并将该框架与因果中介分析和数据库溯源理论联系起来。最后，我们讨论了三个测量层如何与自主科学发现中相关的密码学溯源架构相结合，在这种场景中审计轨迹必须是执行的不变量，而非事后的注释。

## 2 相关工作

#### 多跳检索与RAG基础.

检索增强生成将参数化语言模型与语料库上的非参数化检索索引配对[21 (https://arxiv.org/html/2606.26449#bib.bib2)]，密集段落检索[20 (https://arxiv.org/html/2606.26449#bib.bib4)]和近似最近邻索引[19 (https://arxiv.org/html/2606.26449#bib.bib5)]是标准实现。多跳基准要求链式证据：HotpotQA[37 (https://arxiv.org/html/2606.26449#bib.bib1)]提供跨两跳问题的句子级支撑事实标注，MuSiQue通过单跳组合扩展了对推理结构的控制[35 (https://arxiv.org/html/2606.26449#bib.bib7)]。综述表明，虽然RAG显著减少了知识密集型任务上的幻觉，但检索错误会以聚合准确率评分难以直接显现的方式传播到生成中[18 (https://arxiv.org/html/2606.26449#bib.bib3),12 (https://arxiv.org/html/2606.26449#bib.bib9)]。Self-RAG训练单一模型自适应地决定何时检索，并通过自我反思词元来批判自己的证据[10 (https://arxiv.org/html/2606.26449#bib.bib10)]，专门的多人RAG评估表明，当需要多个证据跳时，现有密集和稀疏检索方法表现不佳[34 (https://arxiv.org/html/2606.26449#bib.bib8)]。除了单模型流水线，多智能体LLM通信的结构分析表明，推理可靠性取决于证据传播的拓扑结构[26 (https://arxiv.org/html/2606.26449#bib.bib35)]，这强化了一个观点：组件之间流动的内容（而不仅仅是每个组件发出的内容）决定了信任。ProvenAI不训练新的检索器或生成器；它测量围绕一个由固定预训练组件构建的纯推理流水线所能推断出的内容[31 (https://arxiv.org/html/2606.26449#bib.bib6),29 (https://arxiv.org/html/2606.26449#bib.bib26)]。

#### 引文质量与可验证性.

生成流畅的带引文答案的搜索系统仍可能无法将那些引文与相应来源段落联系起来[22 (https://arxiv.org/html/2606.26449#bib.bib11)]。FActScore将长文本生成分解为原子声明，并逐一对照知识源检查[24 (https://arxiv.org/html/2606.26449#bib.bib12)]，RAGAS提供免参考的忠实度和上下文相关性指标[16 (https://arxiv.org/html/2606.26449#bib.bib13)]，AIS框架将可验证的NLG定义为可归因于已识别来源的输出，并采用两阶段标注流水线[30 (https://arxiv.org/html/2606.26449#bib.bib14)]。ALCE形式化了带引文答案的端到端评估，表明即使是强模型也有相当比例的引文缺乏支撑[17 (https://arxiv.org/html/2606.26449#bib.bib15)]，MIRAGE利用模型内部结构（特别是KL散度变化）将答案归因于检索到的段落，其忠实度高于自引提示[28 (https://arxiv.org/html/2606.26449#bib.bib16)]。ProvenAI与这个专注评估的方向一致，但增加了一个正交问题：文档被引用后，将其从上下文中移除是否真的会改变模型的生成？

#### 上下文归因、因果中介与溯源理论.

基于消融的归因在机器学习可解释性中历史悠久，从LIME[32 (https://arxiv.org/html/2606.26449#bib.bib19)]等局部代理模型到干预模型内部组件的因果中介分析[36 (https://arxiv.org/html/2606.26449#bib.bib20)]，并通过do演算形式化[27 (https://arxiv.org/html/2606.26449#bib.bib21)]。ContextCite通过在随机上下文消融上拟合稀疏线性代理来形式化上下文归因，关键发现是移除高分上下文段会导致比移除低分段更大的输出概率下降[15 (https://arxiv.org/html/2606.26449#bib.bib17)]，SelfCite证明上下文消融可以直接作为引文生成模型的自监督奖励[14 (https://arxiv.org/html/2606.26449#bib.bib18)]。ProvenAI在文档级别应用相同的消融直觉，并用于分配分类影响力标签而非微调模型。溯源也被提出作为AI驱动系统中的结构性安全原语，涵盖安全云架构与迁移[6 (https://arxiv.org/html/2606.26449#bib.bib31)]以及基于本体的取证推理[2 (https://arxiv.org/html/2606.26449#bib.bib29)]；ProvenAI继承了这一取向，并将其应用于检索驱动型QA的引文层。证据溯源更广泛的概念深深植根于数据库文献中，形式化框架区分了为什么、在哪里以及如何溯源[11 (https://arxiv.org/html/2606.26449#bib.bib22),13 (https://arxiv.org/html/2606.26449#bib.bib23)]；我们在讨论ProvenAI的测量基础设施如何与密码学强制措施结合时采用了这一分层视角（第7节 (https://arxiv.org/html/2606.26449#S7)）。模型上下文协议标准化了AI应用程序访问外部数据和工具的方式[9 (https://arxiv.org/html/2606.26449#bib.bib27),25 (https://arxiv.org/html/2606.26449#bib.bib28)]；ProvenAI纳入了一个本地MCP层，作为检索时资源访问的可追溯接口，但并未声称MCP本身解决了归因问题。

## 3 问题形式化

令qq表示一个问题，R=\{r1,...,rk\}R=\\\{r\_\{1\},\\dots,r\_\{k\}\\\}为提供给模型的已检索资源集合。生成器产生文本答案aa和引文集合C⊆RC\\subseteq R。数据集提供黄金答案a∗a^\{\*\}和预期的支撑文档标题集合GG。ProvenAI独立评估三个层次。答案正确性询问aa在经过轻量字符串标准化后是否匹配a∗a^\{\*\}。引文保真度询问CC中的标题是否与GG中的支撑标题对齐。资源影响力询问从上下文中移除rir\_\{i\}是否会改变答案或引文模式。

### 3.1 引文保真度

引文保真度在文档标题级别使用词元集Jaccard相似度进行操作。令TCT\_\{C\}表示引用的标题，TGT\_\{G\}表示黄金支撑标题。如果一个引用标题与最近支撑标题的Jaccard相似度达到阈值τ\\tau，则计为匹配：

Pτ\\displaystyle P\_\{\\tau\}=1\|TC\|∑t∈TC1\(maxg∈TG⁡sim\(t,g\)≥τ\),\\displaystyle=\\frac\{1\}\{\|T\_\{C\}\|\}\\sum\_\{t\\in T\_\{C\}\}\\mathbf\{1\}\\\!\\left\(\\max\_\{g\\in T\_\{G\}\}\\mathrm\{sim\}\(t,g\)\\geq\\tau\\right\),\(1\)Rτ\\displaystyle R\_\{\\tau\}=1\|TG\|∑g∈TG1\(maxt∈TC⁡sim\(t,g\)≥τ\),\\displaystyle=\\frac\{1\}\{\|T\_\{G\}\|\}\\sum\_\{g\\in T\_\{G\}\}\\mathbf\{1\}\\\!\\left\(\\max\_\{t\\in T\_\{C\}\}\\mathrm\{sim\}\(t,g\)\\geq\\tau\\right\),\(2\)Fτ\\displaystyle F\_\{\\tau\}=2PτRτPτ\+Rτ\.\\displaystyle=\\frac\{2P\_\{\\tau\}R\_\{\\tau\}\}\{P\_\{\\tau\}\+R\_\{\\tau\}\}\.\(3\)阈值τ\\tau在整个验证集上保持固定（表2 (https://arxiv.org/html/2606.26449#S5.T2)）；我们报告在精确匹配（τ=1\\tau=1）和语义匹配（τ=0\.34\\tau=0\.34）下的结果。

### 3.2 资源影响力：KL目标与表面代理

每文档影响力的概念性目标是全上下文输出分布与移除rir\_\{i\}后输出分布之间的KL散度：

InfluenceKL\(ri\)=DKL\(p\(⋅∣q,R\)∥p\(⋅∣q,R∖\{ri\}\)\)。\\mathrm\{Influence\}\_\{\\mathrm\{KL\}\}\(r\_\{i\}\)=\\operatorname\{D\_\{\\mathrm\{KL\}\}\}\\\!\\big\(p\(\\cdot\\mid q,R\)\\,\\big\\\|\\,p\(\\cdot\\mid q,R\\setminus\\\{r\_\{i\}\\\}\)\\big\)。\(4\)公式4 (https://arxiv.org/html/2606.26449#S3.E4) 是Pearl [27 (https://arxiv.org/html/2606.26449#bib.bib21)] 意义上的do-演算量：留一资源消融是干预do\(R←R∖\{ri\}\)\\mathrm\{do\}\(R\\leftarrow R\\setminus\\\{r\_\{i\}\\\}\)，而InfluenceKL\\mathrm\{Influence\}\_\{\\mathrm\{KL\}\}度量ri对输出分布的自然直接效应[36 (https://arxiv.org/html/2606.26449#bib.bib20)]。由于本工作中使用的局部MLX推理路径不暴露逐词元概率，系统从重新生成的样本中计算一个表面级代理：

Δa\(ri\)\\displaystyle\\Delta a\(r\_\{i\}\)=1−Jaccard⁡\(tok\(a\),tok\(a−i\)\),\\displaystyle=1\-\\operatorname\{Jaccard\}\\\!\\big\(\\mathrm\{tok\}\(a\),\\mathrm\{tok\}\(a\_\{\-i\}\)\\big\),\(5\)Δc\(ri\)\\displaystyle\\Delta c\(r\_\{i\}\)=1−\|C∩C−i\|\|C∪C−i\|,\\displaystyle=1\-\\frac\{\|C\\cap C\_\{\-i\}\|\}\{\|C\\cup C\_\{\-i\}\|\},\(6\)φ\(ri\)\\displaystyle\\phi\(r\_\{i\}\)=0\.8Δa\(ri\)\+0\.2Δc\(ri\),\\displaystyle=0\.8\\,\\Delta a\(r\_\{i\}\)\+0\.2\\,\\Delta c\(r\_\{i\}\),\(7\)其中a−ia\_\{\-i\}和C−iC\_\{\-i\}是移除rir\_\{i\}后重新生成的答案和引文集合。该代理聚合了两个表面信号：已实现答案中的词元级变化以及引文集合之间的Jaccard距离。0\.8/0\.20\.8/0\.2的权重反映了两个信号的相对可靠性；有原则的概率感知估计器[15 (https://arxiv.org/html/2606.26449#bib.bib17),14 (https://arxiv.org/html/2606.26449#bib.bib18)]被推迟到暴露逐词元logits的后端实现。

###### 命题1 (近确定性解码下表面代理的可信性)。

令ptp\_\{t\}和pt′p^\{\\prime\}\_\{t\}分别表示步骤tt时在全上下文和消融上下文下的下一词元分布。

ProvenAI：生成答案中的溯源原生证据追踪

相似文章

CiteVQA: 面向可信文档智能的证据归因基准测试

Provenance: 在人工智能主导的信息环境中的生存工具包

推动内容溯源，构建更安全、更透明的人工智能生态系统

我构建了一个智能体记忆层，每次回答都返回一个“证明树”——它知道什么、何时知道以及为什么

EVE-Agent: 可验证证据的自我进化智能体

提交意见反馈