为什么检索增强生成会失败：图视角

arXiv cs.CL 2026/05/15 04:00 论文

摘要

本文探讨了检索增强生成（RAG）系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图，作者发现正确的预测展现出更深的推理路径和更分散的证据流，而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施，以提高RAG的可靠性。

arXiv:2605.14192v1 公告类型: new 摘要：检索增强生成（RAG）已成为一种强大且广泛使用的方法，通过将生成过程基于检索到的证据来改进大型语言模型。然而，RAG系统在许多情况下仍会产生错误答案。为什么RAG在能够访问外部信息的情况下仍然失败，这一点仍未被充分理解。我们提出了一项对检索增强生成的模型内部研究，探讨检索到的证据如何影响答案生成。利用电路追踪，我们构建了归因图，模拟解码过程中信息通过Transformer层的流动。这些图表示了检索到的上下文、中间模型激活和生成令牌之间的交互，提供了一个图级别的电路视角，展示了外部证据如何被整合到模型的推理过程中。在多个问答基准测试中，我们观察到一致的结构性差异：正确的预测展现出更深的推理路径、更分散的证据流和更结构化的局部连接模式，而失败的预测则显示出更浅、更碎片化和过度集中的证据流。基于这些发现，我们开发了一个基于图的错误检测框架，利用归因图的拓扑特征。此外，我们展示了归因图能够实现有针对性的干预。通过加强问题约束的证据基础，我们重塑内部路由，使答案生成始终由问题引导，从而更有效地整合检索信息并减少错误。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:20

# 为什么检索增强生成会失败：图视角
来源：https://arxiv.org/html/2605.14192
（2009年6月5日）

###### 摘要

检索增强生成（RAG）已成为一种强大且广泛使用的方法，通过将生成过程建立在检索到的证据之上来改进大型语言模型。然而，RAG系统在许多情况下仍然会产生错误答案。为什么RAG在能够访问外部信息的情况下仍会失败，这一点仍未被充分理解。我们提出了一种对检索增强生成的模型内部研究，考察检索到的证据如何影响答案生成。利用电路追踪技术，我们构建了归因图，用于建模解码过程中信息在Transformer层之间的流动。这些图表示了检索到的上下文、中间模型激活和生成token之间的交互，提供了外部证据如何被整合到模型推理过程中的图级、电路级视图。在多个问答基准测试中，我们观察到一致的结构性差异：正确预测展现出更深的推理路径、更分散的证据流以及更结构化的局部连接模式，而失败预测则表现出较浅、碎片化且过度集中的证据流。基于这些发现，我们开发了一个利用归因图拓扑特征的基于图的错误检测框架。此外，我们展示了归因图能够实现有针对性的干预。通过强化受问题约束的证据基础，我们重塑内部路由，使答案生成始终受到问题的引导，从而更有效地整合检索到的信息并减少错误。

检索增强生成，归因图，大型语言模型

††版权归属：ACM授权
††期刊年份：2018
††DOI：XXXXXXX.XXXXXXX
††会议：请从权利确认邮件中填写正确的会议标题；2018年6月03–05日；纽约州伍德斯托克
††ISBN：978-1-4503-XXXX-X/2018/06
††CCS：计算方法学 神经网络

## 1. 引言

检索增强生成（RAG）已成为一种核心范式，通过将生成过程建立在外部证据之上来改进大型语言模型（Lewiset al.,2020 (https://arxiv.org/html/2605.14192#bib.bib12); Gaoet al.,2023 (https://arxiv.org/html/2605.14192#bib.bib13); Hanet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib14); Chenet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib47); Zhenget al.,2025 (https://arxiv.org/html/2605.14192#bib.bib48); Suet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib49)）。通过在推理时检索相关文档并将模型条件设置在这些信息上，RAG系统旨在减少错误预测并提高事实可靠性（Ayala and Bechard,2024 (https://arxiv.org/html/2605.14192#bib.bib15); Huet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib16); Niuet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib17); Penget al.,2025 (https://arxiv.org/html/2605.14192#bib.bib50); Asaiet al.,2023 (https://arxiv.org/html/2605.14192#bib.bib53)）。尽管有这些优势，即使检索到的段落包含必要的证据，错误输出仍然很常见。这表明，仅凭证据的存在并不能保证其被忠实地整合到模型的推理过程中（Guoet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib18); Guptaet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib20); Zhouet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib21); Wanget al.,2023 (https://arxiv.org/html/2605.14192#bib.bib51); Shaoet al.,2023 (https://arxiv.org/html/2605.14192#bib.bib52)）。

现有研究RAG失败的工作主要集中在检索质量或输出级别的一致性上（Trivediet al.,2023 (https://arxiv.org/html/2605.14192#bib.bib22); Edgeet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib23)）。一些方法改进了检索器或对检索到的文档进行重新排序，而另一些则使用答案-文档重叠度或模型置信度来检测错误（Yuet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib24); Leeet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib25); Wuet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib26)）。尽管这些方法提供了有用的诊断指标，但它们对导致不忠实生成的模型内部推理动态提供的见解有限。最近的研究探索了将隐藏状态表示作为知识检查的诊断信号（Zenget al.,2025 (https://arxiv.org/html/2605.14192#bib.bib19)）。然而，此类方法通常依赖于单层的表示，仅提供模型内部状态的一个相对静态视图（Liuet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib54)）。因此，它们无法表征检索到的证据在解码过程中如何跨层传播、转换和组合。这突显了对一种明确捕获内部证据流的方法框架的需求，从而能够对知识聚合进行细粒度的理解。

在这项工作中，我们采用图视角来看待RAG推理。我们不只检查输入和输出，而是分析检索到的证据在解码过程中如何在模型中传播。我们利用电路追踪技术（Ameisenet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib27)）构建拓扑特征，以量化上下文token如何影响中间激活和最终答案token。然后我们将这些归因信号转化为归因图，表示检索到的token、中间组件和生成输出之间的信息流。这种基于图的表示使我们能够跨示例对推理过程进行直接的结构分析。因此，我们对RAG的正确预测和错误预测进行了系统研究。我们观察到跨数据集一致的结构性差异。正确预测展现出更深的推理路径、更分散的证据流以及更结构化的局部连接。相反，错误预测显示出较浅、碎片化且过度集中的证据流。

为了进一步清晰解释失败发生的原因，我们关注一个混合上下文设置，其中检索到的段落同时包含支持性和干扰性信息。这种情况尤其具有诊断性，因为成功推理需要选择性整合真正相关的证据，而不是依赖表面上的问题-上下文重叠。在此条件下追踪内部信息流揭示了一个反复出现的失败模式，我们称之为**表面对齐的证据基础（SAEG）**：证据仅在表面上匹配问题，缺乏对问题的深刻理解和来自问题的持续影响，而生成过程越来越受检索到的上下文主导。相比之下，正确预测通常表现出**问题约束的证据基础（QCEG）**，其中模型更强调理解问题，检索到的证据始终受到问题语义约束的调控，形成更深、更整合的推理结构。

总体而言，我们的研究确立了归因图结构作为理解RAG系统中证据基础失败的实用且可解释的视角。基于上述见解，我们开发了模型内部的错误检测方法和有针对性的推理时干预，直接调控内部路由动态。这些方法不仅能检测错误预测，还能将一些失败导向正确结果，展示了我们机制性理解的实用价值。我们的主要贡献总结如下。

- • 我们使用电路追踪为RAG模型推导出归因图，实现了基于图的证据传播和影响分析。
- • 我们识别出正确预测和错误预测之间一致的结构性差异，表明许多RAG错误源于对问题理解不足和过度依赖检索到的上下文。
- • 我们开发了一个纯粹基于模型内部动态的图错误检测框架。
- • 我们证明归因图分析能够支持有针对性的推理时干预，促进**问题约束的证据基础（QCEG）**，从而在生成过程中减少错误预测。

## 2. 相关工作

由于篇幅限制，我们在此简要概述最相关的先前工作，并将更全面的讨论推迟到附录A.1 (https://arxiv.org/html/2605.14192#A1.SS1)。

**检索增强生成。** 检索增强生成（RAG）通过将生成过程建立在外部知识之上，提升了大型语言模型的事实性和推理能力（Zhaoet al.,2026 (https://arxiv.org/html/2605.14192#bib.bib28); Fanet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib29)）。先前的工作探索了密集和混合检索、多跳证据收集、迭代检索-生成循环以及查询重构（Nianet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib30); Tang and Yang,2024 (https://arxiv.org/html/2605.14192#bib.bib31); Trivediet al.,2023 (https://arxiv.org/html/2605.14192#bib.bib22); Chanet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib32)）。其他努力通过上下文选择、重新排序、压缩和提示工程来增强鲁棒性（Donget al.,2024 (https://arxiv.org/html/2605.14192#bib.bib33); Ampazis,2024 (https://arxiv.org/html/2605.14192#bib.bib34)）。

尽管取得了这些进展，大多数方法将语言模型视为一个黑盒，并专注于系统级的改进，对检索到的证据如何在内部被处理的见解有限。因此，它们无法完全解释为什么即使成功检索到相关证据，错误仍然持续存在。最近的一些工作评估了忠实性和证据使用情况（Zenget al.,2025 (https://arxiv.org/html/2605.14192#bib.bib19); Liuet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib54)），但通常依赖于单层的表示，仅提供模型内部计算的一个静态和片面的视图。

**LLM的可解释性与电路分析。** 另一条并行研究方向利用注意力分析、稀疏自编码器、跨编码器和电路追踪来研究Transformer内部机制（Clarket al.,2019 (https://arxiv.org/html/2605.14192#bib.bib37); Vig and Belinkov,2019 (https://arxiv.org/html/2605.14192#bib.bib38); Cunninghamet al.,2023 (https://arxiv.org/html/2605.14192#bib.bib39); Dunefskyet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib36); Elhageet al.,2021 (https://arxiv.org/html/2605.14192#bib.bib40)）。这些方法将神经表示分解为可解释的组件，并揭示特定行为通常可归因于跨层和跨注意力头的分布式电路（Pauloet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib41); Ferrandoet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib42)）。归因图已成为对网络内信息流进行建模的有用抽象（Markset al.,2024 (https://arxiv.org/html/2605.14192#bib.bib43)）。

尽管电路级分析已揭示独立语言模型中的推理机制（Daiet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib57); Zhaoet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib58)），但它们很少考虑检索增强的设置。因此，外部检索到的证据如何与RAG中的内部计算电路相互作用，在很大程度上仍未得到探索。

## 3. 背景与预备知识

在本节中，我们正式定义归因图，并描述如何从Transformer模型的内部计算中构建它。

### 3.1. 归因图的定义

我们在图视图中表示模型内部的token级因果交互。特别地，我们将激活之间的交互建模为一个有向归因图\(G=(V,E)\)，该图捕获在推理过程中信息如何在各层的token表示之间流动。

每个节点\(v_{t,\ell} \in V\)对应token位置\(t\)在Transformer层\(\ell\)处的表示。一条有向边\((v_{s,k} \rightarrow v_{t,\ell}) \in E\) 表示层\(k\)中位置\(s\)的token状态对层\(\ell\)中位置\(t\)的token状态有贡献。边权重\(w\)衡量这种因果贡献的强度。这种图级视角允许我们将模型推理分析为一个结构化的计算过程，揭示随着表示在各层中演变，证据是如何被整合、传播和转换的。

### 3.2. 构建归因图

我们现在描述如何从Transformer模型构建token级归因图。

##### 作为节点基的特征分解

遵循先前关于电路追踪和归因的工作（Dunefskyet al.,2024 (https://arxiv.org/html/2605.14192#bib.bib36)），我们采用跨编码器来分解残差流激活，以便为固定的目标logit构建归因图。在每一层\(\ell\)和每个token位置\(t\)处，残差流向量被表示为一组稀疏的学习激活单元，这些单元充当归因信号的中间载体。

归因是在激活单元级别计算的，反映了每个单元通过网络对目标logit的直接或间接贡献。然后，这些激活单元级别的归因按token位置聚合，使得提示、检索到的上下文和生成输出中的token对应于归因图中的节点。

##### 通过线性化替换模型构建边

归因图中的边权重是通过局部线性化替换模型获得的，遵循现有的电路追踪方法（Ameisenet al.,2025 (https://arxiv.org/html/2605.14192#bib.bib27)）。具体来说，我们将MLP块替换为对应的跨编码器，同时保持注意力模块不变，并将注意力模式和层归一化项固定在其前向传播值上。在此设置下，网络计算相对于激活单元激活值是线性的。

这种线性化允许将相对于目标logit的归因信号分解为激活单元之间的加性贡献。这些单元级归因在与每个token对相关联的单元之间进行聚合，产生有向的token-to-token归因得分，这些得分被用作归因图中的边权重。

## 4. RAG的电路分析

在本节中，我们分析RAG模型的内部电路结构，以理解检索到的证据在答案生成过程中是如何被整合的。我们从一个通用的检索设置开始，其中检索到的上下文被视为无约束的。在此设置下，我们比较**正确**和**错误**预测的归因图结构，以识别信息在模型内部计算中流动的系统性差异。

为了更直接地探究失败机制，我们引入一个更具挑战性的**混合上下文设置**，其中检索到的段落有意同时包含支持性和非支持性信息。这种场景更好地反映了实际的检索条件，并对模型区分相关证据与噪声的能力提出了更高要求。分析这种混合设置下的电路行为，使我们能够研究当模型未能有选择地将其预测建立在真正支持的上下文上时，错误推理是如何产生的。

### 4.1. 正确与错误预测的电路分析

本节使用归因图分析...

为什么检索增强生成会失败：图视角

相似文章

Skill-RAG：通过隐层状态探测和技能路由的故障感知检索增强

文本-图协同：用于 RAG 的双向验证与补全框架

LightRAG：简单高效的检索增强生成框架

AdaGATE：面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成

检索很廉价，给我看代码：面向检索增强生成的可执行多跳推理

提交意见反馈