AdaGATE:面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成

arXiv cs.CL 论文

摘要

AdaGATE 是一种免训练的证据控制器,用于多跳 RAG。它采用以实体为中心的间隙追踪、微查询生成和基于效用的选择机制,提升了在噪声检索条件下的鲁棒性,在输入令牌更少的情况下达到了最先进的证据 F1 值。

arXiv:2605.05245v1 公告类型:新 摘要:检索增强生成(RAG)在实际部署场景中处理多跳问题时仍然脆弱,因为检索到的证据可能包含噪声或冗余,且只能向生成器传递有限的上下文。现有控制器解决了部分问题,但通常要么以加法方式扩展上下文,要么从固定的 top-k 集合中选择,要么优化相关性而不显式修复缺失的桥接事实。我们提出 AdaGATE,一种面向多跳 RAG 的免训练证据控制器,将证据选择建模为令牌约束的修复问题。AdaGATE 结合了以实体为中心的间隙追踪、定向微查询生成以及基于效用的选择机制,平衡了间隙覆盖、佐证、新颖性、冗余性和直接问题相关性。我们在 HotpotQA 上评估了 AdaGATE,涵盖了干净、冗余和噪声注入的检索条件。在所有三种设置下,AdaGATE 在比较的控制器中取得了最佳证据 F1,干净数据上达到 62.3%,冗余注入下达到 71.2%,同时使用的输入令牌比 Adaptive-k 少 2.6 倍。这些结果表明,显式的间隙感知修复结合令牌高效的证据选择,提升了多跳 RAG 在不完美检索条件下的鲁棒性。我们的代码和评估流程可在 https://github.com/eliguo/AdaGATE 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:24

# AdaGATE: 面向多跳检索增强生成的自适应缺口感知与令牌高效证据整合
来源:https://arxiv.org/html/2605.05245
Yilin Guo Center for Data Science New York University yg3030@nyu\.edu&Yinshan Wang Tandon School of Engineering New York University yw9023@nyu\.edu&Yixuan Wang Center for Data Science New York University yw8735@nyu\.edu

###### 摘要

检索增强生成(RAG)在实际部署场景中针对多跳问题仍然不够稳健,此时检索到的证据可能包含噪声或冗余,且只能向生成器传递有限的上下文。现有控制器部分解决了这一问题,但通常采用累加式扩展上下文、从固定 top-k 集合中选择、或优化相关性而不显式修复缺失的桥梁事实。我们提出 **AdaGATE**,一种面向多跳 RAG 的免训练证据控制器,它将证据选择重构为一个**令牌约束的修复问题**。AdaGATE 结合了**以实体为中心的缺口追踪**、**目标微查询生成**以及一种**基于效用的选择机制**,该机制平衡**缺口覆盖率**、**佐证性**、**新颖性**、**冗余度**和**直接问题相关性**。我们在 HotpotQA 上对 AdaGATE 进行了评估,测试条件包括干净检索、冗余注入和噪声注入。在所有三种设置下,AdaGATE 在比较的控制器中取得了**最佳证据 F1 分数**,在干净数据上达到 62.3%,在冗余注入下达到 71.2%,同时所使用的**输入令牌数比 Adaptive-k 少 2.6×**。这些结果表明,显式的缺口感知修复结合令牌高效的证据选择,能够提高多跳 RAG 在检索不完美情况下的鲁棒性。我们的代码和评估流程可在 https://github.com/eliguo/AdaGATE 获取。

AdaGATE: 面向多跳检索增强生成的自适应缺口感知与令牌高效证据整合

Yilin GuoCenter for Data ScienceNew York Universityyg3030@nyu\.eduYinshan WangTandon School of EngineeringNew York Universityyw9023@nyu\.eduYixuan WangCenter for Data ScienceNew York Universityyw8735@nyu\.edu

## 1 引言

检索增强生成(RAG)通过将生成过程置于外部文档之上,改善了大型语言模型(LLM)的性能,减少了幻觉并提高了事实准确性 (Fan et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib3))。然而,在实际部署中,检索到的证据常常包含噪声、冗余或不完整。由于 API 成本和延迟限制带来的有限上下文预算 (Taguchi et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib9); Peng et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib7)),RAG 系统不能简单地将所有检索到的内容都传递给生成器。这一挑战在多跳问题上尤为突出,因为回答这类问题通常需要整合少量互补的段落:遗漏一个桥梁事实可能导致失败,而包含冗余或误导性的证据则可能扭曲最终答案。这些约束促使我们将多跳 RAG 视为一个在检索不完美条件下的令牌约束证据整合问题。

先前的工作表明,RAG 的性能不仅取决于检索质量,还取决于如何选择和组织检索到的证据用于生成。不相关的段落会严重降低答案质量 (Cuconasu et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib2)),而密集检索器常常返回大量近似重复的块,从而降低对整个推理链的覆盖率。近期的方法分别处理了这一问题的不同方面。Self-RAG 训练 LLM 在生成过程中穿插检索感知的反思 (Asai et al.,2023 (https://arxiv.org/html/2605.05245#bib.bib1))。Adaptive-k 根据相似度分数的差距选择特定于查询的段落数量 (Taguchi et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib9))。SEAL-RAG 通过目标微查询和基于替换的更新,执行以实体为中心的缺口修复 (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5))。然而,这些方法通常要么采用累加式扩展上下文,要么在固定的 top-k 集合上操作,或者没有在单个证据选择过程中显式地平衡缺口修复、冗余和上下文效率。

参见图注图 1: AdaGATE 框架概览。与 SEAL-RAG (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5)) 不同,它引入了一个免训练的缺口感知控制器,在固定检索器和 LLM 之上显式地施加令牌效率约束。我们提出 **AdaGATE** (图 1 (https://arxiv.org/html/2605.05245#S1.F1)),一个**免训练控制器**,它将多跳证据选择视为**缺口感知**、**令牌高效**的修复。AdaGATE 维护一个**以实体为中心的账本**,通过一个**问题感知的后备通道**发出目标微查询,并使用一个**效用函数**对候选证据进行评分,该函数平衡了缺口覆盖率、佐证性、新颖性、冗余度和问题相关性。然后,一个**效用自适应容量启发式**在全局令牌预算下整合出一个紧凑的证据集。

在 HotpotQA 上,我们分别在干净、冗余注入和噪声注入条件下,将 AdaGATE 与四个基线进行比较,它在所有三种设置下都取得了最高的证据 F1 分数(干净数据 62.3%,冗余注入 71.2%,噪声注入 62.7%),同时使用的输入令牌数比 Adaptive-k 少 2.6×。

本研究的主要贡献如下:(1)我们将不完美检索下的多跳 RAG 形式化为一个令牌约束的证据修复问题,并阐明了固定 k 的证据控制器在噪声和冗余环境下的局限性;(2)我们提出了 AdaGATE,一个免训练控制器,它结合了以实体为中心的缺口追踪、基于效用的证据评分和自适应容量控制,以实现紧凑的证据整合;(3)我们开发了一个在 HotpotQA 上的压力测试评估协议,包含可控的冗余和噪声注入,并在答案质量、依据性和令牌效率方面对控制器进行了比较。

## 2 相关工作

### 2.1 不完美检索下的多跳 RAG

标准 RAG 流程检索固定 top-k 段落并与查询拼接,隐含地将证据选择视为一步操作。多跳问答基准(如 HotpotQA 和 2WikiMultiHopQA)暴露了这一假设的局限性:回答通常需要跨文档组合互补事实,即使检索召回率很高,遗漏单个桥梁段落也可能导致失败 (Yang et al.,2018 (https://arxiv.org/html/2605.05245#bib.bib12); Welbl et al.,2018 (https://arxiv.org/html/2605.05245#bib.bib10))。先前的工作进一步表明,长上下文或带噪声的上下文会因干扰项敏感性和“中间丢失”效应而降低生成质量 (Liu et al.,2023 (https://arxiv.org/html/2605.05245#bib.bib6); Cuconasu et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib2))。这些发现促使我们设计显式管理不完美检索下证据组成的控制器。

### 2.2 主动与纠正性 RAG 控制器

近期的工作使 RAG 控制器更加自适应。Self-RAG 训练 LLM 在生成过程中穿插检索感知的反思 (Asai et al.,2023 (https://arxiv.org/html/2605.05245#bib.bib1))。Adaptive-RAG 根据估计的复杂度,在非检索、单步和多步策略之间路由问题 (Jeong et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib4))。CRAG 评估检索到的文档,并在证据质量较低时触发纠正动作,如额外检索或文档分解 (Yan et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib11))。这些方法使检索更加自适应,但它们主要决定何时检索或是否检索,且其中几个依赖于模型微调,而非关注多跳推理的令牌高效证据整合。

SEAL-RAG 与我们的设置最为相关 (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5))。它维护一个以实体为中心的账本,将缺失信息识别为缺口,并发出目标微查询以通过替换(而非扩展)来修复固定的证据集。我们的工作直接建立在显式缺口感知修复的这一方向之上,但将其扩展到了固定的 top-k 设置之外。

### 2.3 自适应证据选择与本工作的定位

另一条互补的研究路线关注包含多少上下文。Adaptive-k 通过识别排序后相似度分数中的最大下降,选择特定于查询的段落数量 (Taguchi et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib9))。AdaGReS 将证据选择形式化为一个平衡相关性和冗余度的令牌预算优化问题 (Peng et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib7))。这些方法考虑了容量和冗余度,但并未显式建模多跳信息缺口,也未使用目标微查询来修复缺失的证据。

AdaGATE 结合了这两种视角。与 SEAL-RAG 类似,它是一个免训练控制器,通过以实体为中心的账本执行显式的缺口感知证据修复。与 Adaptive-k 和 AdaGReS 类似,它在有限预算下考虑上下文效率。其关键区别在于,它将缺口感知修复、问题感知后备检索、冗余感知效用评分和自适应容量控制整合到一个用于多跳 RAG 的单一证据选择过程中。

## 3 方法

我们将部署约束下的多跳 RAG 形式化为一个**令牌约束的证据修复问题**。给定查询 \( q \)、语料库 \( \mathcal{D} \) 和全局令牌预算 \( B \),目标是整合一个紧凑的证据集,该集支持多跳推理,同时避免冗余或误导性的段落。AdaGATE 是一个建立在固定检索器和生成器之上的免训练控制器。在每次迭代 \( t \) 中,它维护一个证据集 \( E_t \),一个以实体为中心的账本 \( U_t \),以及一组未解决的信息缺口 \( G_t \)。与 SEAL-RAG (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5)) 相比,AdaGATE 做出了三项更改:它将固定 k 的证据选择替换为约束令牌选择,在缺口目标检索中增加了一个问题感知的后备通道,并使用自适应效用容量控制来避免用低价值段落填满上下文。

### 3.1 缺口感知检索与证据状态

令 \( \mathcal{C}_t \) 表示迭代 \( t \) 时检索到的候选池。每个段落 \( c \in \mathcal{C}_t \) 具有令牌长度 \( \ell(c) \),最终证据集必须满足
\[
\sum_{c \in E_t} \ell(c) \leq B. \tag{1}
\]
遵循 SEAL-RAG,AdaGATE 使用两个基于 LLM 的原语:(1) 账本提取,将当前证据集总结为带有置信度分数的结构化实体-关系-值元组;(2) 缺口指定,识别回答问题所需的缺失事实 (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5))。我们将这些视为黑箱组件,并专注于 AdaGATE 如何使用它们在有限上下文预算下指导检索和证据选择。

对于每个缺口 \( g \in G_t \),AdaGATE 生成一个或多个目标微查询。为了提高当缺口提取带有噪声或过于抽象时的鲁棒性,它还生成少量直接从 \( q \) 派生的问题锚定后备查询。感知缺口和感知问题的查询的并集被发送给检索器,以形成下一个候选池 \( \mathcal{C}_t \)。这种设计使得即使在当前缺口表示不完整的情况下,控制器也能继续探索有用的证据。

### 3.2 基于效用的证据评分

给定当前查询、账本、缺口和证据状态,AdaGATE 为每个候选段落 \( c \in \mathcal{C}_t \) 分配一个标量效用分数
\[
S_t(c) = \lambda_1 \mathrm{GapCov}(c, G_t) + \lambda_2 \mathrm{Corr}(c, U_t) + \lambda_3 \mathrm{Nov}(c, U_t) - \lambda_4 \mathrm{Red}(c, E_t) + \lambda_5 \mathrm{Rel}_Q(c, q). \tag{2}
\]
这五个项捕捉了多跳证据整合中的互补角色。\( \mathrm{GapCov}(c, G_t) \) 奖励直接解决未解决缺口的段落。\( \mathrm{Corr}(c, U_t) \) 奖励支持账本中已存在的低置信度事实。\( \mathrm{Nov}(c, U_t) \) 偏好贡献新实体或关系、而非重复横向信息的段落。\( \mathrm{Red}(c, E_t) \) 惩罚与已选证据高度相似的候选。最后,\( \mathrm{Rel}_Q(c, q) \) 衡量与原始问题的直接相关性,并在缺口提取带有噪声时作为后备信号。与 SEAL-RAG 相比,最重要的新增项是显式的冗余惩罚和问题感知相关性项,它们共同使控制器在噪声或冗余检索下更加鲁棒。

### 3.3 带自适应容量的令牌约束选择

AdaGATE 并不固定传递给生成器的段落数量。相反,它根据式 (1) 中的令牌预算选择证据,从而允许最终证据集的大小随段落长度和效用而变化。在实践中,AdaGATE 使用式 (2) 中的效用分数作为边际价值的代理,并贪心地从得分最高的候选中整合出一个紧凑的证据集。

为了避免用大量平庸段落填满可用预算,AdaGATE 从效用分布中估计有效容量。令
\[
S_t^{(1)} \geq S_t^{(2)} \geq \dots \geq S_t^{(M)}
\]
表示按降序排列的候选效用,并定义相邻下降
\[
\Delta_i = S_t^{(i)} - S_t^{(i+1)}.
\]
AdaGATE 选择最大的下降
\[
i^\star = \arg\max_i \Delta_i,
\]
并设置
\[
K_t^{\text{eff}} = i^\star + B_{\text{buf}},
\]
其中 \( B_{\text{buf}} = 2 \) 是一个小的缓冲区。最大效用下降将高价值前缀与低价值尾部区分开来;AdaGATE 优先考虑排名在前 \( K_t^{\text{eff}} \) 范围内的候选,并贪心地从中选择,同时强制执行全局令牌预算。

AdaGATE 循环执行四个阶段:**提取**、**搜索**、**评分**和**替换**。它首先从 \( E_t \) 中提取当前账本和未解决缺口,然后使用感知缺口和感知问题的查询检索新的候选,用式 (2) 对候选进行评分并估计有效容量,最后通过用更高效用的候选替换较低效用的段落来更新证据集,同时遵守令牌预算。过程在以下条件之一满足时停止:没有有用的修复可做、未识别出有意义的缺口、或达到最大修复迭代次数。终止后,最终证据集与问题拼接后传递给生成器。

## 4 实验设置

### 4.1 数据集与检索设置

我们在 HotpotQA (Yang et al.,2018 (https://arxiv.org/html/2605.05245#bib.bib12)) 上进行评估。这是一个基于维基百科的多跳问答基准,每个问题关联两个支撑段落和额外的干扰段落。我们使用干扰项设置,该设置同时提供相关和不相关的证据,因此适合研究不完美检索下的证据选择。

所有控制器共享相同的检索基础设施。我们使用 s

相似文章

为什么检索增强生成会失败:图视角

arXiv cs.CL

本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。

Skill-RAG:通过隐层状态探测和技能路由的故障感知检索增强

arXiv cs.CL

Skill-RAG 是一个故障感知的 RAG 框架,利用隐层状态探测和技能路由来诊断和纠正检索增强生成中的查询-证据不对齐问题。该方法检测检索失败并有选择性地应用目标技能(查询重写、问题分解、证据聚焦)以提高硬案例和分布外数据集的准确率。

高風險醫療檢索增強生成的聲明選擇性認證

arXiv cs.CL

本文針對高風險醫療檢索增強生成(RAG)提出聲明選擇性認證,將響應分解為可驗證的聲明,並根據證據進行評分,通過意圖感知選擇器產生操作(完整、部分、衝突、棄權),實現了低無支持聲明風險和高操作準確性。