AdaGATE：面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成

arXiv cs.CL 2026/05/08 04:00 论文

摘要

AdaGATE 是一种免训练的证据控制器，用于多跳 RAG。它采用以实体为中心的间隙追踪、微查询生成和基于效用的选择机制，提升了在噪声检索条件下的鲁棒性，在输入令牌更少的情况下达到了最先进的证据 F1 值。

arXiv:2605.05245v1 公告类型：新摘要：检索增强生成（RAG）在实际部署场景中处理多跳问题时仍然脆弱，因为检索到的证据可能包含噪声或冗余，且只能向生成器传递有限的上下文。现有控制器解决了部分问题，但通常要么以加法方式扩展上下文，要么从固定的 top-k 集合中选择，要么优化相关性而不显式修复缺失的桥接事实。我们提出 AdaGATE，一种面向多跳 RAG 的免训练证据控制器，将证据选择建模为令牌约束的修复问题。AdaGATE 结合了以实体为中心的间隙追踪、定向微查询生成以及基于效用的选择机制，平衡了间隙覆盖、佐证、新颖性、冗余性和直接问题相关性。我们在 HotpotQA 上评估了 AdaGATE，涵盖了干净、冗余和噪声注入的检索条件。在所有三种设置下，AdaGATE 在比较的控制器中取得了最佳证据 F1，干净数据上达到 62.3%，冗余注入下达到 71.2%，同时使用的输入令牌比 Adaptive-k 少 2.6 倍。这些结果表明，显式的间隙感知修复结合令牌高效的证据选择，提升了多跳 RAG 在不完美检索条件下的鲁棒性。我们的代码和评估流程可在 https://github.com/eliguo/AdaGATE 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:24

# AdaGATE: 面向多跳检索增强生成的自适应缺口感知与令牌高效证据整合
来源：https://arxiv.org/html/2605.05245
Yilin Guo Center for Data Science New York University yg3030@nyu\.edu&Yinshan Wang Tandon School of Engineering New York University yw9023@nyu\.edu&Yixuan Wang Center for Data Science New York University yw8735@nyu\.edu

###### 摘要

检索增强生成（RAG）在实际部署场景中针对多跳问题仍然不够稳健，此时检索到的证据可能包含噪声或冗余，且只能向生成器传递有限的上下文。现有控制器部分解决了这一问题，但通常采用累加式扩展上下文、从固定 top-k 集合中选择、或优化相关性而不显式修复缺失的桥梁事实。我们提出 **AdaGATE**，一种面向多跳 RAG 的免训练证据控制器，它将证据选择重构为一个**令牌约束的修复问题**。AdaGATE 结合了**以实体为中心的缺口追踪**、**目标微查询生成**以及一种**基于效用的选择机制**，该机制平衡**缺口覆盖率**、**佐证性**、**新颖性**、**冗余度**和**直接问题相关性**。我们在 HotpotQA 上对 AdaGATE 进行了评估，测试条件包括干净检索、冗余注入和噪声注入。在所有三种设置下，AdaGATE 在比较的控制器中取得了**最佳证据 F1 分数**，在干净数据上达到 62.3%，在冗余注入下达到 71.2%，同时所使用的**输入令牌数比 Adaptive-k 少 2.6×**。这些结果表明，显式的缺口感知修复结合令牌高效的证据选择，能够提高多跳 RAG 在检索不完美情况下的鲁棒性。我们的代码和评估流程可在 https://github.com/eliguo/AdaGATE 获取。

AdaGATE: 面向多跳检索增强生成的自适应缺口感知与令牌高效证据整合

Yilin GuoCenter for Data ScienceNew York Universityyg3030@nyu\.eduYinshan WangTandon School of EngineeringNew York Universityyw9023@nyu\.eduYixuan WangCenter for Data ScienceNew York Universityyw8735@nyu\.edu

## 1 引言

检索增强生成（RAG）通过将生成过程置于外部文档之上，改善了大型语言模型（LLM）的性能，减少了幻觉并提高了事实准确性 (Fan et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib3))。然而，在实际部署中，检索到的证据常常包含噪声、冗余或不完整。由于 API 成本和延迟限制带来的有限上下文预算 (Taguchi et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib9); Peng et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib7))，RAG 系统不能简单地将所有检索到的内容都传递给生成器。这一挑战在多跳问题上尤为突出，因为回答这类问题通常需要整合少量互补的段落：遗漏一个桥梁事实可能导致失败，而包含冗余或误导性的证据则可能扭曲最终答案。这些约束促使我们将多跳 RAG 视为一个在检索不完美条件下的令牌约束证据整合问题。

先前的工作表明，RAG 的性能不仅取决于检索质量，还取决于如何选择和组织检索到的证据用于生成。不相关的段落会严重降低答案质量 (Cuconasu et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib2))，而密集检索器常常返回大量近似重复的块，从而降低对整个推理链的覆盖率。近期的方法分别处理了这一问题的不同方面。Self-RAG 训练 LLM 在生成过程中穿插检索感知的反思 (Asai et al.,2023 (https://arxiv.org/html/2605.05245#bib.bib1))。Adaptive-k 根据相似度分数的差距选择特定于查询的段落数量 (Taguchi et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib9))。SEAL-RAG 通过目标微查询和基于替换的更新，执行以实体为中心的缺口修复 (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5))。然而，这些方法通常要么采用累加式扩展上下文，要么在固定的 top-k 集合上操作，或者没有在单个证据选择过程中显式地平衡缺口修复、冗余和上下文效率。

参见图注图 1: AdaGATE 框架概览。与 SEAL-RAG (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5)) 不同，它引入了一个免训练的缺口感知控制器，在固定检索器和 LLM 之上显式地施加令牌效率约束。我们提出 **AdaGATE** (图 1 (https://arxiv.org/html/2605.05245#S1.F1))，一个**免训练控制器**，它将多跳证据选择视为**缺口感知**、**令牌高效**的修复。AdaGATE 维护一个**以实体为中心的账本**，通过一个**问题感知的后备通道**发出目标微查询，并使用一个**效用函数**对候选证据进行评分，该函数平衡了缺口覆盖率、佐证性、新颖性、冗余度和问题相关性。然后，一个**效用自适应容量启发式**在全局令牌预算下整合出一个紧凑的证据集。

在 HotpotQA 上，我们分别在干净、冗余注入和噪声注入条件下，将 AdaGATE 与四个基线进行比较，它在所有三种设置下都取得了最高的证据 F1 分数（干净数据 62.3%，冗余注入 71.2%，噪声注入 62.7%），同时使用的输入令牌数比 Adaptive-k 少 2.6×。

本研究的主要贡献如下：（1）我们将不完美检索下的多跳 RAG 形式化为一个令牌约束的证据修复问题，并阐明了固定 k 的证据控制器在噪声和冗余环境下的局限性；（2）我们提出了 AdaGATE，一个免训练控制器，它结合了以实体为中心的缺口追踪、基于效用的证据评分和自适应容量控制，以实现紧凑的证据整合；（3）我们开发了一个在 HotpotQA 上的压力测试评估协议，包含可控的冗余和噪声注入，并在答案质量、依据性和令牌效率方面对控制器进行了比较。

## 2 相关工作

### 2.1 不完美检索下的多跳 RAG

标准 RAG 流程检索固定 top-k 段落并与查询拼接，隐含地将证据选择视为一步操作。多跳问答基准（如 HotpotQA 和 2WikiMultiHopQA）暴露了这一假设的局限性：回答通常需要跨文档组合互补事实，即使检索召回率很高，遗漏单个桥梁段落也可能导致失败 (Yang et al.,2018 (https://arxiv.org/html/2605.05245#bib.bib12); Welbl et al.,2018 (https://arxiv.org/html/2605.05245#bib.bib10))。先前的工作进一步表明，长上下文或带噪声的上下文会因干扰项敏感性和“中间丢失”效应而降低生成质量 (Liu et al.,2023 (https://arxiv.org/html/2605.05245#bib.bib6); Cuconasu et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib2))。这些发现促使我们设计显式管理不完美检索下证据组成的控制器。

### 2.2 主动与纠正性 RAG 控制器

近期的工作使 RAG 控制器更加自适应。Self-RAG 训练 LLM 在生成过程中穿插检索感知的反思 (Asai et al.,2023 (https://arxiv.org/html/2605.05245#bib.bib1))。Adaptive-RAG 根据估计的复杂度，在非检索、单步和多步策略之间路由问题 (Jeong et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib4))。CRAG 评估检索到的文档，并在证据质量较低时触发纠正动作，如额外检索或文档分解 (Yan et al.,2024 (https://arxiv.org/html/2605.05245#bib.bib11))。这些方法使检索更加自适应，但它们主要决定何时检索或是否检索，且其中几个依赖于模型微调，而非关注多跳推理的令牌高效证据整合。

SEAL-RAG 与我们的设置最为相关 (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5))。它维护一个以实体为中心的账本，将缺失信息识别为缺口，并发出目标微查询以通过替换（而非扩展）来修复固定的证据集。我们的工作直接建立在显式缺口感知修复的这一方向之上，但将其扩展到了固定的 top-k 设置之外。

### 2.3 自适应证据选择与本工作的定位

另一条互补的研究路线关注包含多少上下文。Adaptive-k 通过识别排序后相似度分数中的最大下降，选择特定于查询的段落数量 (Taguchi et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib9))。AdaGReS 将证据选择形式化为一个平衡相关性和冗余度的令牌预算优化问题 (Peng et al.,2025 (https://arxiv.org/html/2605.05245#bib.bib7))。这些方法考虑了容量和冗余度，但并未显式建模多跳信息缺口，也未使用目标微查询来修复缺失的证据。

AdaGATE 结合了这两种视角。与 SEAL-RAG 类似，它是一个免训练控制器，通过以实体为中心的账本执行显式的缺口感知证据修复。与 Adaptive-k 和 AdaGReS 类似，它在有限预算下考虑上下文效率。其关键区别在于，它将缺口感知修复、问题感知后备检索、冗余感知效用评分和自适应容量控制整合到一个用于多跳 RAG 的单一证据选择过程中。

## 3 方法

我们将部署约束下的多跳 RAG 形式化为一个**令牌约束的证据修复问题**。给定查询 \( q \)、语料库 \( \mathcal{D} \) 和全局令牌预算 \( B \)，目标是整合一个紧凑的证据集，该集支持多跳推理，同时避免冗余或误导性的段落。AdaGATE 是一个建立在固定检索器和生成器之上的免训练控制器。在每次迭代 \( t \) 中，它维护一个证据集 \( E_t \)，一个以实体为中心的账本 \( U_t \)，以及一组未解决的信息缺口 \( G_t \)。与 SEAL-RAG (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5)) 相比，AdaGATE 做出了三项更改：它将固定 k 的证据选择替换为约束令牌选择，在缺口目标检索中增加了一个问题感知的后备通道，并使用自适应效用容量控制来避免用低价值段落填满上下文。

### 3.1 缺口感知检索与证据状态

令 \( \mathcal{C}_t \) 表示迭代 \( t \) 时检索到的候选池。每个段落 \( c \in \mathcal{C}_t \) 具有令牌长度 \( \ell(c) \)，最终证据集必须满足
\[
\sum_{c \in E_t} \ell(c) \leq B. \tag{1}
\]
遵循 SEAL-RAG，AdaGATE 使用两个基于 LLM 的原语：(1) 账本提取，将当前证据集总结为带有置信度分数的结构化实体-关系-值元组；(2) 缺口指定，识别回答问题所需的缺失事实 (Lahmy and Yozevitch,2025 (https://arxiv.org/html/2605.05245#bib.bib5))。我们将这些视为黑箱组件，并专注于 AdaGATE 如何使用它们在有限上下文预算下指导检索和证据选择。

对于每个缺口 \( g \in G_t \)，AdaGATE 生成一个或多个目标微查询。为了提高当缺口提取带有噪声或过于抽象时的鲁棒性，它还生成少量直接从 \( q \) 派生的问题锚定后备查询。感知缺口和感知问题的查询的并集被发送给检索器，以形成下一个候选池 \( \mathcal{C}_t \)。这种设计使得即使在当前缺口表示不完整的情况下，控制器也能继续探索有用的证据。

### 3.2 基于效用的证据评分

给定当前查询、账本、缺口和证据状态，AdaGATE 为每个候选段落 \( c \in \mathcal{C}_t \) 分配一个标量效用分数
\[
S_t(c) = \lambda_1 \mathrm{GapCov}(c, G_t) + \lambda_2 \mathrm{Corr}(c, U_t) + \lambda_3 \mathrm{Nov}(c, U_t) - \lambda_4 \mathrm{Red}(c, E_t) + \lambda_5 \mathrm{Rel}_Q(c, q). \tag{2}
\]
这五个项捕捉了多跳证据整合中的互补角色。\( \mathrm{GapCov}(c, G_t) \) 奖励直接解决未解决缺口的段落。\( \mathrm{Corr}(c, U_t) \) 奖励支持账本中已存在的低置信度事实。\( \mathrm{Nov}(c, U_t) \) 偏好贡献新实体或关系、而非重复横向信息的段落。\( \mathrm{Red}(c, E_t) \) 惩罚与已选证据高度相似的候选。最后，\( \mathrm{Rel}_Q(c, q) \) 衡量与原始问题的直接相关性，并在缺口提取带有噪声时作为后备信号。与 SEAL-RAG 相比，最重要的新增项是显式的冗余惩罚和问题感知相关性项，它们共同使控制器在噪声或冗余检索下更加鲁棒。

### 3.3 带自适应容量的令牌约束选择

AdaGATE 并不固定传递给生成器的段落数量。相反，它根据式 (1) 中的令牌预算选择证据，从而允许最终证据集的大小随段落长度和效用而变化。在实践中，AdaGATE 使用式 (2) 中的效用分数作为边际价值的代理，并贪心地从得分最高的候选中整合出一个紧凑的证据集。

为了避免用大量平庸段落填满可用预算，AdaGATE 从效用分布中估计有效容量。令
\[
S_t^{(1)} \geq S_t^{(2)} \geq \dots \geq S_t^{(M)}
\]
表示按降序排列的候选效用，并定义相邻下降
\[
\Delta_i = S_t^{(i)} - S_t^{(i+1)}.
\]
AdaGATE 选择最大的下降
\[
i^\star = \arg\max_i \Delta_i,
\]
并设置
\[
K_t^{\text{eff}} = i^\star + B_{\text{buf}},
\]
其中 \( B_{\text{buf}} = 2 \) 是一个小的缓冲区。最大效用下降将高价值前缀与低价值尾部区分开来；AdaGATE 优先考虑排名在前 \( K_t^{\text{eff}} \) 范围内的候选，并贪心地从中选择，同时强制执行全局令牌预算。

AdaGATE 循环执行四个阶段：**提取**、**搜索**、**评分**和**替换**。它首先从 \( E_t \) 中提取当前账本和未解决缺口，然后使用感知缺口和感知问题的查询检索新的候选，用式 (2) 对候选进行评分并估计有效容量，最后通过用更高效用的候选替换较低效用的段落来更新证据集，同时遵守令牌预算。过程在以下条件之一满足时停止：没有有用的修复可做、未识别出有意义的缺口、或达到最大修复迭代次数。终止后，最终证据集与问题拼接后传递给生成器。

## 4 实验设置

### 4.1 数据集与检索设置

我们在 HotpotQA (Yang et al.,2018 (https://arxiv.org/html/2605.05245#bib.bib12)) 上进行评估。这是一个基于维基百科的多跳问答基准，每个问题关联两个支撑段落和额外的干扰段落。我们使用干扰项设置，该设置同时提供相关和不相关的证据，因此适合研究不完美检索下的证据选择。

所有控制器共享相同的检索基础设施。我们使用 s

AdaGATE：面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成

相似文章

为什么检索增强生成会失败：图视角

Skill-RAG：通过隐层状态探测和技能路由的故障感知检索增强

StepGap: 一种混合NLI-LLM检测器用于多跳问答中的步骤级证据缺口检测

高風險醫療檢索增強生成的聲明選擇性認證

RAGA：用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体

提交意见反馈