LatentRAG：用于高效智能体 RAG 的潜在推理与检索

arXiv cs.CL 2026/05/08 04:00 论文

rag latent-reasoning efficiency agentic-ai retrieval-augmented-generation latency-reduction

摘要

LatentRAG 是一个新颖的框架，将智能体 RAG 的推理与检索过程转移至连续的潜在空间，在保持与显式方法相当的性能的同时，将推理延迟降低了约 90%。

arXiv:2605.06285v1 公告类型：新论文摘要：单步检索增强生成（RAG）为简单问答任务提供了一种整合外部信息的高效方式，但在处理复杂问题时表现欠佳。智能体 RAG 扩展了这一范式，将单步检索替换为多步过程，其中大型语言模型（LLM）充当搜索智能体，生成中间思考和子查询，以与检索系统进行迭代交互。由于需要自回归生成长篇的思考和子查询，这种迭代过程导致了巨大的延迟。为了解决这一局限，我们提出了 LatentRAG，这是一个新颖的框架，将推理和检索从离散的语言空间转移到连续的潜在空间。与现有的显式方法逐 token 生成自然语言思考或子查询不同，LatentRAG 在一次前向传播中直接从隐藏状态生成用于思考和子查询的潜在 token。我们在潜在空间中使 LLM 与密集检索模型对齐，从而支持对潜在子查询 token 进行检索，并支持端到端的联合优化。为了提高透明度并促进具有语义意义的潜在表示，我们引入了一个并行的潜在解码机制，将潜在 token 翻译回自然语言。在七个基准数据集上的大量实验表明，LatentRAG 实现了与显式智能体 RAG 方法相当的性能，同时将推理延迟降低了约 90%，大幅缩小了与传统单步 RAG 之间的延迟差距。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 07:37

# 用于高效 Agentic RAG 的潜在推理与检索

来源: https://arxiv.org/html/2605.06285
Yijia Zheng
Marcel Worring
阿姆斯特丹大学，荷兰阿姆斯特丹
{y.zheng, m.worring}@uva.nl

###### 摘要

单步检索增强生成（RAG）为简单问答任务提供了一种高效地整合外部信息的方式，但在处理复杂问题时却力不从心。Agentic RAG 扩展了这一范式，用多步过程替代了单步检索，其中大型语言模型（LLM）充当搜索智能体，生成中间思考过程和子查询，以迭代方式与检索系统进行交互。这种迭代过程由于需要自回归生成长篇幅的思考和子查询，导致了显著的延迟。为了解决这一局限性，我们提出了 **LatentRAG**，这是一种新颖的框架，将推理和检索从离散的语言空间转移到连续的潜在空间中。与现有的逐 token 生成自然语言思考或子查询的显式方法不同，LatentRAG 在一次前向传播中直接从隐藏状态生成用于思考和子查询的潜在 token。我们在潜在空间中对齐 LLM 与密集检索模型，从而支持对潜在子查询 token 进行检索，并支持端到端的联合优化。为了提高透明度并鼓励具有语义意义的潜在表示，我们引入了并行潜在解码机制，将潜在 token 翻译回自然语言。在七个基准数据集上的大量实验表明，LatentRAG 实现了与显式 Agentic RAG 方法相当的性能，同时将推理延迟降低了约 90%，大幅缩小了与传统单步 RAG 之间的延迟差距。

## 1 引言

**图 1：多跳问答数据集上的性能与延迟比较。** LatentRAG 取得了与 Search-R1 和 AutoRefine 等竞争性 Agentic RAG 方法相当的性能，同时保持了与朴素单步 RAG 相当的效率。Search-R1 在思考和子查询生成阶段产生了 substantial 延迟，而 LatentRAG 显著减少了这两个阶段所花费的时间，从而带来了观察到的效率提升。详细的分阶段延迟分解见附录 E.5 (https://arxiv.org/html/2605.06285#A5.SS5)。

大型语言模型（LLMs）在回答复杂问题上展现了强大的能力 [31 (https://arxiv.org/html/2605.06285#bib.bib5), 62 (https://arxiv.org/html/2605.06285#bib.bib2), 51 (https://arxiv.org/html/2605.06285#bib.bib4)]，但这些能力从根本上受限于其静态的内部知识 [58 (https://arxiv.org/html/2605.06285#bib.bib6), 64 (https://arxiv.org/html/2605.06285#bib.bib7)]。仅依赖内部知识限制了其在需要最新信息或专有知识的问题上的表现 [63 (https://arxiv.org/html/2605.06285#bib.bib8), 61 (https://arxiv.org/html/2605.06285#bib.bib9)]，并增加了幻觉的风险 [21 (https://arxiv.org/html/2605.06285#bib.bib10), 19 (https://arxiv.org/html/2605.06285#bib.bib12)]。为了提高 LLM 生成输出的事实性和透明度，检索增强生成（RAG）[32 (https://arxiv.org/html/2605.06285#bib.bib13), 14 (https://arxiv.org/html/2605.06285#bib.bib14)] 从外部检索系统中检索与问题相关的信息以增强 LLM 的输入 [11 (https://arxiv.org/html/2605.06285#bib.bib15), 42 (https://arxiv.org/html/2605.06285#bib.bib16)]。传统的 RAG 方法提供了一种高效访问外部知识的方式，但其单步检索设计限制了其在需要迭代推理和检索的复杂问题上的有效性 [57 (https://arxiv.org/html/2605.06285#bib.bib24), 50 (https://arxiv.org/html/2605.06285#bib.bib23)]。

受工具使用型 LLM 智能体 [74 (https://arxiv.org/html/2605.06285#bib.bib38), 46 (https://arxiv.org/html/2605.06285#bib.bib39)] 成功的启发，最近的 Agentic RAG 方法 [34 (https://arxiv.org/html/2605.06285#bib.bib27), 24 (https://arxiv.org/html/2605.06285#bib.bib26)] 用多步智能体搜索过程取代了传统的单步检索，该过程在生成和检索之间交替进行。在此过程中，LLM 充当搜索智能体，迭代决定检索什么。在每次迭代中，智能体通过思维链（CoT）推理 [65 (https://arxiv.org/html/2605.06285#bib.bib25)] 生成一个思考过程，然后产生下一个动作，该动作可以是用于下一步检索的子查询，也可以是最终答案。每个生成的子查询用于检索相关文档。与传统 RAG 中的静态单步检索不同，这种多步智能体搜索过程使得复杂问题可以分解并逐步有效解决 [35 (https://arxiv.org/html/2605.06285#bib.bib42), 23 (https://arxiv.org/html/2605.06285#bib.bib41)]。

尽管 Agentic RAG 方法在处理复杂问题的任务上表现出强大的性能 [50 (https://arxiv.org/html/2605.06285#bib.bib23), 36 (https://arxiv.org/html/2605.06285#bib.bib40)]，但由于额外的多步交互，它们产生了显著的延迟 [13 (https://arxiv.org/html/2605.06285#bib.bib28), 55 (https://arxiv.org/html/2605.06285#bib.bib31)]。为了确定 Agentic RAG 的延迟瓶颈，我们测量了朴素单步 RAG 和 Agentic RAG 方法在不同阶段的平均推理时间。如图 1 (https://arxiv.org/html/2605.06285#S1.F1) 所示，在多跳问答（QA）数据集上，一种代表性的 Agentic RAG 方法 Search-R1 [24 (https://arxiv.org/html/2605.06285#bib.bib26)] 的总推理时间是朴素 RAG 的 16-22 倍。这种开销主要由思考和子查询生成阶段驱动，这两个阶段合计约占总体延迟的 90%。这两个阶段都涉及长输出的自回归逐 token 生成，其中每个输出 token 依赖于之前生成的 token，导致多次顺序的 LLM 前向传播且并行度有限。相比之下，预填充、检索和最终答案生成所花费的时间远少于其他两个阶段。推理时间比较表明，Agentic RAG 的延迟瓶颈在于思考和子查询生成阶段。

为了减少 Agentic RAG 中思考和子查询生成的延迟，我们从另一种称为“潜在推理”的技术中汲取灵感。潜在推理 [15 (https://arxiv.org/html/2605.06285#bib.bib32), 6 (https://arxiv.org/html/2605.06285#bib.bib33)] 是一种高效的推理范式，它在 LLM 的连续隐藏状态（也称为潜在 token）中进行推理，而不显式生成离散语言 token。与显式推理相比，潜在推理避免将计算资源分配给仅用于语言流畅性的非语义 token [7 (https://arxiv.org/html/2605.06285#bib.bib37), 15 (https://arxiv.org/html/2605.06285#bib.bib32)]。此外，连续的潜在 token 允许 LLM 直接生成高级语义表示，避免了显式逐 token 生成的低效，从而实现了更高的可并行计算能力 [85 (https://arxiv.org/html/2605.06285#bib.bib34), 3 (https://arxiv.org/html/2605.06285#bib.bib90), 54 (https://arxiv.org/html/2605.06285#bib.bib91)]。尽管潜在推理为提高推理效率提供了有前景的途径，但其在 Agentic RAG 中的应用仍未被探索。

在本工作中，我们率先将潜在推理整合到 Agentic RAG 范式中，更重要的是，提出了一种潜在检索机制。与先前关于潜在推理的研究中仅涉及生成的任务不同 [15 (https://arxiv.org/html/2605.06285#bib.bib32), 12 (https://arxiv.org/html/2605.06285#bib.bib35)]，Agentic RAG 需要 LLM 发出显式子查询 token 以调用外部检索。这种显式 token 生成不仅产生了显著的解码开销，还阻碍了梯度传播，从而妨碍了使用检索信号对 LLM 进行直接优化。为了克服这些局限性，我们研究了由 LLM 生成的潜在 token 是否可以有效作为检索的子查询。这引入了两个挑战：

(1) **数据稀缺性**：训练检索模型通常需要大规模配对数据，通常包含数亿个查询-文档对 [77 (https://arxiv.org/html/2605.06285#bib.bib86), 60 (https://arxiv.org/html/2605.06285#bib.bib87)]。相比之下，Agentic RAG 系统通常在仅提供数万对问答对的训练设置下开发，且中间子查询没有针对真实文档的显式监督 [24 (https://arxiv.org/html/2605.06285#bib.bib26), 49 (https://arxiv.org/html/2605.06285#bib.bib45)]。这种数据稀缺性使得难以使用检索模型的传统训练范式来学习有效的检索能力。

(2) **透明度**：潜在 token 本质上掩盖了中间思考和子查询，这对 Agentic RAG 尤其成问题，因为没有显式的中间步骤，冗长且冗余的检索文档使得答案验证和证据归属 [45 (https://arxiv.org/html/2605.06285#bib.bib92), 4 (https://arxiv.org/html/2605.06285#bib.bib93)] 变得耗时。

为了解决上述挑战，我们引入了 **LatentRAG**，这是一个高效的 Agentic RAG 框架，在潜在空间中进行推理和检索。具体而言，我们将一系列特殊的思考和子查询 token 输入到 LLM 中，并分别使用相应的最后隐藏状态作为潜在思考和子查询 token。这些潜在 token 在一次前向传播中获得，实现了并行计算并避免了自回归生成的低效。为解决挑战 (1)，我们在潜在空间中将 LLM 与预训练的密集检索模型对齐。潜在子查询 token 被用作检索模型的输入以生成潜在子查询嵌入。然后，我们最小化由潜在子查询嵌入引起的文档相似性分布与由自然语言子查询嵌入引起的相似性分布之间的 KL 散度。这一设计实现了 LLM 和检索模型的完全可微端到端联合优化。为解决挑战 (2) 并鼓励潜在 token 捕捉有意义的语义，我们引入了并行潜在解码机制，将潜在 token 转换为自然语言思考和子查询。在推理期间，此潜在解码过程是可选的，从而在透明度和效率之间实现权衡。由于此潜在解码过程仅依赖于潜在 token，不同步骤的所有思考和子查询都可以并行解码，减少了解码过程的延迟。

我们的主要贡献总结如下：

- 我们引入了 LatentRAG，这是一种新颖的 Agentic RAG 框架，在潜在空间中进行推理和检索，减少了显式思考和子查询生成的延迟开销。
- 我们提出了一种潜在空间对齐目标，联合优化 LLM 和检索模型，使潜在 token 能作为有效的检索查询，同时支持端到端训练。
- 我们引入了并行解码机制，将潜在 token 翻译为显式的思考和子查询，提高了透明度，同时比显式 Agentic RAG 更高效。

在七个基准数据集上的大量实验表明，LatentRAG 实现了与显式 Agentic RAG 方法相当的性能，相对性能差异小于 5%，同时将平均延迟开销显著降低了约 90%，接近传统单步 RAG 的延迟。

## 2 相关工作

#### Agentic RAG

RAG 的最新进展已从传统的单步方法 [32 (https://arxiv.org/html/2605.06285#bib.bib13), 14 (https://arxiv.org/html/2605.06285#bib.bib14)] 转向 Agentic RAG 方法 [36 (https://arxiv.org/html/2605.06285#bib.bib40), 35 (https://arxiv.org/html/2605.06285#bib.bib42), 50 (https://arxiv.org/html/2605.06285#bib.bib23)]，后者通过迭代生成中间思考和子查询来执行多步检索。早期的 Agentic RAG 方法 [57 (https://arxiv.org/html/2605.06285#bib.bib24), 22 (https://arxiv.org/html/2605.06285#bib.bib52), 69 (https://arxiv.org/html/2605.06285#bib.bib53), 34 (https://arxiv.org/html/2605.06285#bib.bib27)] 主要依赖提示策略使 LLM 与检索系统交互。为了提高 LLM 的检索能力，Self-RAG [2 (https://arxiv.org/html/2605.06285#bib.bib54)] 和 AutoRAG [29 (https://arxiv.org/html/2605.06285#bib.bib55)] 从 RAG 基准数据集中构建合成训练数据以进行监督微调。一些方法 [13 (https://arxiv.org/html/2605.06285#bib.bib28), 8 (https://arxiv.org/html/2605.06285#bib.bib29), 20 (https://arxiv.org/html/2605.06285#bib.bib30)] 进一步引入机制以平衡内部知识和外部检索，使 LLM 仅在内部知识不足时进行检索。为了减少对监督训练数据的依赖并促进更灵活的搜索策略，越来越多的工作 [24 (https://arxiv.org/html/2605.06285#bib.bib26), 5 (https://arxiv.org/html/2605.06285#bib.bib56), 52 (https://arxiv.org/html/2605.06285#bib.bib57), 82 (https://arxiv.org/html/2605.06285#bib.bib58)] 将 Agentic RAG 公式化为马尔可夫决策过程，其中 LLM 通过强化学习（RL）学习最优决策策略以与检索系统交互。最近的基于 RL 的方法进一步结合了细粒度的中间奖励函数 [68 (https://arxiv.org/html/2605.06285#bib.bib59), 67 (https://arxiv.org/html/2605.06285#bib.bib60), 76 (https://arxiv.org/html/2605.06285#bib.bib61), 80 (https://arxiv.org/html/2605.06285#bib.bib62)] 并探索并行检索策略 [81 (https://arxiv.org/html/2605.06285#bib.bib63), 55 (https://arxiv.org/html/2605.06285#bib.bib31), 71 (https://arxiv.org/html/2605.06285#bib.bib64)]。如引言所述，所有这些现有方法都需要在语言空间中生成长篇的思考和子查询序列，导致显著的延迟。与现有方法不同，我们探索在潜在空间中进行推理和检索，避免了长文本思考和子查询的生成，实现了显著的效率提升。

#### 潜在推理

潜在推理 [85 (https://arxiv.org/html/2605.06285#bib.bib34), 75 (https://arxiv.org/html/2605.06285#bib.bib65)] 通过在 LLM 的连续隐藏状态中操作来减少显式思维链（CoT）推理 [65 (https://arxiv.org/html/2605.06285#bib.bib25)] 的延迟开销，但现有工作主要集中在无外部检索的仅生成任务上 [12 (https://arxiv.org/html/2605.06285#bib.bib35), 15 (https://arxiv.org/html/2605.06285#bib.bib32)]。早期研究探索添加填充 token 以启用 LLM 在生成输出之前在隐藏状态内分配更多计算资源 [12 (https://arxiv.org/html/2605.06285#bib.bib35), 43 (https://arxiv.org/html/2605.06285#bib.bib46)]。Coconut [15 (https://arxiv.org/html/2605.06285#bib.bib32)] 提出了一种自回归潜在推理范式，其中每个潜在 token（即生成的隐藏状态）被递归地反馈给 LLM 以生成下一个潜在 token。虽然 Coconut 的训练过程仅由最终答案监督，但一些方法...

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

相似文章

AgenticRAG：面向企业知识库的代理检索

LightRAG：简单高效的检索增强生成框架

重新思考推理密集型检索：评估并提升智能体搜索系统中的检索器

构建 Agentic GraphRAG 系统：从知识图谱和本体论到作为 AI 智能体 MCP 服务器的统一记忆

RAG-Anything：全能型 RAG 框架

提交意见反馈