AgenticRAG:面向企业知识库的代理检索

arXiv cs.AI 论文

摘要

本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。

arXiv:2605.05538v1 公告类型:新论文 摘要:我们提出了 AgenticRAG,这是一种用于企业知识库检索和分析的实用代理框架。标准的 RAG 流水线将大量的 grounding(依据查找)负担压在搜索栈上,限制语言模型只能使用在检索过程深处选定的固定候选集。我们的方法通过在现有企业搜索基础设施之上叠加一个轻量级代理框架,减轻了这种过度依赖。该框架为推理型 LLM 配备了搜索、查找、打开和总结工具,使模型能够自主地迭代检索信息、在文档内部导航并分析证据。在三个公开基准测试中,我们观察到了显著的增益:在 BRIGHT 数据集上,recall@1 达到 49.6%(相比最佳嵌入基线提升 21.8 个百分点);在 WixQA 数据集上,事实准确率达到 0.96(相对提升 13%);在 FinanceBench 数据集上,答案正确率达到 92%——与拥有真实证据 oracle 访问权限的结果仅相差 2 个百分点。消融研究表明,最显著的因素是从单次检索转变为代理工具的使用(提升 5.9 倍),而多查询搜索和文档内导航则有助于提高质量和效率。我们介绍了代理框架中的各种设计选择,这些选择受到了生产前部署经验的启发。我们的结果证明了其在现实世界企业生产环境中的适用性。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:21

# AgenticRAG:面向企业知识库的智能体检索

来源:https://arxiv.org/html/2605.05538
Susheel Suresh, Hazel Mak∗, Shangpo Chou, Fred Kroon, Sahil Bhatnagar

微软公司

###### 摘要

我们提出了AgenticRAG,一种用于企业知识库检索与分析的实用智能体框架。标准的RAG(检索增强生成)流水线将大量的接地(grounding)负担压在搜索栈上,限制了语言模型只能基于检索过程深层选定的固定候选集进行推理。我们的方法通过在现有企业搜索基础设施之上叠加一个轻量级框架,减少了对搜索栈的过度依赖,为推理型大语言模型(LLM)配备了搜索、查找、打开和摘要工具,使模型能够迭代地检索信息、在文档内部导航并自主分析证据。在三个公开基准测试中,我们观察到了显著的增益:在BRIGHT上达到了49.6%的Recall@1(比最佳嵌入基线高出21.8个百分点),在WixQA上事实性得分为0.96(相对提升13%),在FinanceBench上答案正确率达到92%——仅比拥有真实证据的预言机访问权限低2个百分点。消融研究表明,最关键的因素是从单次检索转变为智能体工具使用(提升了5.9倍),而多查询搜索和文档内导航则同时有助于质量和效率。我们展示了智能体框架中的各种设计选择,这些选择均得到了预生产部署经验的指导。我们的结果证明了其适用于现实世界的企业生产环境。

AgenticRAG:面向企业知识库的智能体检索

Susheel Suresh††thanks:同等贡献。††thanks:[email protected], Hazel Mak∗††thanks:[email protected], Shangpo Chou, Fred Kroon, Sahil Bhatnagar微软公司

## 1引言

标准的检索增强生成(RAG)流水线遵循静态的“检索后生成”范式Lewiset al. (2020) (https://arxiv.org/html/2605.05538#bib.bib20)。在这种设计中,搜索栈有效地决定了大型语言模型(LLM)最终看到的候选集,模型的推理被限制在该集合内。现代企业级搜索栈针对可扩展性、延迟以及基于倒排索引、概率检索和学习型排序模型的多阶段排序流水线进行了高度优化Liu等人 (2009) (https://arxiv.org/html/2605.05538#bib.bib5); Nogueira和Cho (2019) (https://arxiv.org/html/2605.05538#bib.bib6); Thakur等人 (2021) (https://arxiv.org/html/2605.05538#bib.bib7)。这些系统在关键词和简短语义查询方面表现出色,并且擅长高召回率的候选生成。然而,它们并非为解决情境性、多文档或分析复杂的资讯需求而设计——这类查询正是知识工作者针对技术手册、合规文档和财务报告等密集语料库所提出的。

现实世界中的RAG系统AzureAISearch (https://arxiv.org/html/2605.05538#bib.bib1)试图通过检索增强技术来弥补这些局限性,例如HyDEGao等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib2)、多查询重写Wang等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib4)以及自适应或迭代检索策略Trivedi等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib3); Jeong等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib34)。虽然这些方法提供了对查询表述的鲁棒性和更高的检索覆盖率,但它们 largely 保留了相同的架构假设:检索决策在实质性推理开始之前就已经确定。LLM仍然在搜索栈深层选定的固定候选集上运行,无法迭代地浏览文档、跨来源综合证据或从更高层面的视角重新评估结果。

近年来,具备推理能力的语言模型的进展展示了其在规划和迭代使用外部工具方面的强劲表现Yao等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib39); Schick等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib40)。与其硬编码检索步骤,不如赋能模型本身来驱动这一过程——决定搜索什么、哪些文档值得深入调查,以及何时已收集到足够的证据。这减轻了对搜索栈的压力:它只需实现良好的召回率,而模型则在其更广泛的上下文中处理最终的精确度。我们提出了AgenticRAG,一个实用框架,为推理型LLM配备了四种工具——search(搜索)、find(查找)、open(打开)和summarize(摘要),叠加在现有的企业搜索基础设施之上。search工具委托给底层搜索栈以进行广泛的候选发现,而find和open则作为精确仪器,让模型通过文档内搜索和全文检索(带有滚动窗口访问)深入候选文档。为了管理长推理链中不断增长的上下文,该框架监控标记使用情况,并在达到阈值时触发summarize工具,允许模型在保留关键引用的同时整合其发现。我们的贡献在于系统层面:一种轻量级的推理时工具框架,无需模型微调、自定义嵌入模型、图构建或针对语料库的预处理,仅需将文档索引到现有的企业搜索后端即可。

我们在涵盖检索、企业问答和财务文档推理的三个基准测试上进行了评估。我们的方法在BRIGHT上达到了49.6%的Recall@1(比最佳嵌入基线高出21.8个百分点),在WixQA上事实性得分为0.96(相对提升13%),在FinanceBench上答案正确率为92.00%——仅比预言机访问权限低2个百分点。我们的方法已部署用于预生产评估,来自这些部署的经验直接指导了我们的设计选择。我们提供了详细的消融分析,分析了每个工具的贡献、多查询搜索的影响以及检索策略中的模型级差异。

## 2相关工作

检索增强生成(RAG)通过将LLM的生成建立在外部语料库上来缓解参数记忆的限制Lewiset al. (2020) (https://arxiv.org/html/2605.05538#bib.bib20); Guu等人 (2020) (https://arxiv.org/html/2605.05538#bib.bib21)。早期的方法侧重于使用稀疏或密集向量检索Khattab和Zaharia (2020) (https://arxiv.org/html/2605.05538#bib.bib23); Izacard和Grave (2021) (https://arxiv.org/html/2605.05538#bib.bib22)来识别相关文档,以提升在知识密集型NLP任务上的性能。随着上下文窗口的扩展,研究转向将检索扩展到兆亿级标记Borgeaud等人 (2022) (https://arxiv.org/html/2605.05538#bib.bib24)并优化上下文学习Ram等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib25); Shi等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib26)。尽管取得了这些进展,标准RAG流水线在“长尾”知识方面往往表现不佳,并且在检索失败时容易产生幻觉Mallen等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib28); Gao等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib29)。此外,静态的“检索后生成”范式缺乏处理需要迭代信息收集的复杂、多跳查询的灵活性Jiang等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib27); Press等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib41)。

为了解决静态流水线的脆弱性,该领域已发展为Agentic模式,其中自主智能体(LLMs)动态编排检索过程Singh等人 (2025) (https://arxiv.org/html/2605.05538#bib.bib13); Ochee等人 (2025) (https://arxiv.org/html/2605.05538#bib.bib14)。智能体行为的基础性工作,如ReActYao等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib39)和ToolformerSchick等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib40),表明LLM可以有效地利用外部工具来解决推理问题。这一范式已在Self-RAGAsai等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib30)和Corrective RAGYan等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib31)等系统中形式化,这些系统利用自我反思机制来批判检索到的内容,并在必要时触发回退(例如网络搜索)。最近的方法提出将检索整合到规划中:PlanRAGLee等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib32)和Search-o1Li等人 (2025) (https://arxiv.org/html/2605.05538#bib.bib18)将高层规划与底层执行分离,允许智能体将复杂查询分解为子任务。同样,Search-R1Jin等人 (2025) (https://arxiv.org/html/2605.05538#bib.bib19)使用强化学习训练LLM进行自主搜索决策。虽然有效,但其中许多系统是為开放域搜索设计的,或者需要微调、强化学习或专用的检索策略,这使得它们不太直接适用于无法导出用于训练的企业专有语料库。此外,由于递归推理循环,它们也可能产生高延迟和标记成本Trivedi等人 (2023) (https://arxiv.org/html/2605.05538#bib.bib3)。

标准RAG中的另一个关键局限是将文档“扁平化”为不连续的块,这丢弃了有价值的结构先验知识,如标题和文档边界。RAPTORSarthi等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib16)通过递归地将文本块聚合并摘要为树结构来解决这个问题,从而能够在不同抽象级别进行检索。同样,HiQAChen等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib33)构建了多文档层次结构上下文。Graph RAGEdge等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib35); Scaffidi等人 (2025) (https://arxiv.org/html/2605.05538#bib.bib36)方法试图从文档中构建知识图谱以支持查询聚焦的摘要。虽然这对于统一知识非常强大Pan等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib37); Wang等人 (2024) (https://arxiv.org/html/2605.05538#bib.bib38),但图构建对于动态企业环境来说通常计算成本过高。相比之下,我们的Agentic RAG框架是一个推理时系统,利用具有“search”工具(使用快速企业级搜索栈)的推理模型,以及“find”和“open”工具进行更深层的信息收集和推理。这将其贡献定位为一种可部署的企业文件系统集成:它与现有的搜索基础设施配合工作,保留文档访问控制,并避免大量的预计算或重新训练。

## 3方法

### 3.1系统概述

我们提出了一种用于大规模文件系统的企业文档搜索和问答的智能体RAG系统。与传统的一次性RAG流水线不同,我们的系统采用迭代推理循环,其中大型语言模型(LLM)自主决定何时搜索文档、深入特定段落并在生成最终答案之前检索完整内容。

该系统解决了企业RAG中的几个挑战:(1)多步推理:复杂查询需要来自多个文档的信息;(2)上下文窗口约束:累积的检索结果必须适应LLM的限制;(3)有据可依的响应:答案必须包含可追溯的源文档引用;(4)多轮效率:后续查询应重用之前检索的内容,而不是重新执行冗余搜索。我们的架构支持多种模型家族,并复用现有的搜索基础设施来实现检索工具的后端。所谓轻量级,是指该框架由四种工具组成,不需要模型微调、不需要图构建,除了已部署用于文档发现的企业搜索栈之外,也不需要自定义嵌入索引。总体而言,系统由三个主要组件组成:

1. 1.智能体循环:编排LLM与工具的交互,受最大迭代次数限制。
2. 2.检索工具:三种工具(search, find, open)提供对企业文档的分层访问。一个summarize工具用于长推理链期间的上下文管理。
3. 3.对话状态:维护消息历史、标记计数和跟踪跨迭代文档的引用ID映射。

### 3.2智能体循环

智能体通过有界迭代循环处理每个查询(图1 (https://arxiv.org/html/2605.05538#S3.F1))。在每次迭代中,收到当前对话后,智能体要么选择调用一个工具并附加到对话中,要么返回带有引用的最终答案。

循环在两种条件下终止:(1)模型生成文本响应,或(2)迭代次数达到最大迭代次数(默认:15)。当达到最大迭代次数且没有最终答案时,智能体发出强制完成请求,要求模型使用可用信息进行响应。如果在执行过程中超过标记预算,智能体触发上下文管理(第3.4节 (https://arxiv.org/html/2605.05538#S3.SS4))以释放空间并继续循环。有关详细算法,请参阅附录A.1 (https://arxiv.org/html/2605.05538#A1.SS1)。

见图1:智能体循环
### 3.3检索工具

系统提供三种检索工具,支持分层文档探索(表1 (https://arxiv.org/html/2605.05538#S3.T1))。智能体根据当前信息需求决定调用哪种工具。

**Search**通过委托给现有的企业搜索栈执行企业范围的文档发现。在默认配置下,模型在一次工具调用中最多可以进行五次查询重写。该工具每个查询返回最多10个结果,每个结果包含摘要、标题、文件名、文件类型和其他可用元数据。来自多个查询的结果会被合并并去重。每个结果都会获得一个唯一的引用ID(格式:turnmmsearchnn),使用全局递增计数器,以便后续进行find和open操作。

**Find**在由其引用ID标识的单个文档内执行有针对性的文档内搜索。给定关键词模式列表,词汇匹配是不区分大小写的子字符串匹配;还可以启用可选的语义查找模式。该工具每个模式返回最多2个匹配的段落。结果按内容去重,并在有限的标记限制(~11k标记)处截断。Find在模型知道*要查找什么*时最有用,例如长文件中的收入指标或命名概念。

**Open**以固定行窗口检索完整文档内容。每次调用返回从开头(第0行)或智能体选择的特定行号开始的行窗口(默认:1,800),以及一个响应头,指示查看范围和文档总长度(例如,“查看3000行中的第\[0-1799\]行”)。要访问文件中的多个部分,模型会使用显式行号值进行后续调用。这 enables 浏览超过窗口大小的文档,同时保持每次响应有界。Open在模型知道*在哪里阅读*时最有用,例如表格、章节标题或行号预览周围的上下文。系统提示指导有效的工具使用。详情见附录A.2 (https://arxiv.org/html/2605.05538#A1.SS2)。

表1:检索工具规范
### 3.4上下文管理

由于检索工具每次可以从文件加载~11k标记,因此上下

相似文章

RAG-Anything:全能型 RAG 框架

Papers with Code Trending

RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。

MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。