@GoogleResearch:介绍我们新的 agentic RAG 框架。与 Google Cloud 合作,我们的多代理工作流超越了标准 RA…
摘要
Google Research 推出了一款 agentic RAG 框架,该框架托管在 Gemini Enterprise Agent 平台上,利用多代理工作流分解复杂的企业查询,并迭代搜索足够的上下文,相比标准 RAG 准确率提升高达 34%。
查看缓存全文
缓存时间: 2026/06/05 23:20
介绍我们新的智能体RAG框架。与Google Cloud合作,我们的多智能体工作流超越了标准RAG,通过分解复杂的企业查询并迭代搜索充分上下文,然后生成可靠的回答。 📜→https://t.co/A8l499bLrj https://t.co/5fZT49j8TL
通过Gemini企业智能体平台的Agentic RAG解锁可靠回答
来源:https://research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-rag/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acct
当前的单步检索增强生成(Retrieval-Augmented Generation,RAG)(https://en.wikipedia.org/wiki/Retrieval-augmented_generation)系统并非为现代业务流程中多源、多跳查询而设计。例如,如果查询是“项目X中使用的服务器规格是什么?”,系统可能会找到关于项目X的文档,但这些文档可能只提到了服务器ID。它不会知道拿着这个ID去另一个数据库进行第二次搜索来查找规格。结果就是部分回答或“未找到”的响应,因为信息分散在不同的数据孤岛中,需要更深入的探索才能找到事实。
现在引入“Agentic RAG”,它能够规划、推理并迭代地与数据源交互,从而处理复杂查询,提高可靠性和准确性。
今天,我们很高兴推出基于Google Cloud Gemini企业智能体平台(https://cloud.google.com/blog/products/ai-machine-learning/introducing-gemini-enterprise-agent-platform?e=48754805)托管的版本——由Agentic RAG驱动的跨语料库检索(https://docs.cloud.google.com/gemini-enterprise-agent-platform/build/rag-engine/cross-corpus-retrieval)。与其他多智能体RAG框架(https://huggingface.co/learn/cookbook/multiagent_rag_system)一样,我们的框架使用多个智能体协同工作,可靠地回答复杂查询。与其他多智能体框架不同,我们的框架引入了充分上下文(https://research.google/blog/deeper-insights-into-retrieval-augmented-generation-the-role-of-sufficient-context/)来确认是否有足够的信息给出准确答案。与标准RAG相比,我们的框架在事实性数据集上的准确率最高提升了34%。我们还使用专有的内部数据集评估了系统,发现在多个特定领域任务上实现了更好的锚定和改进的推理准确性。
多智能体架构的工作原理:规划、重写和路由
将多智能体RAG视为一个有序的研究部门而非单个搜索引擎会很有帮助。在“单一”或“基础(Vanilla)”(https://bytebridge.medium.com/vanilla-rag-vs-agentic-rag-4d756ddb611f)RAG系统中,检索组件只是查看你的问题并尝试找到匹配的文档,然后由LLM生成回答。
在多智能体框架中,系统将任务分解为专门的角色:
- 编排器评估你的复杂请求,判断“这不是一步能完成的”,然后将工作委派给智能体。
- 规划智能体规划信息路径。例如,如果你询问项目的预算和时间表,规划智能体会决定:“首先,我们需要检查财务数据库,然后检查项目管理日志。”
- 查询重写器将你的请求转化为多个搜索查询。它将“项目X怎么样了?”转化为“项目X第三季度状态报告”和“项目X团队的关键障碍”。
- 搜索扇出智能体接收这些精炼后的查询,并将其发送到多个检索源收集信息片段。
- 最后,LLM聚合所有上下文,给出最终响应。
我们的Agentic RAG与其他方案的区别
我们新的Agentic RAG框架的关键区别在于持久性。与其他RAG解决方案相比,我们的框架之所以有效,是因为它知道何时缺少信息,并会继续搜索直到上下文完整。这防止了AI在第一次搜索无结果时“猜测”,或者简单地说“我没有足够的信息”。虽然某些情况下这样回应是合适的,但有时信息就在那里,我们只需要找到它。
例如,想象一位医生询问患者的药物、饮食和过敏史:
“约翰·杜在膝关节手术后的出院药物和饮食限制是什么?住院期间他是否有任何过敏反应?不包括仅在住院或急诊就诊期间使用的药物,但肝素静脉输注或替奈普酶除外。”
对此,我们的框架启动了多个专门智能体。我们在下图中概述了解决方案,然后进行详细描述。
阶段一:编排
根智能体解析医生的请求,并将任务委派给子智能体。规划智能体识别出需要检查三个不同领域:药房、营养和临床记录。查询重写器将长请求分解为简单、可搜索的问题,以便检索器更准确地找到相关内容。
阶段二:搜索(标准步骤)
RAG智能体同时搜索患者记录中的所有查询扇出。它找到了药物和饮食信息,但在最明显的文件中找不到任何关于过敏的提及。在标准或“基础”RAG系统中,流程可能在此结束,得到一个不完整的答案。
阶段三:充分上下文智能体(新的研究创新)
将充分上下文智能体视为装配线末端的质量控制检查员。它在允许生成响应之前检查三个具体方面:
1. 检索到的片段
充分上下文智能体评估RAG智能体从数据库中提取的文本块。在医生的例子中,这些可能是“出院小结”和“营养笔记”中找到的具体段落。它读取这些内容,判断回答查询所需的信息是否存在于这些句子中。
2. 中间草稿
系统还会生成一个“粗略草稿”响应。然后充分上下文智能体审查提示、草稿和检索到的片段,评估模型是否拥有提供全面且锚定答案所需的一切。如果提示要求三个内容(药物、饮食、过敏),但片段只包含两条信息,充分上下文智能体会标记为“上下文不足”。
3. 缺失部分分析
这是最关键的部分。充分上下文智能体明确找出缺失的内容。它不仅输出“这不足够”,还会生成具体的“原因”和“反馈”日志。例如:
发现:“我们有药物清单和低钠饮食说明。”
缺口:“缺少关于住院期间过敏反应或不良事件的源文档信息。”
充分上下文智能体将找到的内容与原始请求进行比较,并问:“我们回答过敏问题了吗?”如果没有,则发出“上下文不足”信号并提供具体反馈:“你找到了药物和饮食,但漏掉了过敏。回去专门搜索‘皮疹’或‘不良事件’。”在多源情况下,它还可以请求更多信息,或判断该源与查询无关。
阶段四:迭代
由于充分上下文智能体的反馈,查询重写器创建了新的搜索“皮疹”。然后RAG智能体深入首次忽略的文件,找到了缺失的信息。
阶段五:综合(最终答案)
充分上下文智能体最后一次检查数据。现在它有了药物、饮食和过敏信息,决定可以停止搜索。最后,综合智能体为医生撰写一份清晰准确的摘要。
实验与结果
我们在FramesQA(https://huggingface.co/datasets/google/frames-benchmark)上评估了Agentic RAG,该基准基于FRAMES(https://arxiv.org/abs/2409.12941)论文。一个多跳问题的例子是:
“截至2024年6月,收视率最高的两部电视剧季终集中,哪一集时长最长,长了多少?”
RAG系统需要执行多个步骤才能得出正确答案。首先,它必须识别出收视率最高的两部季终集来自《陆军野战医院》和《欢乐酒店》。然后,需要找到它们的时长,并计算时长差异。在许多RAG设置中(基础RAG或没有充分上下文的Agentic RAG),模型可能会说:
“尽管多次扫描,我找不到《陆军野战医院》或《欢乐酒店》的明确时长。文档提供了收视率数据,但没有给出分钟或小时的持续时间。”
这并没有回答问题。
幸运的是,我们的Agentic RAG可以通过先搜索电视剧,然后使用查询重写器和充分上下文智能体有针对性地搜索《陆军野战医院》或《欢乐酒店》的时长来解决这个问题。然后Gemini可以轻松判断哪一集最长以及长了多少:
“《陆军野战医院》季终集时长150分钟,是两部中最长的。比《欢乐酒店》季终集长52分钟,后者时长约为98分钟。”
我们进行了一项实验来测试这种能力的大规模表现(FramesQA有824个查询以及包含2,676个PDF文档的语料库)。在“基础”RAG设置中,我们使用Google的RAG引擎(https://docs.cloud.google.com/vertex-ai/generative-ai/docs/rag-engine/rag-overview)(具有高级检索引擎、LLM解析器和重排序器)。我们将此与我们的Agentic RAG在两种设置下进行比较。在单语料库设置中,我们从FramesQA文档中检索。在跨语料库设置中,我们还加入了另外三个干扰数据集,规划智能体必须决定从何处检索。这种跨语料库设置模拟了公司拥有由不同团队管理的数据库的用例。我们通过使用LLM作为裁判,将系统响应与数据集中的真实答案进行比较来计算准确率。
在跨语料库设置中,我们的系统几乎达到了单语料库的准确率。即使规划智能体必须从4个可能中选正确的语料库,我们也成功路由搜索查询,正确回答了90.1%的问题。此外,单语料库和跨语料库版本的延迟大致相同(平均差异在3%以内)。这表明我们的Agentic RAG系统能够对多个不相关的数据源进行推理,为更灵活的检索场景打开了可能性。
结论
通过结合高级查询规划、路由和充分上下文,我们的Agentic RAG系统确保了AI生成的回答是可审计、可追溯且锚定的。我们期待看到机器学习社区利用这些新的智能体能力来构建下一代可靠的AI系统。此新功能现已作为公开预览版在Gemini企业智能体平台提供(https://docs.cloud.google.com/gemini-enterprise-agent-platform/build/rag-engine/cross-corpus-retrieval)。
致谢
本项目是 Bo Li、Zhongjie Mao、Tiger Jin、Yuhong Kan、Mohd Abdullah (Obito)、Chun-Sung Ferng、Pooneh Mortazavi、Roger (Peng) Yu、Eran Lewis 和 Ivan Kuznetsov 的联合工作。我们感谢 Kimberly Schwede 设计图形,以及 Mark Simborg 在写作方面的帮助。我们也感谢我们的关键企业合作伙伴提供的宝贵用户反馈、数据和见解。
相似文章
AgenticRAG:面向企业知识库的代理检索
本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。
Google 推出 Gemini Enterprise Agent Platform
Google Cloud 发布 Gemini Enterprise Agent Platform,这是一项托管服务,用于在企业级规模上构建和部署 AI 代理。
@googledevs: 智能体开发正在向前推进。传统上,生产扩展需要手动基础设施设置和…
Google宣布在Gemini API中正式推出Managed Agents,实现零基础设施开销的智能体开发。文章还重点介绍了AGENTS.md,这是一种为AI编码智能体提供上下文的开放格式,已被超过6万个开源项目采用。
@tom_doerr: 构建生产级RAG系统与Agentic工作流 https://github.com/jamwithai/production-agentic-rag-course…
一个面向学习者的项目,教授构建生产级RAG系统和Agentic工作流,涵盖关键词搜索、混合检索和LangGraph代理集成。
@googledevs:智能体时代来了。Google 刚刚为开发者推出了重大更新,包括:Gemini 3.5 Flash:性能提升4倍……
Google I/O 2026 公布了重大开发者更新,包括 Gemini 3.5 Flash(性能提升4倍)、用于智能体开发的 Antigravity 2.0 CLI 以及 AI Studio 移动应用,标志着向智能体时代的转变。