DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

arXiv cs.AI 2026/06/08 04:00 论文

摘要

本技术报告介绍了DuMate-DeepResearch，一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦，并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果，展示了可审计智能体基础设施的价值。

arXiv:2606.07299v1 公告类型：新论文摘要：深度研究（Deep Research, DR）已成为一种新的智能体范式，用于应对复杂、开放性的研究任务，要求系统能够迭代地定义问题、获取证据、验证来源并综合生成长篇报告。然而，当前DR系统在实践中受到四个相互关联的限制：在未明确范围的长期规划、单个智能体内分解和调度此类任务的瓶颈、长篇幅综合中的幻觉风险以及有限的过程可审计性。本技术报告介绍了基于千帆智能体开发平台（Qianfan Agent Foundry）构建的多智能体DR框架——DuMate-DeepResearch。该框架将负责任务理解、规划和调度的智能体核心（Agent Core）与用于检索、证据获取和报告渲染的可扩展工具生态系统（Tool Ecosystem）解耦，使得每个中间决策和工具调用均可显式追踪。在此基础设施之上，DuMate-DeepResearch进一步引入了三种机制：(i) 基于图的动态规划策略，从粗到细地扩展研究路线图，并通过反思、重新规划、回溯和并行分支持续修正；(ii) 递归双层执行设计，将每个复杂的搜索子任务委托给内部搜索智能体（Search Agent），该智能体运行自身的规划循环，隔离噪声检索并稳定长期执行；(iii) 基于评分标准的测试时优化机制，动态生成任务特定的质量标准，并实时作为推理支架，用于基于证据的综合和自适应停止。在两个深度研究基准测试中，DuMate-DeepResearch取得了新的最先进结果：在DeepResearch Bench上获得最佳总得分（58.03%），在DeepResearch Bench II上获得最佳总得分（61.95%），并在信息召回和分析方面排名第一。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:14

# DuMate-DeepResearch: 一种可审计的多智能体系统，具有递归搜索和基于规则的推理

来源：https://arxiv.org/html/2606.07299

###### 摘要

深度研究（DR）已成为一种新兴的智能体范式，用于处理复杂、开放的研究任务，要求系统能够迭代地定义问题、获取证据、验证来源并综合生成长篇报告。然而，在实践中，当前的DR系统受到四个相互关联的限制：在未明确范围上的长期规划、单智能体内分解和调度此类任务的瓶颈、长篇幅合成中的幻觉风险以及有限的过程可审计性。本技术报告介绍了DuMate-DeepResearch，一种基于千帆智能体工场构建的多智能体DR框架。该框架将智能体核心（负责任务理解、规划与调度）与可扩展的工具生态系统（用于检索、证据获取和报告呈现）解耦，使每个中间决策和工具调用都可显式追踪。在此基础上，DuMate-DeepResearch进一步引入了三种机制：（i）一种基于图的动态规划策略，以粗到细的方式扩展研究路线图，并通过反思、重新规划、回溯和并行分支持续修订；（ii）一种递归的两级执行设计，将每个复杂的搜索子任务委托给一个内部搜索智能体，该智能体运行自己的规划循环，隔离嘈杂检索并稳定长期执行；（iii）一种基于规则的测试时优化机制，动态生成任务特定的质量标准，并将其作为实时推理支架，用于基于证据的综合和自适应停止。在两个深度研究基准测试中，DuMate-DeepResearch取得了新的最佳结果：在DeepResearch Bench上获得总体最佳得分（58.03%），在DeepResearch Bench II上获得总体最佳得分（61.95%），同时在信息召回和分析维度上排名第一。这些结果证明了将可审计的多智能体基础设施与自适应规划和规则引导推理相结合对于高质量深度研究的价值。

## 1 引言

人工智能的快速发展已引发从被动、单轮问答系统向自主、智能体系统的范式转变（Yao et al., 2023b (https://arxiv.org/html/2606.07299#bib.bib16)；Wang et al., 2024 (https://arxiv.org/html/2606.07299#bib.bib17)），使得用户能够从研究问题出发启动复杂的研究工作流。在此背景下，深度研究（DR）（Zheng et al., 2025 (https://arxiv.org/html/2606.07299#bib.bib4)；Shi et al., 2025 (https://arxiv.org/html/2606.07299#bib.bib2)；Zhang et al., 2025 (https://arxiv.org/html/2606.07299#bib.bib3)；Du et al., 2025 (https://arxiv.org/html/2606.07299#bib.bib5)；Wang et al., 2025 (https://arxiv.org/html/2606.07299#bib.bib7)）已成为一个关键且极具挑战的前沿领域，旨在弥合人类探究与系统性知识发现之间的鸿沟。传统的检索增强工作流局限于对静态语料库进行单次或基于规则的检索（Lewis et al., 2020 (https://arxiv.org/html/2606.07299#bib.bib18)；Gao et al., 2023 (https://arxiv.org/html/2606.07299#bib.bib19)），而DR则力求复制人类研究者严谨、系统性的调查方法。为解决复杂、开放性问题，DR需要复杂的长期推理、战略决策和大规模信息综合能力（Shinn et al., 2023 (https://arxiv.org/html/2606.07299#bib.bib50)；Yao et al., 2023a (https://arxiv.org/html/2606.07299#bib.bib51)）。为了实现这类高要求的工作流，近期研究探索了一系列架构范式。早期系统采用单体架构（例如OpenAI的DeepResearch），将所有模块紧密集成在一个中央推理引擎周围，确保统一的控制流，但限制了可扩展性和工具的扩展性。另一种是流水线架构（例如n8n工作流），将流程分解为顺序连接的阶段，便于组件复用，但在处理复杂迭代和全局反馈方面存在困难。为此，智能体架构已成为DR系统的自然发展方向。通过分解总体研究任务并将其分配给具有专门角色的自主智能体，这种协作范式提高了复杂研究场景下的可扩展性、并行效率和功能专业化。

##### 深度研究的核心工作流

在这种协作范式下，现代智能体DR系统的核心工作流超越了僵化的线性流水线，更像是一个闭环、工具增强的过程。给定一个复杂、开放的研究问题，该系统通过一系列紧密耦合的能力将高层次请求转化为全面报告，这些能力通常包括但不限于以下内容：

1. **问题界定与自适应规划**：系统将未完全明确的研究问题解析为结构化目标，并制定动态研究路线图，随着证据积累通过子目标细化、查询重构和信息死胡同回溯不断调整策略。
2. **证据获取与验证**：在路线图驱动下，系统调用异构工具集（例如网络搜索引擎、学术数据库、领域特定API）获取信息，同时评估来源可信度并在不同来源间交叉验证主张，以保障事实完整性。
3. **综合与报告生成**：最终将验证后的证据整合成一份结构连贯、逻辑清晰的报告，将多来源发现编织成连贯叙述，包含细致分析和可验证引用。

##### 关键挑战

然而，在实际中实现这一理想化工作流仍远未解决。当前智能体DR系统仍面临开放挑战，限制了其在现实部署中的可靠性：

- **长期规划与动态范围定义**：一个研究问题会展开为数十个相互依赖的子问题构成的长期轨迹，其范围在初始时未明确，只有随着证据积累才逐渐清晰。反应式、逐步的策略（如ReAct风格智能体）仅承诺单一步骤，本质上是短视的：它们在没有全局轨迹表示的情况下进行局部优化，在无界探索和过早收敛之间摇摆，当工具失败或新检索到的证据推翻先前前提时无法连贯地修订策略。有效的DR因此需要一种规划形式，维护整个轨迹的全局、远见模型，并随着信息状态演变持续重新划定范围和重新规划。
- **复杂任务分解与调度**：即便有了合理的计划，分解并调度执行往往是长轨迹最常断裂的地方。单个扁平智能体很少能同时协调高层任务分解与每个子任务所需的更细粒度子任务分解、调度和噪声处理，因为每个子问题本身可能需要在充满死链、API失败、无关或矛盾结果的随机网络上执行多个多步检索动作。将全局策略和低级检索折叠到一个策略中会使两者纠缠不清，并使单个局部故障传播并级联到全局轨迹。可靠的DR因此需要一种执行方案，将高层分解和调度与局部子任务完成分离，将噪声和错误限制在子任务边界内，并稳健地完成每个子任务而不破坏整体过程。
- **幻觉缓解与事实基础**：在动态、多来源证据流上进行长篇幅综合时保持严格的事实准确性是出了名的困难，而且智能体还必须有一个原则性标准来判断何时积累的证据足以停止探索。这需要严格的推理时支架，在生成每个关键断言时对照可验证证据进行校准，并在证据确实足够时精确终止检索，而不是依赖事后验证或固定探索预算。
- **过程可解释性与可审计性**：要使DR在高风险领域获得信任，其自主推理必须可检查。系统应将其决策轨迹、工具调用和行动路径外部化为显式、可审计的工件——如同严谨研究的方法附录一样透明——以便用户不仅能够审视最终报告，还能审视其生成过程。

为应对这些挑战，我们提出了DuMate-DeepResearch，一个端到端的多智能体研究框架。该系统构建于千帆智能体工场之上，将核心认知大脑（智能体核心）与通用执行层（工具生态系统）解耦。这种解耦不仅使认知和工具能够独立发展，还将每个规划决策和工具调用暴露为可检查的工件，直接针对透明度和可审计性挑战。此外，我们为框架配备了三种针对DR定制的认知机制：（i）一种基于图的动态规划器，将研究路线图建模为不断发展的有向无环图，以粗到细方式扩展并通过反思、重新规划、回溯和并行分支持续修订。与短视的逐步ReAct风格推理不同，该图维护整个轨迹的全局、远见视图，并在工具失败或新证据推翻先前假设时重新思考策略，同时提供长期预见性和动态范围控制；（ii）一种递归的两级执行设计，其中外部研究智能体将每个复杂搜索子任务委托给一个内部搜索智能体，该搜索智能体本身是一个完整的工场智能体，运行自己的规划-执行循环。这种嵌套将嘈杂的多步检索与高层研究策略隔离，使得单个失败的搜索不会破坏全局轨迹——这是在随机网络条件下稳定执行的关键；（iii）一种基于规则的测试时优化机制，动态综合特定于问题的评估规则，并将其用作推理时推理支架，将生成的声明与检索到的证据联系起来，同时提供自适应终止标准。

我们在两个深度研究基准测试上进行了广泛实验。在DeepResearch Bench上，DuMate-DeepResearch在强大的商业和开源基线中获得了总体最佳得分，确立了新的最佳性能。在DeepResearch Bench II上，该基准通过细粒度专家推导规则评估报告，DuMate-DeepResearch也取得了总体最佳得分，并在信息召回和分析维度上领先。这些结果共同表明，所提出的架构在报告整体质量、基于规则的证据获取与综合方面均有所提升。

总之，本报告的主要贡献总结如下：

- **用于可审计DR的解耦多智能体基础设施**：我们介绍了千帆智能体工场，这是一种高度可扩展的架构，通过将推理核心与工具生态系统分离，实现了透明的“理解-规划-执行”循环范式，产生了一个整个轨迹都可审计的DR流水线。
- **基于图的动态规划算法**：我们将研究路线图表示为动态有向无环图，以粗到细方式扩展，并配备反思、重新规划、回溯和并行分支。与一次只承诺一个下一步动作的短视ReAct风格推理相比，该图维护全局、远见的轨迹视图，并在证据积累时自我修订，同时提供长期预见性和自适应范围控制。
- **递归两级执行框架**：我们递归地实例化工场范式：外部规划智能体将深度研究任务分解为子任务，每个复杂搜索子任务又由内部搜索智能体解决，该搜索智能体本身是一个完整的工场智能体，有自己的规划-执行循环。这种嵌套将嘈杂的多步检索与高层策略隔离，防止单个失败搜索破坏全局轨迹，显著提高了执行稳定性。
- **规则作为测试时推理支架**：我们将从评估信号中动态生成的规则适应为推理时支架，校准生成内容与检索到的证据，支持事实基础并通过自适应停止标准约束探索。
- **最先进的实证性能**：我们在DeepResearch Bench和DeepResearch Bench II上进行了广泛实验。结果表明，DuMate-DeepResearch在两个基准测试上均优于现有商业和开源基线，在报告整体质量、信息召回和分析方面取得了新的最佳性能。

## 2 DuMate-DeepResearch框架

DuMate-DeepResearch是一个基于千帆智能体工场构建的端到端深度研究智能体。它遵循任务理解、规划和执行的智能体循环，以执行复杂、长期的研究任务。

##### 问题形式化。

DuMate-DeepResearch将每个研究会话组织为一个可审计、基于证据的状态转换过程。给定用户查询\(q\)，路由器产生结构化任务规范；规划器维护不断演进的研究计划；执行模块调用工具或搜索智能体并积累证据；规则引导信号指导规划、停止和写作。这种设计允许系统在保留全局报告结构和证据轨迹的同时修订研究路径。我们将这个循环形式化为一个长期研究轨迹上的状态转换系统。在迭代\(t\)，智能体维护一个研究状态\(s_t = \langle z, p_t, e_t, \rho_t \rangle\)，(1) 其中 \(z = (x, \mathcal{O})\) 是固定的任务上下文，包含研究主题 \(x\) 和报告大纲 \(\mathcal{O}\)；\(p_t\) 是当前研究计划；\(e_t\) 是从已完成动作中积累的证据库；\(\rho_t\) 是当前引导信号。后续子节将 \(p_t\) 实例化为图结构化计划（第2.2.1节 (https://arxiv.org/html/2606.07299#S2.SS2.SSS1)），\(\rho_t\) 实例化为基于规则的控制信号（第2.2.3节 (https://arxiv.org/html/2606.07299#S2.SS2.SSS3)）。增量 \(\Delta e_t\) 包含直接工具动作或搜索智能体返回的新收集的证据列表和证据摘要，包括来源记录和已执行子任务的综合发现；全局证据库是这些循环的累积。从 \(s_0 = \langle z, p_0, \varnothing, \rho_0 \rangle\) 开始，每个循环计划一组可执行动作 \(a_t\)，执行它们以获得新收集的证据 \(\Delta e_t\)，并将新信息和更新后的引导信号反馈回状态：\(s_{t+1} = \mathcal{T}\bigl(s_t, a_t, \Delta e_t\bigr)\)。(2) 该循环持续直到停止谓词 \(\textsc{Stop}(s_t)\)

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

相似文章

Mind DeepResearch 技术报告

@DanKornas：复杂的研究型智能代理会很快变得杂乱：计划、搜索、RAG、代码执行、反馈和最终报告都需要整合在一起……

通过结构化元认知在通用智能体中实现深度推理

递归多智能体系统

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

提交意见反馈