基于规划器的深度研究强化学习框架：结构感知奖励

arXiv cs.AI 2026/06/01 04:00 论文

摘要

DecomposeR 提出了一种以规划器为中心的强化学习框架，将研究计划表示为类型化的有向无环图（DAG），从而实现对深度研究任务中规划与执行的细粒度优化，在开源基线基础上提升 5.1–8.0 个点。

arXiv:2605.30824v1 公告类型: 新摘要：深度研究任务要求大语言模型规划调查内容、检索证据，并在多个分支下综合生成长篇答案。现有训练范式要么依赖短格式可验证问答作为代理，要么优化单一的长轨迹，这使得规划与执行难以分离，且对规划过程的信用分配较弱。我们提出 DecomposeR，一种以规划器为中心的深度研究框架，将研究计划表示为类型化的有向无环图（DAG），使规划变得明确、结构化且可奖励。我们分两个阶段训练 Qwen3-8B 模型：规划器强化学习首先学习图结构和查询分解以改进研究规划，然后回答器强化学习基于所学规划学习分支级执行和最终综合。通过将奖励分配给显式的规划器 token 和结构化组件，而非扁平轨迹，DecomposeR 实现了对规划的细粒度优化，同时减少了端到端训练的歧义。实验表明，DecomposeR-8B 在流行的长格式基准测试中，由于规划和回答能力的提升，比强大的可比较开源基线提高了 5.1–8.0 个点。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:25

# 以规划者为中心的深度研究强化学习与结构感知奖励  
来源：https://arxiv.org/html/2605.30824  
Mustafa Anis Hussain, Xinle Wu, Yao Lu  
新加坡国立大学  
{mustafah,wuxl,luyao}@comp.nus.edu.sg  

###### 摘要  

深度研究任务要求LLM规划需要调查的内容、检索证据，并在多个研究分支中综合生成长篇答案。现有的训练范式要么依赖短格式可验证的问答作为代理，要么优化单一的长时间轨迹，这使得规划和执行难以解耦，并导致规划过程的信用分配薄弱。我们提出DecomposeR，一个以规划者为中心的深度研究框架，将研究计划表示为类型化的有向无环图（DAG），从而使规划变得明确、结构化且可奖励。我们分两个阶段训练一个Qwen3-8B模型：规划者强化学习（RL）首先学习图结构和查询分解以改进研究规划，然后回答者强化学习（RL）基于学习到的计划学习分支级别执行和最终综合。通过将奖励分配给明确的规划者token和结构化组件，而不是一个扁平轨迹，DecomposeR实现了对规划的更细粒度优化，同时减少了端到端训练的模糊性。实验表明，DecomposeR-8B在流行的长格式基准测试上，由于规划和回答能力的提升，相比于强大的可比较开源基线提高了5.1–8.0分。  

DecomposeR: 以规划者为中心的深度研究强化学习与结构感知奖励  
Mustafa Anis Hussain, Xinle Wu, Yao Lu  
新加坡国立大学  
{mustafah,wuxl,luyao}@comp.nus.edu.sg  

## 1 引言  

深度研究（DR）需要规划调查内容、执行多次搜索、选择证据，并将研究结果综合成带有引用依据的长篇报告。这类工作流程对于科学文献综述、临床证据聚合以及一般性调查任务越来越重要 (Asai et al., 2024a (https://arxiv.org/html/2605.30824#bib.bib2); Singh et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib23); Arora et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib1); Du et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib6))。前沿专有系统展示了这种工作流程的实际价值 (OpenAI, 2025 (https://arxiv.org/html/2605.30824#bib.bib18); Comanici et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib5); Perplexity Team, 2025 (https://arxiv.org/html/2605.30824#bib.bib19))，而开源替代方案要么将强大的LLM包装在无训练的检索流水线中 (Li et al., 2026a (https://arxiv.org/html/2605.30824#bib.bib14),b (https://arxiv.org/html/2605.30824#bib.bib15))，要么通过强化学习对小型模型进行后训练 (Jin et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib10); Song et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib24); Chen et al., 2026 (https://arxiv.org/html/2605.30824#bib.bib4); Mei et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib17))。  

尽管取得了进展，当前基于RL训练的DR系统在奖励方面存在两个限制，束缚了训练信号。首先，信用分配是模糊的。推理、搜索、证据选择、分支综合和最终写作在扁平的ReAct风格轨迹中交织在一起 (Yao et al., 2023 (https://arxiv.org/html/2605.30824#bib.bib28))，并且从最终答案得出的单一标量奖励被传播到每个模型动作。因此，一个弱的最终答案无法归因于特定的失败点，梯度无法引导改进朝向负责的组件。其次，奖励是稀疏的。中间的计划、搜索和综合决策几乎没有直接监督 (Jin et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib10); Song et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib24); Chen et al., 2026 (https://arxiv.org/html/2605.30824#bib.bib4))；每个中间动作只能通过其对最终答案的最终影响来塑造，这既减慢了学习速度，又在长DR轨迹中破坏了信用传播。  

参照图说明  
图 1: DecomposeR 的 rollout 结构。规划者首先生成一个初始的类型化 DAG，接收搜索结果，修订图和获取集，然后回答者以拓扑波次执行修订后的图，最后写出最终答案。  

我们提出 DecomposeR，它通过一个单一设计原则解决了这两个限制：面向深度研究的结构感知奖励建模。研究计划被具体化为一个显式的类型化 DAG（图 1 (https://arxiv.org/html/2605.30824#S1.F1)），其中搜索节点发出网络查询，聚合节点综合分支级结论，一个最终答案节点将各分支整合到最终报告中。由于每个计划组件都是独立可寻址的，奖励可以分配给研究过程的相应部分，而不仅仅是最终报告。规划者奖励对计划节点字段的评分覆盖、搜索节点的搜索质量以及诸如分支广度和证据重用等结构行为进行评分；回答者奖励对分支级执行和最终综合进行评分。这种设计通过将奖励与负责每个决策的组件绑定来改善信用分配，并通过将单个轨迹末端的标量替换为分布在分解上的信号来减少稀疏性。  

我们在三个长格式基准测试上评估 DecomposeR：DeepResearchBench、ResearchQA-Mini 和 HealthBench。尽管端到端训练预算小得多，DecomposeR 在强大的可比开源基线上提高了 5.1–8.0 分。我们的贡献是：(1) 面向深度研究的结构感知奖励建模：我们将 DR 计划具体化为一个类型化 DAG，其结构组件可直接被奖励函数寻址，从而允许单独的信号优化相应的计划和执行组件，而不是从轨迹末端读取；(2) DecomposeR 框架：我们用类型化分解图和分阶段强化学习实例化这些奖励，使搜索广度、证据重用、分支整合、执行保真度和最终答案质量成为可寻址的优化目标；(3) 实证验证：我们在三个长格式基准上进行评估，分析表明奖励组件、结构化分解接口和基于搜索条件的修订都对最终提升有所贡献。  

## 2 相关工作  

深度研究智能体。最近的深度研究系统使用网络规模的检索和长格式综合来回答开放式查询。前沿系统如 OpenAI Deep Research 依赖于强大的基础模型和推理时的编排 (OpenAI, 2025 (https://arxiv.org/html/2605.30824#bib.bib18))。WebWeaver 通过动态大纲、证据记忆和基于引用的写作走向更显式的结构，但仍然是推理时的双智能体框架，而不是对类型化计划的 RL 目标 (Li et al., 2026b (https://arxiv.org/html/2605.30824#bib.bib15))。WebThinker 在支持网络的推理循环中交织思考、搜索、导航和草稿，并通过在线偏好优化改进工具使用 (Li et al., 2026a (https://arxiv.org/html/2605.30824#bib.bib14))。WebSailor 和 WebExplorer 专注于长周期网络智能体，构建高不确定性或演进的网络导航任务，并训练智能体处理大量工具调用 (Li et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib13); Liu et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib16))。这些系统展示了搜索和综合的重要性，而 DecomposeR 则专注于使研究计划本身成为一个结构化的、独立奖励的策略对象。  

用于搜索和工具使用的 RL。GRPO 和 RLVR 风格的后训练已应用于推理、搜索和工具使用 (Shao et al., 2024 (https://arxiv.org/html/2605.30824#bib.bib21); Guo et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib7))。Search-R1 训练模型将推理和搜索交织在一起，并带有检索 token 掩码和结果奖励 (Jin et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib10))，而 R1-Searcher 研究基于结果的 RL，用于在没有过程监督的情况下调用搜索 (Song et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib24))。ReSearch 类似地将搜索调用视为推理链的一部分，使用显式的 <search> 和 </search> 标签，并从策略梯度损失中屏蔽检索结果 (Chen et al., 2026 (https://arxiv.org/html/2605.30824#bib.bib4))。O2-Searcher 通过本地搜索环境和任务感知奖励针对开放式和封闭式问答 (Mei et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib17))。ParallelSearch 解决了一个正交的效率问题，通过奖励模型分解可以并行搜索的独立子查询 (Zhao et al., 2025 (https://arxiv.org/html/2605.30824#bib.bib29))。DecomposeR 的不同之处在于将完整的研究计划暴露为一个类型化图，并在训练答案综合之前将奖励分配给图组件，而不是将搜索轨迹视为一个扁平的序列工具动作。  

查询分解与检索增强生成。先前的分解方法通过提示或模块化推理将复杂问题分解为子问题 (Khot et al., 2023 (https://arxiv.org/html/2605.30824#bib.bib11); Wang et al., 2023 (https://arxiv.org/html/2605.30824#bib.bib26); Trivedi et al., 2023 (https://arxiv.org/html/2605.30824#bib.bib25))。检索增强生成系统学习何时检索以及检索什么 (Asai et al., 2024b (https://arxiv.org/html/2605.30824#bib.bib3); Jiang et al., 2023 (https://arxiv.org/html/2605.30824#bib.bib9))。DecomposeR 将这些思想引入到开放式 DR 的 RL 中，使分解成为可训练的图策略，而不是一个未观察到的潜在推理轨迹。  

## 3 方法论  

### 3.1 问题形式化  

现有的基于 RL 训练的 DR 系统将智能体的 rollout 建模为一个扁平序列  
\[
\tau_{\mathrm{flat}} = (x, m_1, o_1, \ldots, m_T, o_T, y),
\]  
其中模型动作 \(m_t\) 和工具观测 \(o_t\) 交替进行，直到发出最终答案 \(y\)，并且一个单一的标量奖励 \(R(x, y)\) 通过每个 \(m_t\) 传播以进行策略更新。第 1 节中识别的限制可以直接从这个形式化中读出。首先，每个 \(m_t\) ——无论它携带的是规划决策、搜索查询还是综合句子——都在相同的 \(R\) 下被更新，因此梯度无法将失败定位到特定角色。其次，\(R(x, y)\) 监督整个 \(\{m_t\}_{t=1}^T\)，使得每个中间 \(m_t\) 只能通过其对最终 \(y\) 的最终影响来塑造。第三，\(m_t\) 是一个非结构化的 token 序列，因此子任务之间的依赖关系以及跨分支的证据重用没有原生表示。  

DecomposeR 将这个扁平轨迹替换为一个分解轨迹，其中显式计划 \(\mathcal{G}\) 介于规划者策略 \(\pi_P\) 和回答者策略 \(\pi_A\) 之间：  
\[
\tau = (x, \mathcal{G}_0, Z, \mathcal{G}_1, F, O_{1:K}, y),
\]  
其中 \(\mathcal{G}_0\) 是由 \(\pi_P\) 发出的初始计划，\(Z = \mathcal{E}(\mathcal{G}_0)\) 是环境 \(\mathcal{E}\) 返回的搜索观测，\(\mathcal{G}_1\) 是规划者修订后的计划，\(F\) 是获取的文档，\(O_{1:K}\) 是 \(\pi_A\) 在 \(K\) 个拓扑波次中产生的中间输出，\(y\) 是最终答案。联合轨迹分布分解为  
\[
\pi(\tau|x) = \pi_P(\mathcal{G}_0|x) \, \mathcal{E}(Z|\mathcal{G}_0) \cdot \pi_P(\mathcal{G}_1, F|x, \mathcal{G}_0, Z) \, \pi_A(O_{1:K}, y|x, \mathcal{G}_1, F)
\]  
这个结构直接解决了式 (1) 的限制：\(\pi_P\) 和 \(\pi_A\) 成为各自可优化的策略，每个都有自己的奖励（解决角色纠缠）；奖励可以分别分配给 \(\mathcal{G}_1\)、单个 \(O_k\) 和 \(y\)，从而将监督分布在整个 rollout 中（解决稀疏性）；并且 \(\mathcal{G}\) 是一个显式的结构对象，由规划者发出并由回答者消费（解决表达能力，结构在第 3.3 节中详述）。  

因此，训练目标分解为两个角色特定的目标：  
\[
\mathcal{J}_P(\theta_P) = \mathbb{E}_x \left[ R_P(\mathcal{G}_1; x, Z) \right], \quad
\mathcal{J}_A(\theta_A) = \mathbb{E}_x \left[ R_A(O_{1:K}, y; x, \mathcal{G}_1) \right]
\]  
在两个顺序的 RL 阶段中优化，其中 \(R_P\) 和 \(R_A\) 分别代表规划者奖励和回答者奖励。  

### 3.2 概述  

图 1 展示了 DecomposeR 的 rollout，在训练和推理时除了梯度应用之外是相同的。给定一个查询 \(x\)，规划者首先以类型化 DAG 的形式发出一个初始计划 \(\mathcal{G}_0\)（其构造详见第 3.3 节）。环境 \(\mathcal{E}\) 执行 \(\mathcal{G}_0\) 中的每个搜索节点，并返回观测集 \(Z\)。规划者消费 \(Z\) 并发出一个修订后的计划 \(\mathcal{G}_1\) 以及一小部分要获取的 URL \(F\)；然后 \(\mathcal{E}\) 只运行 \(\mathcal{G}_1\) 中新增或修改的搜索节点，并获取 \(F\) 中的 URL，重用未改变的搜索节点的观测。最后，回答者以拓扑波次填充 \(\mathcal{G}_1\) 的聚合节点，并在答案节点处生成最终的基于引用的报告。  

下面证明了该流水线背后的三个设计选择。  

为什么使用类型化 DAG。一个包含搜索类型、聚合类型和答案类型节点的类型化 DAG 使得跨源证据重用和层次化综合在结构层面显式化，而线性列表和树状计划无法原生表达这两种特性。该结构进一步暴露了定义良好的属性——分支广度、跨分支整合、查询区分度——作为规划者奖励可直接定位的可寻址单元（第 3.4.2 节）。  

为什么采用两轮规划。\(\mathcal{G}_0\) 仅从 \(x\) 生成，因此只反映了规划者对值得调查内容的参数化猜测。参数化知识常常与开放网络上实际可检索的内容不一致：查询可能返回稀疏、不相关或过时的片段。第二轮通过检索现实闭合了规划的循环，让规划者放弃无效的子查询，添加从检索片段中启发的新子查询，并将完整页面获取集中在最可能支持综合的 URL 上。  

为什么将规划者和回答者解耦。将规划和回答合并到一个策略中，并在一个单一的轨迹级奖励下进行，会混淆它们的失败模式：一个低的答案分数无法区分是忠实执行了弱计划，还是糟糕地执行了强计划。通过顺序训练这两个角色，规划者 RL 优化的奖励仅依赖于 \(\mathcal{G}

基于规划器的深度研究强化学习框架：结构感知奖励

相似文章

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

表示学习助力可扩展多任务深度强化学习

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

超越奖励工程：长上下文强化学习的数据配方

Thoughts-as-Planning: 通过强化规划进行思维链优化的潜在世界模型

提交意见反馈