通过联合生成与评估实现自进化深度研究

arXiv cs.CL 2026/06/04 04:00 论文

摘要

来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架，将LLM同时训练为深度研究报告生成器和评估器，并通过元约束机制动态调整评估难度，防止奖励饱和。实验表明，该方法在开放式研究报告质量上取得了持续提升。

arXiv:2606.04507v1 公告类型：新论文摘要：大语言模型（LLMs）在日常应用中的采用日益广泛，其中深度研究是一项尤为重要的能力。与传统问答（QA）任务不同，深度研究报告生成缺乏明确的标准答案，导致奖励设计本质上难以验证，从而限制了强化学习的有效性。现有方法通过LLM-as-a-judge和查询相关的评估维度来缓解这一挑战，但仍依赖静态评估器，无法随着求解器的提升而调整标准，最终导致优化压力不足乃至饱和。针对这一局限，我们提出了一种面向深度研究评估与生成的**自进化协同进化训练框架**（SCORE），将评估器与求解器紧密耦合在共享参数的学习过程中。我们不将生成与评估视为相互独立的模块，而是利用二者的内在联系，在单一共享参数模型中实现联合提升。为约束这一过程，我们引入了元约束机制（meta-harness），根据求解器的表现动态调控评估环境，促进有效评估维度的形成并引导评估器进行足够深入的搜索。在深度研究基准上的大量实验表明，报告生成质量得到持续提升，这证明协同进化评估与生成是训练开放式研究智能体的一个颇具潜力的方向。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:15

# 通过联合生成与评估实现自进化深度研究

来源：https://arxiv.org/html/2606.04507

Han Zhu¹, Chengkun Cai²∗, Yuanfeng Song³†, Xing Chen³, Sirui Han¹†, Yike Guo¹
¹香港科技大学 ²字节跳动（中国）³伦敦大学学院

###### 摘要

大语言模型（LLMs）在日常应用中的采用率日益提高，深度研究已成为其中一项尤为重要的能力。与传统问答（QA）任务不同，深度研究报告生成缺乏明确的参考答案，使得奖励设计在本质上难以验证，从而限制了有效的强化学习。现有方法通过 LLM-as-a-judge 和依赖查询的评估规则来缓解这一挑战，但它们仍依赖于静态评估器，无法随着求解器的提升而动态调整评估标准，导致优化压力不足并最终趋于饱和。针对这一局限，我们提出了一种**深度研究评估与生成的自进化协同进化训练框架（SCORE）**，该框架将评估器与求解器在共享参数的学习过程中紧密耦合。我们不将生成与评估视为相互独立的模块，而是利用二者之间的内在联系，在单一共享参数模型中实现联合提升。为约束这一过程，我们引入了元约束器（meta-harness），它根据求解器的表现动态控制评估环境，鼓励有效的评估维度并促进评估器进行足够深度的搜索。在深度研究基准上的大量实验表明，报告生成质量得到了持续稳定的提升，证明了协同进化评估与生成是训练开放式研究智能体的一个有前景的方向。

## 1 引言

参见图1：LLMs 生成能力与评估能力正相关的实证证据。

凭借其卓越的能力，大语言模型已深度融入各类复杂领域，涵盖自动驾驶\[48\]、软件开发\[9\]、多媒体生成\[33, 46, 54\]等众多场景\[49, 25\]。随着对综合信息检索与合成需求的不断增长，提升 LLMs 的深度研究能力正受到研究人员越来越多的关注。GPT-Researcher\[13\] 和 AgentCPM-Explore\[2\] 等搜索智能体近期在多跳研究任务中展现出了出色的能力。此外，Search-o1\[26\] 和 SSP\[30\] 等前期工作表明，将强化学习（RL）应用于这些模型，能够在集成到智能体时大幅增强其推理能力，在复杂问答任务上取得显著的性能提升。

与传统 QA 任务不同，针对开放式报告生成训练模型面临两大挑战。**首先**，综合性报告缺乏明确的参考答案，导致客观奖励信号本质上难以定义\[23, 12\]。由于开放式查询没有绝对标准，依赖人工标注来评估生成报告的成本极高，难以构建客观且可扩展的奖励信号。**其次**，高质量报告的评估标准是多维度且与查询相关的\[21, 10\]。单一固定的评估指标不可避免地忽略了不同问题所需的关键维度，如事实正确性和见解多样性。这种维度缺失导致训练信号稀疏，无法为复杂生成任务提供所需的细粒度信用分配。

为克服报告生成中的上述挑战，近期研究提出了若干新颖范式以提供更有效的优化信号。WebThinker\[27\] 和 Step-DeepResearch\[16\] 在训练过程中引入了 LLM-as-a-judge\[57\] 来评估报告质量。AdaRubric\[8\] 提出了一种根据输入指令动态生成特定任务评估标准的框架。Mix-GRM\[52\] 利用可验证奖励的强化学习（RLVR），根据不同任务需求在广度优先（B-CoT）和深度优先（D-CoT）评估策略之间自动切换。然而，固定的外部评估器缺乏动态调整评估标准的能力，因此无法随着求解器的提升持续提供有效的优化压力。

如图1的实证观察所示，LLMs 的生成质量与其评估能力呈正相关。基于这一洞察，我们假设生成能力与评估能力可以相互促进，并应在统一而非解耦的架构中共同优化。为此，我们提出了一种自博弈框架，策略模型在其中迭代地生成和评估报告。通过以动态评估器替代固定的外部评判者，使评估器与求解器协同进化，我们的方法在整个学习过程中保持了有效的训练压力。此外，元约束器（Meta-Harness）\[22\] 通过施加环境约束来稳定这一过程。实验结果表明，这种协同进化范式在多样化的研究生成任务中带来了实质性且持续的提升。

总结而言，我们的贡献如下：

- 我们提出 SCORE，一种面向深度研究智能体训练的评估器-求解器自博弈框架，适用于不可验证奖励场景。该框架通过元约束器的约束，为求解器在开放式报告生成中的能力优化提供动态、多维度的奖励。
- 我们对共享参数下的 SCORE 进行了理论分析，阐明了评估器侧自适应中一致性的作用，并刻画了共享参数交替更新的局部优化行为。
- 我们证明了我们的方法在深度研究基准的多个评估维度上提升了智能体性能，并对不可验证奖励条件下参数如何影响训练过程进行了系统性分析。

## 2 相关工作

### 2.1 深度研究

LLMs 在近期智能体研究中展现出了强大的深度研究能力\[59, 1\]。早期框架，包括 Search-o1\[26\]、Search-R1\[20\] 和 R1-Searcher\[39\]，成功地将显式推理过程引入智能体搜索框架，在多跳问答任务上取得了显著的实证提升。在此基础上，研究人员将多种优化算法集成到智能体训练流程中。具体而言，WebThinker\[27\] 将迭代直接偏好优化（DPO）用于深度研究智能体，而 DeepResearcher\[58\] 则采用了组相对策略优化（GRPO）。与这些算法增强路线不同，SimpleDeepSearcher\[40\] 认为训练数据质量比具体训练范式更为重要。

超越 QA 任务，报告生成任务本质上更为复杂，涉及开放式、多层面的综合，如何为自动评估建立可靠的参考答案仍是关键瓶颈。为应对这一复杂性，STORM 和 Co-STORM 等多智能体框架在报告生成过程中利用了先验知识和人在回路交互\[34, 19\]。后续方法如 Step-DeepResearch 和 AgentCPM-Report\[16, 28\] 则直接整合了针对其特定智能体框架优化的模型训练。

### 2.2 内在奖励与自博弈

传统自博弈作为一种对抗性强化学习方法被广泛应用于智能体研究\[53\]。AbsoluteZero、R-Zero、SeRL 和 SPIRAL 证明了自进化在数据稀缺情况下处理复杂推理任务的有效性\[55, 17, 29, 11\]。近期框架，包括 Search Self-play、Dr. Zero 和 SPaR，展示了将这一技术应用于多跳环境中搜索智能体的显著优势\[30, 50, 3\]。

除提出者-求解器自博弈等对抗学习范式外，另有方法提出在模型自身生成的过滤轨迹上训练求解器，如 WebThinker、EvolveSearch 和 EXSEARCH 等框架所示\[27, 51, 38\]。其他值得关注的工作包括 AceSearcher，它采用分解器与求解器之间的协作交互来实现自我提升\[45\]。此外，利用模型自身提供内部奖励的优化策略已被研究人员用于 INTUITOR\[56\] 和 JEPO\[41\] 等框架。这些前期工作证明了内部信号在增强自主能力提升方面的有效性。

然而，深度研究任务的独特特性带来了重大的评估挑战。对开放域综合性报告进行可靠评分的困难，使得设计能够解决信用分配问题的有效奖励信号极具挑战性。

## 3 方法

参见图2：SCORE 由元约束器控制。评估器首先从提供的维度池中选择评估维度并相应检索证据。求解器使用来自评估器的奖励进行更新，而评估器则基于求解器生成的展开报告的一致性进行优化。奖励验证器在奖励用于求解器优化之前过滤掉无效奖励。

### 3.1 问题设定

我们研究**深度研究报告生成**问题，目标是在给定查询 $q$ 和环境 $\mathcal{E}_{q}$ 的条件下，学习候选报告 $r$ 的策略 $\pi(r\mid q,\mathcal{E}_{q})$。我们假设报告质量由一个潜在函数 $Q(r;q,\mathcal{E}_{q})$ 决定，理想目标是为潜在质量更高的报告分配更多概率质量。其中，$q\in\mathcal{Q}$ 表示用户查询，$r\in\mathcal{R}$ 表示候选长篇报告，$\mathcal{E}_{q}$ 表示特定于查询的证据与评估环境。

与 QA 式任务不同，$Q$ 本质上是**多维度**且**依赖查询**的：报告可能在不同维度上成功或失败，例如事实支撑、证据覆盖率、引用依据、矛盾处理、不确定性校准以及语篇连贯性。因此，长篇报告生成很难采用单一可靠的验证器或固定的标量奖励，难以同时满足足够信息量和广泛适用性的要求。

我们因此将深度研究formulate为带有评估瓶颈的查询条件报告优化问题。其中，训练深度研究模型的核心挑战在于：如何在有限监督条件下，以特定于查询且稳定的方式评估长篇报告。

### 3.2 SCORE 概述

为应对这一挑战，我们提出 SCORE，一种面向深度研究报告生成的基于检索和外部引导的评估器-求解器框架，如图2所示。SCORE 包含四个组件：

1. 一个可通过搜索和检索工具查询的**外部证据环境**；
2. 一个塑造特定于查询评估环境的固定外部**元约束器**；
3. 一个构建查询条件评估规则并产生结构化报告评估的**评估器**；
4. 一个与证据环境交互、收集支撑证据并在相应规则下生成报告的**求解器**。

SCORE 的一个关键设计选择是：求解器和评估器作为**共享底层行动者**上两个功能不同的角色来实现。这一设计的动机在于报告生成与报告评估之间存在大量重叠——两者都需要查询理解、证据建模和语篇层面的推理。我们在消融实验第5.2节中对这一选择进行了实证检验。

训练通过对共享行动者的顺序交替更新进行：求解器使用评估器导出的报告奖励进行优化，而评估器则使用评估规则层面的辅助信号进行优化。两种更新均通过与参考策略的 KL 散度进行正则化，以限制过度的策略漂移。

### 3.3 外部证据与特定于查询的环境

对于每个查询 $q$，SCORE 通过搜索和检索工具与外部证据环境进行交互。我们将从该环境获得的初始证据记为 $D_{q}^{(0)}=\mathcal{R}(q)$，其中 $\mathcal{R}$ 抽象了系统可用的检索交互。在实践中，该证据环境可包括网络搜索、文档检索或其他工具媒介的证据来源。

基于初始证据 $D_{q}^{(0)}$，SCORE 通过固定的外部**元约束器**构建特定于查询的评估环境：

$$\mathcal{E}_{q}=\mathrm{Harness}(q,D_{q}^{(0)},\mathcal{S}),$$

其中 $\mathcal{S}$ 表示约束器可获取的近期训练统计信息或历史信号。生成的环境 $\mathcal{E}_{q}$ 为当前查询指定了可允许的评估空间，包括候选评估维度、对有效评估规则的结构性约束、证据验证或比较的过程要求，以及特定于任务的辅助指导。元约束器是外部且不可训

通过联合生成与评估实现自进化深度研究

相似文章

Hybrid Open-Ended Tri-Evolution 打造更好的深度研究者

谁为评分者评分？自我改进大语言模型代理中评估指标与技能的协同进化

教导LLMs自我进化：通过强化学习培养核心元技能

DR^{3}-Eval: 迈向真实且可复现的深度研究评估

超越静态评估：面向对抗博弈的LLM驱动策略演化中的共演化机制

提交意见反馈