Co-ReAct:将评分标准作为 ReAct 代理的步骤级协作工具

arXiv cs.AI 论文

摘要

Co-ReAct 引入了一种基于评分标准的动作选择框架,在推理过程中将评分标准作为 ReAct 代理的步骤级指导,提高了轨迹质量,并在 DeepResearchBench 和 SQA-CS-V2 上超越了基线模型。

arXiv:2605.23590v1 公告类型:新 摘要:面向搜索密集型、多步推理任务的 ReAct 风格代理主要依赖自身内部判断来决定寻求哪些证据、下一步采取何种推理或行动步骤以及何时停止,往往会产生浅显、冗余或目标不明确的轨迹。先前的工作已探索将评分标准作为外部质量信号,但现有使用方式大多偏向评估而非行动指导:评分标准通常充当训练时的奖励或完成输出的事后评估器,而在深度研究场景中,它们往往是粗粒度、报告级别的,而非步骤级别的。我们提出了 Co-ReAct,一种基于评分标准的动作选择框架,在推理过程中将评分标准作为步骤级指导。在每个决策步骤,Co-ReAct 将评分标准注入代理的上下文,以指导下一步的“推理或行动”决策,明确代理在证据寻求、搜索、推理或自我评估中应瞄准的目标。为使这一指导可靠,我们使用 GRPO 训练了一个专用的评分标准生成器。与以往成对或二元偏好的形式化方法不同,我们的目标函数针对多专家共识排名优化列表式斯皮尔曼秩相关奖励,鼓励评分标准具有区分性而非仅仅合理。在 DeepResearchBench 和 SQA-CS-V2 上,Co-ReAct 持续优于基于 8B/14B 开源和前沿闭源基础模型构建的搜索代理上的 ReAct 及代表性测试时计算基线。训练好的评分标准生成器也可作为即插即用组件,在不改变底层决策机制的情况下改进这些基线。我们的代码已公开在 https://github.com/ZBWpro/Co-ReAct。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:58

Co-ReAct: 作为 ReAct 智能体逐步骤协作者的评分标准
来源:https://arxiv.org/html/2605.23590
Jiazheng Kang1,Bowen Zhang211footnotemark:1,Zixin Song211footnotemark:1,Jiangwang Chen211footnotemark:1, Xiao Yang1,Da Zhu1,Guanjun Jiang1

1阿里巴巴 Qwen 应用业务集团 2清华大学
{kangjiazheng.kjz,yx501135,zhuda.zd,guanj.jianggj}@alibaba-inc.com
{zbw23,songzx24,jw-chen24}@mails.tsinghua.edu.cn

###### 摘要

面向搜索密集型、多步骤推理任务的 ReAct 风格智能体,在很大程度上依赖其自身的内部判断来决定寻求哪些证据、下一步应采取何种推理或行动步骤,以及何时停止。这往往会产生浅层、冗余或目标不明确的执行轨迹。先前的工作探索了将评分标准作为外部质量信号,但现有的使用方式主要是评估性的,而非行动指导性的:评分标准通常作为训练时的奖励或已完成输出的事后评估器,并且在深度研究场景中,它们往往是粗粒度的、报告层面的,而非步骤层面的。我们提出了 Co-ReAct,一个评分标准引导的动作选择框架,在推理过程中将评分标准用作步骤级别的指导。在每个决策步骤,Co-ReAct 将评分标准注入智能体的上下文,以指导下一步的“推理或行动”决策,明确指定智能体在证据寻找、搜索、推理或自我评估中应追求的目标。为了使这种指导可靠,我们使用 GRPO 训练了一个专门的评分标准生成器。与先前成对或二值偏好公式不同,我们的目标函数优化的是针对多裁判专家共识排名的列表式 Spearman 秩相关奖励,从而鼓励评分标准具有区分性,而不仅仅是看似合理。在 DeepResearchBench 和 SQA-CS-V2 上,对于基于 8B/14B 开源及前沿闭源基础模型构建的搜索智能体,Co-ReAct  consistently 优于 ReAct 及代表性的测试时计算基线。训练好的评分标准生成器还可以作为即插即用组件,在不改变其底层决策机制的情况下改进这些基线。我们的代码已公开在 https://github.com/ZBWpro/Co-ReAct。

Co-ReAct: 作为 ReAct 智能体逐步骤协作者的评分标准

Jiazheng Kang1††感谢同等贡献., Bowen Zhang211footnotemark:1, Zixin Song211footnotemark:1, Jiangwang Chen211footnotemark:1,Xiao Yang1,Da Zhu1,Guanjun Jiang11阿里巴巴 Qwen 应用业务集团2清华大学
{kangjiazheng.kjz,yx501135,zhuda.zd,guanj.jianggj}@alibaba-inc.com
{zbw23,songzx24,jw-chen24}@mails.tsinghua.edu.cn

## 1 引言

基于 ReAct 范式 (Yao et al.,2022 (https://arxiv.org/html/2605.23590#bib.bib1)) 构建的深度研究智能体通过反复决定寻求哪些证据、下一步采取什么行动以及何时停止来执行搜索。在当前系统中,这些决策主要由智能体自身的内部判断驱动。这种自我指导可能很脆弱。智能体可能会重新发出几乎重复的查询,在收集到足够证据之前就停止,或者即使问题需要从多个视角进行比较,也仅依赖狭窄的资料来源 (Wang et al.,2025 (https://arxiv.org/html/2605.23590#bib.bib29); Shao et al.,2025a (https://arxiv.org/html/2605.23590#bib.bib30))。因此,产生的执行轨迹可能变得浅层、冗余或与当前步骤的特定需求不一致。所缺失的是一个外部的、可验证的规范,指明下一步应完成什么:一个步骤级别的信号,告诉智能体在特定轨迹的特定分支点,下一步行动应满足哪些细粒度要求。

评分标准 (Popham,1997 (https://arxiv.org/html/2605.23590#bib.bib31)) 是这种规范的天然候选,因为它们将质量表示为少量可核查的标准。然而,现有的基于评分标准的方法主要将其用作评估对象,而非指导信号 (Gunjal et al.,2025 (https://arxiv.org/html/2605.23590#bib.bib12))。在通用的大语言模型(LLM)对齐中,评分标准通常用作训练时的奖励、评判模板或已完成输出的事后评估器 (Xu et al.,2026a (https://arxiv.org/html/2605.23590#bib.bib14))。在深度研究场景中,评分标准通常也在最终报告层面定义,用于检查完成的答案是否全面、引用得当且忠实于证据 (Lv et al.,2026 (https://arxiv.org/html/2605.23590#bib.bib17); Shao et al.,2025b (https://arxiv.org/html/2605.23590#bib.bib11))。这些使用回答的问题是:已经产生的输出应获得多少分数?它们没有回答搜索智能体在推理过程中面临的问题:根据已经观察到的情况,下一个行动应满足哪些具体需求?

将评分标准用于这种规范角色需要的不仅仅是给提示附加一个通用清单。(Brookhart,2018 (https://arxiv.org/html/2605.23590#bib.bib32)) 首先,评分标准必须是*步骤级别*的:它应指定下一个行动应涵盖的内容,而非最终报告应包含的内容。其次,它必须基于当前的局部轨迹进行条件设定,因为正确的下一步行动取决于智能体已经尝试过什么以及找到了哪些证据。第三,它必须具有区分性:评分标准偏好的行动实际上应优于其惩罚的行动。最后这一要求至关重要。正如我们在消融实验中所示,不可靠的评分标准可能不仅无助于事:当被注入智能体上下文时,未经训练的评分标准可能主动误导搜索过程并降低性能。

因此,我们提出了 Co-ReAct,一个用于深度研究的、由评分标准引导的 ReAct 框架。名称 Co-ReAct 反映了评分标准作为步骤级别*协作者*的角色:在智能体行动之前,它指定下一步的细粒度要求;在行动执行之后,它为验证和反馈提供基础。Co-ReAct 训练了一个专门的评分标准生成器,以生成具有区分性的步骤级指导。与依赖成对偏好或二值接受/拒绝标签的先前评分标准学习方法 (Xu et al.,2026b (https://arxiv.org/html/2605.23590#bib.bib35)) 不同,Co-ReAct 采用列表式公式。在每个 ReAct 决策点,多个下一步行动可能看起来都合理,因此有用的信号不仅是行动是否可接受或优于另一个,还包括一组成选行动应如何相互排名。因此,我们为每个决策点采样候选下一步行动,并获得一个多裁判专家对整个候选列表的共识排名。评分标准生成器使用 GRPO (Shao et al.,2024b (https://arxiv.org/html/2605.23590#bib.bib34)) 进行训练,并采用一个 Spearman 秩相关 (Spearman,1904 (https://arxiv.org/html/2605.23590#bib.bib33); Song et al.,2025b (https://arxiv.org/html/2605.23590#bib.bib38)) 奖励,该奖励衡量专家排名与由生成评分标准所诱导出的排名之间的一致性。只有当评分标准的标准导致其行动排名与专家共识一致时,评分标准才能获得高奖励,这鼓励生成能够诱导出与专家对齐的偏好、而非仅仅听起来合理的评分标准。

在推理时,评分标准生成器扮演两个角色。作为一个完整系统,Co-ReAct 通过一个注入-验证-重试过程扩展了标准的 ReAct 循环。在每次工具调用之前,一个基于轨迹条件化的评分标准被注入智能体的上下文,以指定下一个行动应针对什么。在提出行动之后但在执行之前,一个独立的验证器根据评分标准检查所提出的行动。如果验证通过,则行动被接受;否则,验证器返回关于哪些标准尚未满足的反馈,智能体据此重新生成行动。作为一个即插即用的插件,相同的训练评分标准也可以被注入现有的测试时计算方法中,例如 Best-of-N (Snell et al.,2024 (https://arxiv.org/html/2605.23590#bib.bib7))、Step-Back (Zheng et al.,2024 (https://arxiv.org/html/2605.23590#bib.bib6)) 和 CRITIC (Gou et al.,2024 (https://arxiv.org/html/2605.23590#bib.bib5)),而无需改变它们的决策机制。在这两种情况下,评分标准都在推理时被智能体作为步骤级别的行动选择信号消耗,而不是在输出已经产生后由优化器或评估器消耗。

本工作的主要贡献如下:

- •我们将评分标准从由训练流程消耗的评估对象,重新定义为由智能体在推理时消耗的、规范性的步骤级别行动选择信号。据我们所知,Co-ReAct 是第一个在 ReAct 深度研究智能体中训练评分标准以扮演此角色的系统。
- •我们使用列表式 GRPO 目标训练评分标准生成器,该目标奖励与多裁判专家共识的秩相关性,因此学习到的评分标准本质上具有区分性,而不仅仅是看似合理。
- •我们通过实验证明,Co-ReAct 在多个基准测试、智能体主干网络和测试时计算基线上 consistently 提高了深度研究性能。将相同的学习到的评分标准插入现有方法中进一步产生了正向迁移,表明步骤级评分标准指导与当前的推理时增强技术是互补的。

## 2 相关工作

### 2.1 ReAct 范式增强

第一类工作通过为固定的 ReAct 智能体增加额外的推理时计算来改进步骤级决策。Self-Refine (Madaan et al.,2023 (https://arxiv.org/html/2605.23590#bib.bib4)) 让智能体自我批评并重写其输出;Best-of-N 采样多个并行轨迹,并使用外部或自我评分模型进行选择;Step-Back 在行动之前提示一个关于问题的更高级抽象;CRITIC 发出工具交互式的批评查询以验证和纠正中间步骤;Reflexion (Shinn et al.,2023 (https://arxiv.org/html/2605.23590#bib.bib3)) 和 Tree-of-Thought (Yao et al.,2023 (https://arxiv.org/html/2605.23590#bib.bib2)) 通过情景记忆和分支搜索扩展了相同的思想。在所有这些方法中,指导信号——批评、评分模型、抽象提示——都是由一个未经过训练的、经过提示的 LLM 产生的。Co-ReAct 在流程中占据相同的位置,但将提示信号替换为一个 GRPO 训练的评分标准生成器,其输出经过了与专家共识对应的秩校准,并且我们的插件研究 (第 4.6 节) 表明,这种训练信号与这些方法是相加的,而不是替代它们。

### 2.2 端到端训练的搜索智能体

另一类并行工作使用强化学习重新训练搜索策略本身,以便智能体自身发出更好的查询。Search-R1 (Jin et al.,2025 (https://arxiv.org/html/2605.23590#bib.bib8))、R1-Searcher (Song et al.,2025a (https://arxiv.org/html/2605.23590#bib.bib9)) 和 WebGPT (Nakano et al.,2021 (https://arxiv.org/html/2605.23590#bib.bib10)) 针对可验证或基于偏好的奖励训练智能体的策略;DR-Tulu (Shao et al.,2025b (https://arxiv.org/html/2605.23590#bib.bib11)) 维护一个不断演进的评分标准缓冲池,用于在训练期间监督策略。这些方法通过修改策略本身来改变*智能体的行为*,而我们训练一个外部的指导信号,同时保持搜索策略不变;评分标准存在于智能体之外,并在推理时被智能体消耗。因此,我们将这类工作视为系统设计的一个正交维度,并且不将其作为直接基线处理;在我们的评分标准之上堆叠一个经过训练的搜索智能体超出了本工作的范围,留待未来研究。

### 2.3 基于评分标准的奖励与评估

越来越多的工作将评分标准视为 LLM 对齐的信号。Rubric-ARM (Xu et al.,2026a (https://arxiv.org/html/2605.23590#bib.bib14)) 在评分标准生成器和评判器之间交替进行强化学习;OpenRubrics (Liu et al.,2025 (https://arxiv.org/html/2605.23590#bib.bib36)) 在大规模提示-评分标准数据上训练一个基于评分条条件的奖励模型;AdvancedIF (He et al.,2025 (https://arxiv.org/html/2605.23590#bib.bib37)) 训练了一个用于复杂指令遵循的评分标准验证器。Lv 等人 (2026 (https://arxiv.org/html/2605.23590#bib.bib17)) 和 DR-Tulu (Shao et al.,2025b (https://arxiv.org/html/2605.23590#bib.bib11)) 训练或演化用于深度研究的评分标准,两者都在报告层面;Seed (Sheng et al.,2026 (https://arxiv.org/html/2605.23590#bib.bib18)) 在强化学习期间自我演化思维链(CoT)评分标准。更广泛的 LLM-as-a-Judge (Lee et al.,2024 (https://arxiv.org/html/2605.23590#bib.bib19); Bai et al.,2022 (https://arxiv.org/html/2605.23590#bib.bib20)) 和过程奖励模型工作 (Wang et al.,2024 (https://arxiv.org/html/2605.23590#bib.bib21); Lightman et al.,2024 (https://arxiv.org/html/2605.23590#bib.bib22)) 同样使用 LLM 派生的信号来评分或监督推理步骤。在所有这些设置中,评分标准被以*评估性*方式消耗——由训练流程作为奖励、评判模板或事后验证器——以决定一个已产生的响应应获得多少分数。我们的评分标准则由智能体本身在推理时以*规范性*方式消耗,并根据当前的局部轨迹逐步生成,而不是每个查询或每个完成的报告生成一次。据我们所知,Co-ReAct 是第一个在 ReAct 智能体中训练评分标准以扮演这种规范性、步骤级别角色的系统。

## 3 方法

我们的方法分为三个阶段:(i) 从真实的 ReAct 轨迹中收集分支点,并为每个分支点提供关于候选下一步行动的专家排名,(ii) 使用 GRPO 训练一个评分标准生成器,使其生成的评分标准产生的排名与专家排名一致,以及 (iii) 在推理时,将训练好的评分标准用于一个注入-验证-重试循环中。图 1 给出了一个概述,同样的生成器也可以作为其他测试时方法的即插即用插件 (第 4.6 节)。

![图 1:Co-ReAct 概述。](https://arxiv.org/html/2605.23590/figures/fig1.png)
图 1:Co-ReAct 概述。(i) 收集:在每个分支点采样候选下一步行动,并使用多裁判专家共识对其进行排名。(ii) 训练:使用 GRPO,奖励为评分标准诱导的排名与专家排名之间的 Spearman 相关性。(iii) 推理:训练好的评分标准驱动一个五元组(评分标准,推理,行动,验证,观察)循环。

### 3.1 偏好数据收集

我们从真实 ReAct 轨迹的分支点构建训练数据,以便评分标准能够在下游智能体遇到的相同决策状态下得到监督。令 \( q \) 表示一个研究查询。查询 \( q \) 的一个 ReAct 轨迹是交替的行动和观察序列 \( (a_1, o_1, a_2, o_2, \ldots) \),其中 \( a_t \) 是步骤 \( t \) 采取的行动,\( o_t \) 是对应的观察。我们将 \( h_t = (a_1, o_1, \ldots, a_{t-1}, o_{t-1}) \) 写作到步骤 \( t \) 为止的轨迹前缀。

从一个深度研究查询池开始,我们在每个查询上运行一个搜索智能体,以获得完整的 ReAct 轨迹。在每个工具调用步骤 \( t \),我们将对 \( (q, h_t) \) 视为一个*分支点*,并收集一组 \( k \) 个候选下一步行动 \( \mathcal{A}_t = \{ a_t^{(1)}, \ldots, a_t^{(k)} \} \)。

为确保候选列表多样化,而不是充满近似重复项,我们在每个分支点生成 12 个连续动作,这些动作来自三个不同规模的 ReAct 智能体——Qwen3-8B、Qwen3-14B 和 Qwen3-32B——每个智能体在温度参数 \( \{ 0.1, 0.4, 0.7, 1.0 \} \) 下进行采样。混合模型规模和温度范围拓宽了候选列表中搜索策略和表面形式的范围。

相似文章

ReAct 还是 CodeAct,这是问题所在

Reddit r/AI_Agents

本文探讨了 AI 工程中 ReAct 和 CodeAct 两种编排范式的利弊,强调了 CodeAct 在处理复杂任务时的高效性,并介绍了一个新的开源框架。

RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习

Hugging Face Daily Papers

本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。

ARES:可扩展LLM强化学习的自动评估标准合成

arXiv cs.CL

ARES提出了一种框架,能够从预训练文档中自动构建基于评估标准的强化学习数据,生成问答对和加权评估标准,从而为开放式的LLM回答提供实例级别的奖励监督,在多维开放式任务上优于现有方法。

ReCrit:面向科学批评推理的过渡感知强化学习

arXiv cs.LG

ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。