ICRL:通过强化学习内化自我批判

arXiv cs.AI 论文

摘要

本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。

arXiv:2605.15224v1 公告类型:新 摘要:基于大语言模型的智能体会犯错,但批判往往能引导同一模型走向正确行为。然而,当批判被移除时,模型可能在同一查询上再次失败,这表明它并未将批判的指导内化为自身能力。同时,冻结的批判器无法随时间提高其反馈质量,限制了迭代自我改进的潜力。为此,我们提出通过强化学习内化自我批判(ICRL),这是一种新颖的框架,从共享基础模型联合训练求解器和批判器,将批判引发的成功转化为无辅助的求解器能力。批判器根据求解器后续性能提升获得奖励,从而激励可行的反馈。为解决批判条件行为与无批判行为之间的分布偏移,ICRL引入了分布校准重加权比率,选择性地转移与求解器自身提示分布兼容的批判指导性改进。此外,角色分组优势估计稳定了两个角色之间的联合优化。这些机制共同确保求解器学会在没有外部批判的情况下自我改进,而不是依赖于批判条件行为。我们使用Qwen3-4B和Qwen3-8B作为基础模型,在涵盖智能体和数学推理任务的多样化基准上评估ICRL。结果显示持续改进,在智能体任务上比GRPO平均提升6.4个点,在数学推理上平均提升7.0个点。值得注意的是,学习到的8B批判器在使用显著更少token的情况下与32B批判器相当。代码可在https://github.com/brick-pid/ICRL获取。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:31

# 通过强化学习学习内化自我批评

**来源:** https://arxiv.org/html/2605.15224

林建波¹,² 余晓敏¹ 辛毅² 郭逸夫³ 蒋卓松⁴  
钟启越⁷ 王伟石⁶ 邹和庆⁵ 秦成伟¹† 熊辉¹

¹ 香港科技大学(广州)  
² 南京大学  
³ 中山大学  
⁴ 新加坡国立大学  
⁵ 南洋理工大学  
⁶ SAP  
⁷ 微软研究院  

[email protected]

###### 摘要

基于大语言模型的智能体会犯错,但批评通常可以引导同一模型走向正确行为。然而,当移除批评后,模型可能在相同的查询上再次失败,这表明它并未将批评的指导内化为其基础能力。同时,一个冻结的批评者无法随着时间的推移提高其反馈质量,限制了迭代自我改进的潜力。为了解决这个问题,我们提出了**I**CRL(通过**R**einforcement **L**earning 内化自我批评,即 **I**nternalize self-**C**ritique with **R**einforcement **L**earning),这是一个新颖的框架,它从一个共享主干联合训练求解器和批评者,将批评引发的成功转化为无辅助的求解器能力。批评者根据求解器后续的性能提升获得奖励,从而激励产生可操作的反馈。为了解决批评条件化行为和无批评行为之间的分布偏移,ICRL引入了一个分布校准重加权比率,选择性地转移那些与求解器自身提示分布兼容的、由批评引导的改进。此外,角色分组优势估计稳定了两个角色之间的联合优化。这些机制共同确保求解器学会在没有外部批评的情况下自我改进,而不是变得依赖批评条件化的行为。我们在涵盖智能体和数学推理任务的多样化基准上,使用 Qwen3-4B 和 Qwen3-8B 作为主干,对 ICRL 进行评估。结果显示出一致的改进,在智能体任务上平均比 GRPO 高出 6.4 分,在数学推理上平均高出 7.0 分。值得注意的是,学习到的 8B 批评者与 32B 批评者性能相当,同时使用的 token 数量显著减少。代码可在 https://github.com/brick-pid/ICRL 获取。

² 通讯作者。

## 1 引言

大语言模型(LLM)智能体在解决复杂任务时会犯错 (yang2024sweagent; wang2024openhands; wang2024mobile; qin2025ui; li2025websailor; li2025chain)。如图 1 (https://arxiv.org/html/2605.15224#S1.F1) 所示,批评可以引导同一模型纠正错误并成功完成任务 (madaan2023self-refine; shinn2023reflexion; liu2025trust_verify; chen2026learning_self_verify; gou2023critic; Asai2023SelfRAGLT)。然而,当移除批评后,模型可能在相同的查询上再次失败,这表明它并未将批评的指导内化为其基础能力。同时,一个冻结的批评者无法在训练过程中提高其反馈质量,限制了迭代自我改进的潜力。其挑战在于*内化*:如何将由批评引导的修正转移到求解器的无批评策略中?当将基于批评的自我改进引入训练时,一个基本的分布性障碍就会出现。如图 1 (https://arxiv.org/html/2605.15224#S1.F1)(a) 所示,当一个智能体在查询 `q` 上失败,但在收到批评 `c` 后成功时,成功的轨迹是从批评条件化的行为分布 `π(y|q,c)` 中采样的,而不是求解器的原始分布 `π(y|q)`。在这种轨迹上训练会强化批评依赖的行为,即求解器学会*在给定*批评的情况下表现良好,而不是在*没有*批评的情况下表现良好 (scheurer2023training-feedback)。如果没有对这种分布不匹配进行显式校正,标准策略优化会产生对预期无批评策略更新的有偏估计。

批评的质量同样重要。诊断求解器失败并提出可操作修正的能力本身应该是可学习的,并且应该与求解器共同进化。然而,现有的基于批评的方法通常依赖于冻结的批评者模型 (zhang2025critique; tang2025self),无论求解器如何更新,其反馈质量都是静态的。这种解耦限制了智能体持续自我改进的能力:随着求解器的进步,过时的批评者可能会产生越来越不相关或冗余的反馈。

> 见图注
> **图 1:** 批评可以将失败的轨迹转化为成功的修正,而训练应该将这种修正行为内化到无批评的求解器中。

在本文中,我们提出了 **ICRL**,一个将批评引发的成功转化为无辅助求解器能力的强化学习框架。ICRL 从一个共享主干联合训练求解器和批评者,无需外部教师模型或人工标注的批评数据。批评者因产生能改进求解器后续尝试的批评而获得奖励,从而创建与直接批评效用相关的学习信号。为了内化批评引导的修正,ICRL 在求解器的无批评提示下重新调节修正后的轨迹,并应用 token 级别的分布校准重加权比率。该比率选择性地转移那些在无批评分布下已经具有合理生成概率的 token,同时降低那些严重依赖批评上下文的 token 的权重。结果是,求解器内化与其自身提示分布兼容的修正模式。为了进一步稳定联合优化,ICRL 采用了角色分组优势估计,分别归一化求解器和批评者的奖励,为每个角色保留不同的学习信号。据我们所知,ICRL 是第一个在强化学习环境中同时改进批评内化和批评者学习的框架。我们在多样化的环境中评估 ICRL,包括文本世界任务 (ALFWorld20)、电子商务网页导航 (yao2022webshop)、多跳问答 (HotpotQA; 2WikiMultiHopQA; Bamboogle; Musique) 和数学推理 (hendrycks2021math500; lewkowycz2022minerva; he-etal-2024-olympiadbench; numina_math_datasets)。实验在 Qwen3-4B 和 Qwen3-8B 上进行,并与基于提示的基线、强化学习基线和基于批评的方法进行比较。实验结果表明,在智能体任务和数学推理任务上,ICRL 均优于基线方法。我们将贡献总结如下:

- • 我们提出了 ICRL 框架,这是一个求解器-批评者强化学习框架,通过联合学习批评和内化批评来实现迭代自我改进。
- • 我们引入了一种分布校准重加权比率,用于纠正批评条件化和无批评行为之间的分布偏移。我们进一步提出了角色分组优势估计,以稳定求解器-批评者的联合优化。
- • 实验结果表明,在智能体和数学推理任务上,ICRL 均优于基线方法。联合学习的批评者在使用更少 token 的情况下,性能与 32B 冻结批评者相当。

## 2 预备知识

### 2.1 任务形式化

给定一个查询 `q ∈ Q`,一个以 `θ` 为参数的、基于 LLM 的智能体 `π_θ` 与环境交互以采样轨迹 `τ`,并从任务评估器接收奖励 `r(τ)`。我们按照 (xi2025agentgym; xi2025agentgym-rl) 将智能体任务建模为部分可观测马尔可夫决策过程 (POMDP)。在每个时间步 `t`,智能体以历史 `h_t = (q, o_0, a_0, ..., o_t)` 为条件,该历史由初始查询和到时间步 `t` 为止的过去观测和动作序列组成。基于此历史,智能体采样一个动作 `a_t ∼ π_θ(·|h_t)`。这种交互持续 `H` 步,产生一个完整的轨迹 `τ = (q, o_0, a_0, ..., a_{H-1}, o_H)`。训练目标是 `J(θ) = E_{τ∼π_θ}[r(τ)]`。(1)

### 2.2 分组相对策略优化

我们采用 GRPO (guo2025deepseek) 作为底层的强化学习原语。对于一个查询 `q`,GRPO 采样一组候选轨迹 `G(q) = {τ_1, ..., τ_G}`,并计算分组归一化的优势值:
`Â_i = (r(τ_i) - mean_j r(τ_j)) / (std_j r(τ_j) + δ)`,其中 `δ > 0` 是一个用于数值稳定性的小常数。
令 `y_t` 表示样本 `τ_i` 的第 `t` 个生成 token;重要性采样比率 `ρ_t(θ) = π_θ(y_t|q, y_<t) / π_{θ_old}(y_t|q, y_<t)` 和 GRPO 的优化目标为:
`J_GRPO(θ) = E_{τ,t}[min(ρ_t(θ)Â(τ), clip(ρ_t(θ), 1-ε, 1+ε)Â(τ))]`。(2)

## 3 方法

### 3.1 概述

ICRL 从一个共享主干初始化,并实例化两个角色:求解器 `π_s` 和批评者 `π_c`,两者均使用不同的系统提示,这些提示决定了它们的角色。如图 2 (https://arxiv.org/html/2605.15224#S3.F2) 所示,训练过程从在给定查询 `q` 下滚动求解器策略开始,生成初始轨迹 `τ_s`。如果 `τ_s` 未能解决任务,批评者会生成关于 `τ_s` 的自然语言批评 `c`。然后,在原始查询 `q` 和批评 `c` 的条件下,求解器再次滚动,生成修订后的轨迹 `τ_s'`。奖励来自任务环境。我们统一将 `π_s` 和 `π_c` 称为角色。对于每个查询,我们对所有角色使用预定义数量的采样轨迹。

> 见图注
> **图 2:** ICRL 框架概述。

### 3.2 批评者奖励:基于求解器改进的效用导向学习

批评者的目标是诊断求解器的错误并提出可操作的修正。为了奖励批评效用,我们基于求解器在获得批评前后的性能差异来定义批评者奖励。令 `s(τ_s')` 和 `s(τ_s)` 分别为求解器修订后轨迹和初始轨迹的成功指示变量(例如,对于数学推理是最终答案正确性,对于智能体任务是二元任务完成状态)。批评者奖励定义为:
`r_c = s(τ_s') - s(τ_s) + r_{len}`,(3)
其中 `r_{len} = -λ_c * L_c` 是一个长度惩罚项,`L_c` 是批评序列中的 token 数量,`λ_c > 0` 是一个控制简洁性的超参数。这将批评者奖励与求解器的条件性能增益直接挂钩:如果批评引导求解器从失败过渡到成功,则 `r_c = 1`(减去长度惩罚);如果批评没有帮助(`s(τ_s') = s(τ_s)`),则 `r_c = 0`;如果批评有害(求解器在中立的基线评判下变差),则 `r_c = -1`。

### 3.3 求解器轨迹校准与内化:通过分布校准重加权解决分布偏移

当批评将失败轨迹 `τ_s` 转化为成功的修订轨迹 `τ_s'` 时,`τ_s'` 是从批评条件化分布 `π_s(·|q, c)` 中采样的。直接使用此修订轨迹训练求解策略将内化条件化行为:求解器可能习惯于在接收到批评后表现良好,但在没有批评时失败。为了解决批评条件化与无批评条件轨迹之间的分布偏移,我们重新校准修订后的轨迹,将其置于求解器的无批评提示上下文中,并应用 token 级别的分布校准重加权比率:
`w_t = min( π_s(y_t|q, y_<t) / π_s(y_t|q, c, y_<t), w_max )`,(4)
其中 `w_t` 是修订轨迹中第 `t` 个 token 的重要性权重。直观地说,`w_t > 1` 表示无批评求解器本应以更高概率生成的 token,这些 token 被赋予更高权重。通过这种方式,求解器内化与其自身提示分布兼容的修正行为,而不是盲目模仿批评辅助的输出。

继第 2 节 (https://arxiv.org/html/2605.15224#S2) 中介绍的 GRPO 重要性采样比率之后,我们使用 `ρ_t(θ)` 表示 token 级别的重要性采样比率。对于求解器轨迹,该比率在无批评提示上下文 `(q, y_<t)` 下计算。对于批评者轨迹,重要性采样比率在批评者特定的提示上下文下计算。

### 3.4 角色分组优势估计

我们通过角色分组优势估计来稳定联合优化。对于每个角色 `r ∈ {solver, critic}`,在查询 `q` 下采样的每个相关轨迹 `τ`,优势计算方式如下:
`Â_r(τ) = (r(τ) - mean_{j∈G_r(q)} r(τ_j)) / (std_{j∈G_r(q)} r(τ_j) + δ)`,(5)
其中 `G_r(q)` 是该查询下角色 `r` 采样的一组轨迹。`δ > 0` 是一个用于数值稳定性的小常数。这种角色分组基线在保持相对比较原则的同时,尊重每个角色的不同语义。

**策略优化目标。** 我们最终的目标是在采样轨迹和 token 位置上的 GRPO 风格裁剪更新。为简洁起见,当角色从轨迹 `τ` 中明确时,我们省略 `ρ_t(θ)` 中的角色上标:
`J(θ) = E_{τ,t}[ min(w_t, w_max) min(ρ_t(θ)Â(τ), clip(ρ_t(θ), 1-ε, 1+ε)Â(τ)) ]`,(6)
其中,只有受批评引导修订的求解器轨迹接收分布校准重加权 `w_t`(来自公式 (4 (https://arxiv.org/html/2605.15224#S3.E4))),而初始求解器和批评者轨迹保持 `w_t = 1`。上限 `w_max` 防止当无批评概率显著超过批评条件化概率时可能出现的过大权重,从而限制梯度方差。

由于求解器和批评者是从同一主干实例化的两个提示角色,最大化公式 (6 (https://arxiv.org/html/2605.15224#S3.E6)) 通过各自的角色特定优势和奖励来联合训练这两个角色。求解器从初始的和校准后的修订轨迹中学习,逐步将批评引导的改进内化到其无批评策略中。批评者同时学习生成能够最大化下游求解器改进的反馈。

## 4 实验

### 4.1 实验设置

**环境。** 为了全面评估 ICRL,我们在四类任务上进行了实验。(1) **文本世界:** 我们使用 ALFWorld (ALFWorld20),一个模拟需要多步导航的具体化家务任务的文本环境。(2) **网页导航:** 我们使用 WebShop (yao2022webshop),一个需要智能体浏览、搜索和购买产品的电子商务网站环境。(3) **多跳问答:** 我们在一个基于 RAG 的搜索环境中评估多跳问答任务,包括 HotpotQA (HotpotQA), 2WikiMultiHopQA (2WikiMultiHopQA), Bamboogle (Bamboogle) 和 MuSiQue (Musique)。(4) **数学推理:** 我们在五个基准上进行评估,包括 MATH500 (hendrycks2021math500), Minerva Math (lewkowycz2022minerva), OlympiadBench (he-etal-2024-olympiadbench), AIME24 (numina_math_datasets) 和 AMC23 (numina_math_datasets)。这些数据集包含高中和大学水平的数学问题。详细的环境描述见附录 D (https://arxiv.org/html/2605.15224#A4)。

**基线和骨干模型。** 我们将我们的方法与不同的基线进行比较。对于基于提示的基线,我们使用现成的模型,包括 Qwen3-4B (yang2025qwen3), Qwen3-8B (yang2025qwen3), Qwen3-30B-A3B (yang2025qwen3), Gemini-2.5-Flash (comanici2025gemini25pushingfrontier) 和 Gemini-3-Flash (google2026gemini3flash)。对于单智能体 RL 基线,我们包括 GRPO (guo2025deepseek) 和 GSPO (zheng2025group)。为了与面向智能体的训练方法进行比较,我们进一步包括了 ScalingInter-RL (xi2025agentgym-rl),它逐渐增加交互视野;MATPO (Omo2025matpo),它通过角色特定的策略优化来训练规划者和子智能体;以及 Critique-GRPO (zhang2025critique) (自我批评),它引入自然语言批评来进行批评引导的策略优化。对于骨干模型,我们考虑 Qwen3-4B 和 Qwen3-8B。

**表 1:** 智能体任务上的主要结果。**粗体**表示每组内的最佳性能。

### 4.2 智能体任务结果

如表 1 (https://arxiv.org/html/2605.15224#S4.T1) 所示,ICRL 在三个智能体环境中提高了智能体任务的性能。在 Qwen3-4B 上,ICRL 取得了最好的平均分数,达到 57.0%。它平均比 GRPO 高出 7.8 分,并超过了 Critique-GRPO 1.1 分。具体来说,ICRL 在 ALFWorld 和 WebShop 上取得了最佳成功率,表明在长视野环境中决策质量有所提高。在 2WikiMultiHopQA 和 MuSiQue 上,ICRL 也取得了最佳结果,而在 HotpotQA 和 Bamboogle 上,它与表现最好的基线相比仍具有竞争力。在 Qwen3-8B 上,ICRL 进一步获得了最高的平均分数 57.8%,分别比 GRPO 和 Critique-GRPO 高出 5.0 分和 1.2 分。在 WebShop 环境中,ICRL 取得了最佳成功率和奖励。在 ALFWorld 上,ICRL 也取得了有竞争力的结果。对于多跳搜索任务,ICRL 在两个主干下都在 2WikiMultiHopQA 上取得了最佳结果,并在 MuSiQue、HotpotQA 和 Bamboogle 上保持竞争力,尽管并非在所有数据集上都是一致的领先。总体而言,这些结果表明 ICRL 在所评估的智能体环境和骨干规模上是有效的。

### 4.3 数学任务结果

如表 2 (https://arxiv.org/html/2605.15224#S4.T2) 所示,ICRL 在数学推理任务上表现有效。在 Qwen3-8B 上,SFT 只提供了适度的改进,平均分从 55.0% 提高到 59.2%,而 GRPO 通过直接优化答案正确性达到了 68.3%。Critique-GRPO 进一步将平均分提高到 73.3%,显示出批评信息的好处。ICRL 取得了最佳整体性能,平均分为 75.3%,分别超过 GRPO 和 Critique-GRPO 7.0 分和 2.0 分。改进在具有挑战性的竞赛级基准上尤为明显,例如 OlympiadBench 和 AIME24,ICRL 从 GRPO 的 65.6% 提高到 68.9%,从 50.0% 提高到 65.1%。与 Critique-GRPO 相比,ICRL 在五个基准中的四个上表现更好,唯一的例外是 AMC23。这些数学结果与 ICRL 更好地内化批评引导的改进是一致的,这与即使在无批评条件下也能增强直接推理性能相关。

**表 2:** 数学推理任务上的主要结果。**粗体**表示最佳性能。

相似文章

ReCrit:面向科学批评推理的过渡感知强化学习

arXiv cs.LG

ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。

解码大型推理模型中的批判机制

Hugging Face Daily Papers

本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。