ICRL：通过强化学习内化自我批判

arXiv cs.AI 2026/05/18 04:00 论文

摘要

本文介绍了ICRL框架，该框架联合训练求解器和批判器，通过强化学习内化批判指导，使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计，在智能体和数学推理任务上比GRPO提高了6-7个点。

arXiv:2605.15224v1 公告类型：新摘要：基于大语言模型的智能体会犯错，但批判往往能引导同一模型走向正确行为。然而，当批判被移除时，模型可能在同一查询上再次失败，这表明它并未将批判的指导内化为自身能力。同时，冻结的批判器无法随时间提高其反馈质量，限制了迭代自我改进的潜力。为此，我们提出通过强化学习内化自我批判（ICRL），这是一种新颖的框架，从共享基础模型联合训练求解器和批判器，将批判引发的成功转化为无辅助的求解器能力。批判器根据求解器后续性能提升获得奖励，从而激励可行的反馈。为解决批判条件行为与无批判行为之间的分布偏移，ICRL引入了分布校准重加权比率，选择性地转移与求解器自身提示分布兼容的批判指导性改进。此外，角色分组优势估计稳定了两个角色之间的联合优化。这些机制共同确保求解器学会在没有外部批判的情况下自我改进，而不是依赖于批判条件行为。我们使用Qwen3-4B和Qwen3-8B作为基础模型，在涵盖智能体和数学推理任务的多样化基准上评估ICRL。结果显示持续改进，在智能体任务上比GRPO平均提升6.4个点，在数学推理上平均提升7.0个点。值得注意的是，学习到的8B批判器在使用显著更少token的情况下与32B批判器相当。代码可在https://github.com/brick-pid/ICRL获取。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:31

# 通过强化学习学习内化自我批评

**来源：** https://arxiv.org/html/2605.15224

林建波¹,² 余晓敏¹ 辛毅² 郭逸夫³ 蒋卓松⁴  
钟启越⁷ 王伟石⁶ 邹和庆⁵ 秦成伟¹† 熊辉¹

¹ 香港科技大学（广州）  
² 南京大学  
³ 中山大学  
⁴ 新加坡国立大学  
⁵ 南洋理工大学  
⁶ SAP  
⁷ 微软研究院  

[email protected]

###### 摘要

基于大语言模型的智能体会犯错，但批评通常可以引导同一模型走向正确行为。然而，当移除批评后，模型可能在相同的查询上再次失败，这表明它并未将批评的指导内化为其基础能力。同时，一个冻结的批评者无法随着时间的推移提高其反馈质量，限制了迭代自我改进的潜力。为了解决这个问题，我们提出了**I**CRL（通过**R**einforcement **L**earning 内化自我批评，即 **I**nternalize self-**C**ritique with **R**einforcement **L**earning），这是一个新颖的框架，它从一个共享主干联合训练求解器和批评者，将批评引发的成功转化为无辅助的求解器能力。批评者根据求解器后续的性能提升获得奖励，从而激励产生可操作的反馈。为了解决批评条件化行为和无批评行为之间的分布偏移，ICRL引入了一个分布校准重加权比率，选择性地转移那些与求解器自身提示分布兼容的、由批评引导的改进。此外，角色分组优势估计稳定了两个角色之间的联合优化。这些机制共同确保求解器学会在没有外部批评的情况下自我改进，而不是变得依赖批评条件化的行为。我们在涵盖智能体和数学推理任务的多样化基准上，使用 Qwen3-4B 和 Qwen3-8B 作为主干，对 ICRL 进行评估。结果显示出一致的改进，在智能体任务上平均比 GRPO 高出 6.4 分，在数学推理上平均高出 7.0 分。值得注意的是，学习到的 8B 批评者与 32B 批评者性能相当，同时使用的 token 数量显著减少。代码可在 https://github.com/brick-pid/ICRL 获取。

² 通讯作者。

## 1 引言

大语言模型（LLM）智能体在解决复杂任务时会犯错 (yang2024sweagent; wang2024openhands; wang2024mobile; qin2025ui; li2025websailor; li2025chain)。如图 1 (https://arxiv.org/html/2605.15224#S1.F1) 所示，批评可以引导同一模型纠正错误并成功完成任务 (madaan2023self-refine; shinn2023reflexion; liu2025trust_verify; chen2026learning_self_verify; gou2023critic; Asai2023SelfRAGLT)。然而，当移除批评后，模型可能在相同的查询上再次失败，这表明它并未将批评的指导内化为其基础能力。同时，一个冻结的批评者无法在训练过程中提高其反馈质量，限制了迭代自我改进的潜力。其挑战在于*内化*：如何将由批评引导的修正转移到求解器的无批评策略中？当将基于批评的自我改进引入训练时，一个基本的分布性障碍就会出现。如图 1 (https://arxiv.org/html/2605.15224#S1.F1)(a) 所示，当一个智能体在查询 `q` 上失败，但在收到批评 `c` 后成功时，成功的轨迹是从批评条件化的行为分布 `π(y|q,c)` 中采样的，而不是求解器的原始分布 `π(y|q)`。在这种轨迹上训练会强化批评依赖的行为，即求解器学会*在给定*批评的情况下表现良好，而不是在*没有*批评的情况下表现良好 (scheurer2023training-feedback)。如果没有对这种分布不匹配进行显式校正，标准策略优化会产生对预期无批评策略更新的有偏估计。

批评的质量同样重要。诊断求解器失败并提出可操作修正的能力本身应该是可学习的，并且应该与求解器共同进化。然而，现有的基于批评的方法通常依赖于冻结的批评者模型 (zhang2025critique; tang2025self)，无论求解器如何更新，其反馈质量都是静态的。这种解耦限制了智能体持续自我改进的能力：随着求解器的进步，过时的批评者可能会产生越来越不相关或冗余的反馈。

> 见图注
> **图 1：** 批评可以将失败的轨迹转化为成功的修正，而训练应该将这种修正行为内化到无批评的求解器中。

在本文中，我们提出了 **ICRL**，一个将批评引发的成功转化为无辅助求解器能力的强化学习框架。ICRL 从一个共享主干联合训练求解器和批评者，无需外部教师模型或人工标注的批评数据。批评者因产生能改进求解器后续尝试的批评而获得奖励，从而创建与直接批评效用相关的学习信号。为了内化批评引导的修正，ICRL 在求解器的无批评提示下重新调节修正后的轨迹，并应用 token 级别的分布校准重加权比率。该比率选择性地转移那些在无批评分布下已经具有合理生成概率的 token，同时降低那些严重依赖批评上下文的 token 的权重。结果是，求解器内化与其自身提示分布兼容的修正模式。为了进一步稳定联合优化，ICRL 采用了角色分组优势估计，分别归一化求解器和批评者的奖励，为每个角色保留不同的学习信号。据我们所知，ICRL 是第一个在强化学习环境中同时改进批评内化和批评者学习的框架。我们在多样化的环境中评估 ICRL，包括文本世界任务 (ALFWorld20)、电子商务网页导航 (yao2022webshop)、多跳问答 (HotpotQA; 2WikiMultiHopQA; Bamboogle; Musique) 和数学推理 (hendrycks2021math500; lewkowycz2022minerva; he-etal-2024-olympiadbench; numina_math_datasets)。实验在 Qwen3-4B 和 Qwen3-8B 上进行，并与基于提示的基线、强化学习基线和基于批评的方法进行比较。实验结果表明，在智能体任务和数学推理任务上，ICRL 均优于基线方法。我们将贡献总结如下：

- • 我们提出了 ICRL 框架，这是一个求解器-批评者强化学习框架，通过联合学习批评和内化批评来实现迭代自我改进。
- • 我们引入了一种分布校准重加权比率，用于纠正批评条件化和无批评行为之间的分布偏移。我们进一步提出了角色分组优势估计，以稳定求解器-批评者的联合优化。
- • 实验结果表明，在智能体和数学推理任务上，ICRL 均优于基线方法。联合学习的批评者在使用更少 token 的情况下，性能与 32B 冻结批评者相当。

## 2 预备知识

### 2.1 任务形式化

给定一个查询 `q ∈ Q`，一个以 `θ` 为参数的、基于 LLM 的智能体 `π_θ` 与环境交互以采样轨迹 `τ`，并从任务评估器接收奖励 `r(τ)`。我们按照 (xi2025agentgym; xi2025agentgym-rl) 将智能体任务建模为部分可观测马尔可夫决策过程 (POMDP)。在每个时间步 `t`，智能体以历史 `h_t = (q, o_0, a_0, ..., o_t)` 为条件，该历史由初始查询和到时间步 `t` 为止的过去观测和动作序列组成。基于此历史，智能体采样一个动作 `a_t ∼ π_θ(·|h_t)`。这种交互持续 `H` 步，产生一个完整的轨迹 `τ = (q, o_0, a_0, ..., a_{H-1}, o_H)`。训练目标是 `J(θ) = E_{τ∼π_θ}[r(τ)]`。(1)

### 2.2 分组相对策略优化

我们采用 GRPO (guo2025deepseek) 作为底层的强化学习原语。对于一个查询 `q`，GRPO 采样一组候选轨迹 `G(q) = {τ_1, ..., τ_G}`，并计算分组归一化的优势值：
`Â_i = (r(τ_i) - mean_j r(τ_j)) / (std_j r(τ_j) + δ)`，其中 `δ > 0` 是一个用于数值稳定性的小常数。
令 `y_t` 表示样本 `τ_i` 的第 `t` 个生成 token；重要性采样比率 `ρ_t(θ) = π_θ(y_t|q, y_<t) / π_{θ_old}(y_t|q, y_<t)` 和 GRPO 的优化目标为：
`J_GRPO(θ) = E_{τ,t}[min(ρ_t(θ)Â(τ), clip(ρ_t(θ), 1-ε, 1+ε)Â(τ))]`。(2)

## 3 方法

### 3.1 概述

ICRL 从一个共享主干初始化，并实例化两个角色：求解器 `π_s` 和批评者 `π_c`，两者均使用不同的系统提示，这些提示决定了它们的角色。如图 2 (https://arxiv.org/html/2605.15224#S3.F2) 所示，训练过程从在给定查询 `q` 下滚动求解器策略开始，生成初始轨迹 `τ_s`。如果 `τ_s` 未能解决任务，批评者会生成关于 `τ_s` 的自然语言批评 `c`。然后，在原始查询 `q` 和批评 `c` 的条件下，求解器再次滚动，生成修订后的轨迹 `τ_s'`。奖励来自任务环境。我们统一将 `π_s` 和 `π_c` 称为角色。对于每个查询，我们对所有角色使用预定义数量的采样轨迹。

> 见图注
> **图 2：** ICRL 框架概述。

### 3.2 批评者奖励：基于求解器改进的效用导向学习

批评者的目标是诊断求解器的错误并提出可操作的修正。为了奖励批评效用，我们基于求解器在获得批评前后的性能差异来定义批评者奖励。令 `s(τ_s')` 和 `s(τ_s)` 分别为求解器修订后轨迹和初始轨迹的成功指示变量（例如，对于数学推理是最终答案正确性，对于智能体任务是二元任务完成状态）。批评者奖励定义为：
`r_c = s(τ_s') - s(τ_s) + r_{len}`，(3)
其中 `r_{len} = -λ_c * L_c` 是一个长度惩罚项，`L_c` 是批评序列中的 token 数量，`λ_c > 0` 是一个控制简洁性的超参数。这将批评者奖励与求解器的条件性能增益直接挂钩：如果批评引导求解器从失败过渡到成功，则 `r_c = 1`（减去长度惩罚）；如果批评没有帮助（`s(τ_s') = s(τ_s)`），则 `r_c = 0`；如果批评有害（求解器在中立的基线评判下变差），则 `r_c = -1`。

### 3.3 求解器轨迹校准与内化：通过分布校准重加权解决分布偏移

当批评将失败轨迹 `τ_s` 转化为成功的修订轨迹 `τ_s'` 时，`τ_s'` 是从批评条件化分布 `π_s(·|q, c)` 中采样的。直接使用此修订轨迹训练求解策略将内化条件化行为：求解器可能习惯于在接收到批评后表现良好，但在没有批评时失败。为了解决批评条件化与无批评条件轨迹之间的分布偏移，我们重新校准修订后的轨迹，将其置于求解器的无批评提示上下文中，并应用 token 级别的分布校准重加权比率：
`w_t = min( π_s(y_t|q, y_<t) / π_s(y_t|q, c, y_<t), w_max )`，(4)
其中 `w_t` 是修订轨迹中第 `t` 个 token 的重要性权重。直观地说，`w_t > 1` 表示无批评求解器本应以更高概率生成的 token，这些 token 被赋予更高权重。通过这种方式，求解器内化与其自身提示分布兼容的修正行为，而不是盲目模仿批评辅助的输出。

继第 2 节 (https://arxiv.org/html/2605.15224#S2) 中介绍的 GRPO 重要性采样比率之后，我们使用 `ρ_t(θ)` 表示 token 级别的重要性采样比率。对于求解器轨迹，该比率在无批评提示上下文 `(q, y_<t)` 下计算。对于批评者轨迹，重要性采样比率在批评者特定的提示上下文下计算。

### 3.4 角色分组优势估计

我们通过角色分组优势估计来稳定联合优化。对于每个角色 `r ∈ {solver, critic}`，在查询 `q` 下采样的每个相关轨迹 `τ`，优势计算方式如下：
`Â_r(τ) = (r(τ) - mean_{j∈G_r(q)} r(τ_j)) / (std_{j∈G_r(q)} r(τ_j) + δ)`，(5)
其中 `G_r(q)` 是该查询下角色 `r` 采样的一组轨迹。`δ > 0` 是一个用于数值稳定性的小常数。这种角色分组基线在保持相对比较原则的同时，尊重每个角色的不同语义。

**策略优化目标。** 我们最终的目标是在采样轨迹和 token 位置上的 GRPO 风格裁剪更新。为简洁起见，当角色从轨迹 `τ` 中明确时，我们省略 `ρ_t(θ)` 中的角色上标：
`J(θ) = E_{τ,t}[ min(w_t, w_max) min(ρ_t(θ)Â(τ), clip(ρ_t(θ), 1-ε, 1+ε)Â(τ)) ]`，(6)
其中，只有受批评引导修订的求解器轨迹接收分布校准重加权 `w_t`（来自公式 (4 (https://arxiv.org/html/2605.15224#S3.E4))），而初始求解器和批评者轨迹保持 `w_t = 1`。上限 `w_max` 防止当无批评概率显著超过批评条件化概率时可能出现的过大权重，从而限制梯度方差。

由于求解器和批评者是从同一主干实例化的两个提示角色，最大化公式 (6 (https://arxiv.org/html/2605.15224#S3.E6)) 通过各自的角色特定优势和奖励来联合训练这两个角色。求解器从初始的和校准后的修订轨迹中学习，逐步将批评引导的改进内化到其无批评策略中。批评者同时学习生成能够最大化下游求解器改进的反馈。

## 4 实验

### 4.1 实验设置

**环境。** 为了全面评估 ICRL，我们在四类任务上进行了实验。(1) **文本世界：** 我们使用 ALFWorld (ALFWorld20)，一个模拟需要多步导航的具体化家务任务的文本环境。(2) **网页导航：** 我们使用 WebShop (yao2022webshop)，一个需要智能体浏览、搜索和购买产品的电子商务网站环境。(3) **多跳问答：** 我们在一个基于 RAG 的搜索环境中评估多跳问答任务，包括 HotpotQA (HotpotQA), 2WikiMultiHopQA (2WikiMultiHopQA), Bamboogle (Bamboogle) 和 MuSiQue (Musique)。(4) **数学推理：** 我们在五个基准上进行评估，包括 MATH500 (hendrycks2021math500), Minerva Math (lewkowycz2022minerva), OlympiadBench (he-etal-2024-olympiadbench), AIME24 (numina_math_datasets) 和 AMC23 (numina_math_datasets)。这些数据集包含高中和大学水平的数学问题。详细的环境描述见附录 D (https://arxiv.org/html/2605.15224#A4)。

**基线和骨干模型。** 我们将我们的方法与不同的基线进行比较。对于基于提示的基线，我们使用现成的模型，包括 Qwen3-4B (yang2025qwen3), Qwen3-8B (yang2025qwen3), Qwen3-30B-A3B (yang2025qwen3), Gemini-2.5-Flash (comanici2025gemini25pushingfrontier) 和 Gemini-3-Flash (google2026gemini3flash)。对于单智能体 RL 基线，我们包括 GRPO (guo2025deepseek) 和 GSPO (zheng2025group)。为了与面向智能体的训练方法进行比较，我们进一步包括了 ScalingInter-RL (xi2025agentgym-rl)，它逐渐增加交互视野；MATPO (Omo2025matpo)，它通过角色特定的策略优化来训练规划者和子智能体；以及 Critique-GRPO (zhang2025critique) (自我批评)，它引入自然语言批评来进行批评引导的策略优化。对于骨干模型，我们考虑 Qwen3-4B 和 Qwen3-8B。

**表 1：** 智能体任务上的主要结果。**粗体**表示每组内的最佳性能。

### 4.2 智能体任务结果

如表 1 (https://arxiv.org/html/2605.15224#S4.T1) 所示，ICRL 在三个智能体环境中提高了智能体任务的性能。在 Qwen3-4B 上，ICRL 取得了最好的平均分数，达到 57.0%。它平均比 GRPO 高出 7.8 分，并超过了 Critique-GRPO 1.1 分。具体来说，ICRL 在 ALFWorld 和 WebShop 上取得了最佳成功率，表明在长视野环境中决策质量有所提高。在 2WikiMultiHopQA 和 MuSiQue 上，ICRL 也取得了最佳结果，而在 HotpotQA 和 Bamboogle 上，它与表现最好的基线相比仍具有竞争力。在 Qwen3-8B 上，ICRL 进一步获得了最高的平均分数 57.8%，分别比 GRPO 和 Critique-GRPO 高出 5.0 分和 1.2 分。在 WebShop 环境中，ICRL 取得了最佳成功率和奖励。在 ALFWorld 上，ICRL 也取得了有竞争力的结果。对于多跳搜索任务，ICRL 在两个主干下都在 2WikiMultiHopQA 上取得了最佳结果，并在 MuSiQue、HotpotQA 和 Bamboogle 上保持竞争力，尽管并非在所有数据集上都是一致的领先。总体而言，这些结果表明 ICRL 在所评估的智能体环境和骨干规模上是有效的。

### 4.3 数学任务结果

如表 2 (https://arxiv.org/html/2605.15224#S4.T2) 所示，ICRL 在数学推理任务上表现有效。在 Qwen3-8B 上，SFT 只提供了适度的改进，平均分从 55.0% 提高到 59.2%，而 GRPO 通过直接优化答案正确性达到了 68.3%。Critique-GRPO 进一步将平均分提高到 73.3%，显示出批评信息的好处。ICRL 取得了最佳整体性能，平均分为 75.3%，分别超过 GRPO 和 Critique-GRPO 7.0 分和 2.0 分。改进在具有挑战性的竞赛级基准上尤为明显，例如 OlympiadBench 和 AIME24，ICRL 从 GRPO 的 65.6% 提高到 68.9%，从 50.0% 提高到 65.1%。与 Critique-GRPO 相比，ICRL 在五个基准中的四个上表现更好，唯一的例外是 AMC23。这些数学结果与 ICRL 更好地内化批评引导的改进是一致的，这与即使在无批评条件下也能增强直接推理性能相关。

**表 2：** 数学推理任务上的主要结果。**粗体**表示最佳性能。

ICRL：通过强化学习内化自我批判

相似文章

ReCrit：面向科学批评推理的过渡感知强化学习

自我审查强化学习（SRRL）：跨回合记忆与策略蒸馏

Critic Experience Bank: 自演进的步骤级置信度估计用于LLM Agents

重新思考Critic-Free RLVR中的分组

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

提交意见反馈