弥合反思差距:智能体强化学习中的免费校准奖励
摘要
LLM 智能体在观察到环境反馈后常常错误评估自身性能,这一问题被称为反思差距。RefGRPO 通过在强化学习中引入零成本校准奖励和动态调度来解决此问题,将不足自信率从 44.4% 降低至 7.7%,并在文本到 SQL 基准上提升了任务准确率。
arXiv:2606.14211v1 Announce Type: new
Abstract: LLMs 越来越多地作为智能体部署,与外部环境交互并观察诸如执行结果、错误消息和工具输出等反馈。一个功能良好的智能体应能利用该反馈准确评估自身性能。然而,我们发现存在持续的反思差距:LLM 智能体在观察到具体环境反馈后——即使是对于它们正确回答的问题——也倾向于错误评估自身输出,而标准强化学习由于信用分配不匹配几乎无济于事。为弥合这一差距,我们提出 RefGRPO,这是一种简单而有效的修复方法,通过两个关键要素增强标准强化学习算法:一个免费的校准奖励,通过对比智能体自身反思与实际结果计算得出(无需额外的奖励模型、LLM 评判或外部标注),以及一个动态的系数调度。与标准强化学习基线相比,我们的方法在五个文本到 SQL 基准上同时提升了反思校准(例如,将不足自信率从 $44.4\%$ 降至 $7.7\%$)和任务准确率(例如,从 $75.1\%$ 提升至 $76.5\%$)。由此产生的校准反思将智能体转变为基于环境反馈的自身验证器,进而实现:(i)更好的自我改进,即利用反思作为伪奖励而无需结果监督;(ii)更有效的测试时选择性预测,即仅提交被标记为正确的输出序列。
查看缓存全文
缓存时间: 2026/06/15 09:11
# 弥合反思差距:面向智能体强化学习的免费校准奖励
来源:https://arxiv.org/html/2606.14211
###### 摘要
大语言模型(LLM)越来越多地被部署为智能体,与外部环境交互并观察执行结果、错误信息和工具输出等反馈。一个运行良好的智能体应能利用这种反馈准确评估自身性能。然而,我们发现了一个持续的**反思差距**(reflection gap):LLM智能体在观察到具体的环境反馈后,往往会对自己的输出做出错误评估——即使是他们正确回答的问题也是如此——而标准的强化学习(RL)由于信用分配不匹配而几乎无济于事。为了弥合这一差距,我们提出了RefGRPO,这是一种简单而有效的改进,用两个关键要素增强标准RL算法:一个免费的校准奖励,通过对比智能体自身的反思与实际结果来计算(无需额外的奖励模型、LLM评判者或外部标注),以及一个关于其系数的动态调度。与标准RL基线相比,我们的方法同时在五个基准测试的文本到SQL任务上改进了反思校准(例如,欠置信率从44.4%降至7.7%)和任务准确率(例如,从75.1%提升至76.5%)。由此产生的校准反思将智能体转变为以环境反馈为基础的自身验证器,这进一步能够实现:(i) 更好的自我改进,使用反思作为伪奖励而无需结果监督,以及 (ii) 更有效的测试时选择性预测,仅提交被标记为正确的生成结果。
参见图注
图1:我们的RefGRPO算法的高层概述。我们指导智能体反思环境反馈并生成二元反思分数 \(s^{\mathrm{ref}}\in\{0,1\}\)。RefGRPO有两个关键要素:(i) 一个**免费**的校准奖励 \(c_k = \mathbb{I}(s^{\mathrm{ref}}_{k,H}=r_k)\),通过对比反馈后的反思与结果来计算,不需要额外的奖励模型、LLM评判者或外部标注;它将校准良好的生成结果提升至高于校准不良的生成结果,无论任务结果如何,都能给诚实的反思带来正向相对优势。(ii) 校准系数的**动态**调度,使模型能够同时改进反思校准和任务性能。实际上,RefGRPO将智能体转变为以环境反馈为基础的自身验证器。
## 1 引言
参见图注
图2:在多轮设置下,基础模型、GRPO风格的RL基线以及我们的RefGRPO的比较。模型基于环境反馈生成反思分数 \(s^{\mathrm{ref}}\in\{0,1\}\),然后接收结果奖励 \(r\in\{0,1\}\)。(a) 欠置信率 \(\mathsf{UnderConf} = \mathbb{P}(r=1 \mid s^{\mathrm{ref}}=0)\),即自我标记为错误但实际上是正确的生成结果的比例(越低越好)。(b) 任务准确率 \(\mathsf{Acc} = \mathbb{P}(r=1)\)(越高越好)。(c) 用于任务准确率和反思校准的统一指标 \(\mathsf{ChowScore}\)(越高越好)。
在环境中行动的LLM智能体在每次行动后会收到**环境反馈**,例如执行结果、错误信息或工具输出 (Jin et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib24); Cao et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib5); Zhang et al., 2026 (https://arxiv.org/html/2606.14211#bib.bib47))。这种反馈是行动是否成功的具体证据,然而智能体通常只将其作为选择下一步行动的上下文,很少明确地用它来判断任务本身是否已被正确解决。
在这项工作中,我们明确指导智能体对环境反馈进行**反思**,并生成一个**二元分数**以指示其答案是否正确——这是一种基于其已观察到的证据的反馈后自我评估。这使反思成为一个预测问题:一个能够根据所看到的反馈准确预测自身正确性的智能体,表明其很好地理解了自身行动的后果。因此,反馈后反思质量直接衡量了智能体对自身所做之事及环境如何演化的理解程度,即其**隐式**世界模型的质量 (Ha and Schmidhuber, 2018 (https://arxiv.org/html/2606.14211#bib.bib19))。
至关重要的是,这与现有的关于LLM自我评估的研究不同 (Kadavath et al., 2022 (https://arxiv.org/html/2606.14211#bib.bib25); Tian et al., 2023 (https://arxiv.org/html/2606.14211#bib.bib41); Xiong et al., 2024 (https://arxiv.org/html/2606.14211#bib.bib44); Tao et al., 2024 (https://arxiv.org/html/2606.14211#bib.bib40); Leng et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib27); Bani-Harouni et al., 2026 (https://arxiv.org/html/2606.14211#bib.bib3); Damani et al., 2026 (https://arxiv.org/html/2606.14211#bib.bib10)),在这些研究中,模型**仅**基于其自身的生成来表达对自生成答案的信心,**没有环境反馈**。在我们的设置中,智能体是在**观察到具体的环境反馈之后**对自身行动进行反思——这比单独的自生成答案提供了严格更多的信息。解释已经看到过的证据应该比盲目预测正确性更容易,因此我们期望智能体——尤其是具有强大推理能力、经过RL训练的智能体——能够擅长于此。
然而事实并非如此。除了LLM众所周知的过置信问题 (Xiong et al., 2024 (https://arxiv.org/html/2606.14211#bib.bib44); Leng et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib27)),我们还发现了一个更令人惊讶的失败:LLM智能体在观察到具体的环境反馈后,仍然表现出显著的**欠置信**——将正确答案标记为错误——而标准的RL方法无法解决这个问题。在多轮文本到SQL的设置中,Qwen2.5-Coder-7B-Instruct 基础模型严重欠置信:它标记为错误的答案中有 54.3% 实际上是正确的 (图2 (https://arxiv.org/html/2606.14211#S1.F2)(a))。使用 GRPO 风格算法 (Shao et al., 2024 (https://arxiv.org/html/2606.14211#bib.bib37); Guo et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib18); Yu et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib45); Liu et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib30); He et al., 2025 (https://arxiv.org/html/2606.14211#bib.bib20)) 对该基础模型进行训练,尽管显著提升了任务准确率,但也仅仅将该比率降至 44.4%。标准的RL方法使模型成为更强大的任务求解器,但使其反馈后反思质量依然糟糕——我们将这种持续存在的失败称为**反思差距**。其原因是结构性的:仅依赖结果的RL纯粹根据结果分配优势,因此具有不正确结果但标记了诚实错误的生成结果会收到负向优势,这会训练模型抑制正确的错误标记,而不是奖励它们;详见第3.1节 (https://arxiv.org/html/2606.14211#S3.SS1) 的讨论。
为了弥合反思差距,我们提出了一种新算法 RefGRPO,它用两个关键要素增强了仅依赖结果的RL (图1 (https://arxiv.org/html/2606.14211#S0.F1))。(i) 一个**免费**的校准奖励:由于反思 \(s^{\mathrm{ref}}\) 和结果 \(r\) 在RL训练期间都已经可用,我们在组归一化之前添加一个校准奖励 \(c = \mathbb{I}(s^{\mathrm{ref}}=r)\) 到结果奖励上。这会将校准良好的生成结果提升至高于校准不良的生成结果,无论任务结果如何,都能给诚实的反思带来正向相对优势。(ii) 校准系数 \(\alpha(t) \geq 0\) 上的动态调度,开始时具有相对较大的值以在前期优先进行校准,然后衰减该系数以让模型专注于任务性能,同时大致保留校准能力。如图2 (https://arxiv.org/html/2606.14211#S1.F2) 所示,与 GRPO 风格基线相比,RefGRPO 显著降低了欠置信率 (44.4% 降至 7.7%),同时提高了任务准确率 (75.1% 升至 76.5%)。我们还从统计学习 (Chow, 1957 (https://arxiv.org/html/2606.14211#bib.bib6), 1970 (https://arxiv.org/html/2606.14211#bib.bib7)) 中引入了 \(\mathsf{ChowScore}\) 到智能体设置中,作为任务准确率和反思校准的统一指标;RefGRPO 将 \(\mathsf{ChowScore}\) 从 73.0% 提升至 76.5%。
#### 贡献。
我们的主要贡献如下:
1. 1. 反馈后反思存在缺陷,且仅依赖结果的RL几乎无法修复。我们展示了LLM智能体即使在观察到具体的环境反馈后,也倾向于错误评估自己的输出,在多轮设置中欠置信率超过 44% (图2 (https://arxiv.org/html/2606.14211#S1.F2))。我们提出了量化反思差距的指标 (第2节 (https://arxiv.org/html/2606.14211#S2.SS0.SSS0.Px3)),并将其追溯到信用分配不匹配问题 (第3.1节 (https://arxiv.org/html/2606.14211#S3.SS1))。
2. 2. 用免费校准奖励增强RL。我们用 (i) 通过对比反馈后反思与结果计算出的免费校准奖励,以及 (ii) 其系数的动态调度 (第3.2节 (https://arxiv.org/html/2606.14211#S3.SS2)) 来增强标准RL方法。如图2 (https://arxiv.org/html/2606.14211#S1.F2) 和图4.2 (https://arxiv.org/html/2606.14211#S4.SS2) 所示,我们的算法同时改进了反思校准 (例如,欠置信率从 44.4% 降至 7.7%) 和任务准确率 (例如,从 75.1% 升至 76.5%),将统一指标 \(\mathsf{ChowScore}\) 从 73.0% 提升至 76.5%。
3. 3. 校准能实现更好的自我改进和选择性预测。由此产生的校准反思将智能体转变为自身的验证器——一个**以环境反馈为基础**而非纯粹自我评估的验证器。我们展示了这进一步能够实现:(i) 更好的自我改进,使用反思作为伪奖励而**无需**结果监督 (第4.3节 (https://arxiv.org/html/2606.14211#S4.SS3)),以及 (ii) 更有效的测试时选择性预测,仅提交被标记为正确的生成结果 (第4.4节 (https://arxiv.org/html/2606.14211#S4.SS4))。
## 2 问题设置
我们形式化了智能体与环境之间的交互,并引入了基于智能体自身行动和环境反馈来评估其反思质量的指标。
#### 交互框架。
我们研究一种环境,其中智能体在观察到具体的环境反馈后评估其行动。每轮交互分三个阶段进行 (见图1 (https://arxiv.org/html/2606.14211#S0.F1),顶部):
1. 1. 行动。智能体在逐步推理后采取行动 \(a\) (例如,一条 SQL 查询)。
2. 2. 观察。环境执行行动 \(a\) 并返回观察结果 \(o\) (例如,查询结果、错误信息或工具输出)。
3. 3. 反思。智能体针对**行动** \(a\) 和**观察结果** \(o\) 进行反思,并生成一个二元反思分数 \(s^{\mathrm{ref}}\in\{0,1\}\),指示它是否认为该行动成功完成了任务 (即 \(s^{\mathrm{ref}}=1\)) 或未完成 (即 \(s^{\mathrm{ref}}=0\))。
在最后一轮之后,环境根据行动的正确性提供一个二元结果奖励 \(r\in\{0,1\}\);结果奖励用于RL训练,但在交互过程中**不**向智能体透露。
#### 单轮和多轮设置。
我们研究单轮和多轮交互。在**单轮**设置中,智能体采取一项行动,观察环境反馈,并进行反思。¹ 在**多轮**设置中,智能体与环境交互最多 \(H\) 轮。如果智能体对结果有信心,它可以提前承诺最终行动并终止回合。在每一轮,我们指导智能体反思**所有**之前的行动和观察,并生成一个反思分数;因此我们将最后一轮的反思分数 \(s^{\mathrm{ref}}_{H}\) 用作该回合的整体自我评估。
#### 评估指标。
我们使用以下指标衡量任务性能和反思质量。**任务准确率** \(\mathsf{Acc} = \mathbb{P}(r=1)\) 衡量智能体答案是否正确。**反思准确率** \(\mathsf{Acc}_{\mathsf{ref}} = \mathbb{P}(s^{\mathrm{ref}}=r)\) 衡量智能体反思与实际结果之间的一致性。我们还考虑了两个方向的错误校准率,以分解当 \(s^{\mathrm{ref}}\neq r\) 时的失败模式:**过置信率** \(\mathsf{OverConf} = \mathbb{P}(r=0 \mid s^{\mathrm{ref}}=1)\),即它标记为正确但实际错误的答案的比例;以及**欠置信率** \(\mathsf{UnderConf} = \mathbb{P}(r=1 \mid s^{\mathrm{ref}}=0)\),即它标记为错误但实际正确的答案的比例 (两者越低越好)。
#### 统一指标:Chow分数。
我们从统计学习 (Chow, 1957 (https://arxiv.org/html/2606.14211#bib.bib6), 1970 (https://arxiv.org/html/2606.14211#bib.bib7)) 中引入 \(\mathsf{ChowScore}\) 到智能体设置中,作为任务准确率和**反思校准**——智能体知道何时解决了任务的能力——的统一指标。具体来说,\(\mathsf{ChowScore}\) 对承诺 (\(s^{\mathrm{ref}}=1\)) 按正确性评分,对自我标记的错误 (\(s^{\mathrm{ref}}=0\)) 按固定信用 \(\beta \in [0,1)\) 评分:
\[\mathsf{ChowScore}_\beta = \mathbb{P}(s^{\mathrm{ref}}=1, r=1) + \beta \cdot \mathbb{P}(s^{\mathrm{ref}}=0).\]
对于一个总是承诺的智能体,\(\mathsf{ChowScore}_\beta = \mathsf{Acc}\),并且只要智能体的错误标记是有信息量的,它就超过 \(\mathsf{Acc}\);\(\beta\) 控制我们对诚实错误检测 (可以解释为放弃) 的信用赋值。我们将 \(\mathsf{ChowScore}\) 视为**主要指标**,因为它同时捕捉了任务准确率和反思校准。我们默认设置 \(\beta=0.1\),并在消融实验 (第4.5节 (https://arxiv.org/html/2606.14211#S4.SS5)) 中报告 \(\beta\in[0,0.5]\) 范围内的扫描结果。
## 3 方法
参见图注
图3:在单轮设置下,使用 Qwen2.5-Coder-3B-Instruct 作为基础模型,GRPO+ 和 RefGRPO (我们的方法) 的训练曲线。左:欠置信率 (越低越好);中:反思准确率 (越高越好);右:\(\mathsf{ChowScore}\) 在 \(\beta=0.1\) 时 (越高越好)。
我们分析了为什么仅依赖结果的RL会导致模型校准不良 (第3.1节 (https://arxiv.org/html/2606.14211#S3.SS1)),并提出了一种弥合反思差距的新算法 (第3.2节 (https://arxiv.org/html/2606.14211#S3.SS2))。
### 3.1 仅依赖结果的RL的局限性
#### 背景:GRPO。
组相对策略优化 (GRPO; Shao et al. 2024 (https://arxiv.org/html/2606.14211#bib.bib37); Guo et al. 2025 (https://arxiv.org/html/2606.14211#bib.bib18)) 生成 \(G\) 个生成结果 [...]相似文章
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。
面向LLM智能体训练的回顾性进度感知自我精炼
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习
本文介绍了反思增强自蒸馏(RESD)框架,该框架将失败反馈转化为对LLM的纠正性监督,从而实现从稀有成功中高效学习。该框架优于标准自蒸馏基线,并且相比GRPO,使用更少的样本实现了更快的早期改进。
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。