你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习
摘要
本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。
查看缓存全文
缓存时间: 2026/05/13 12:14
Paper page - Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor’s Internal States
Source: https://huggingface.co/papers/2605.07579
Abstract
POISE 通过利用模型内部信号来估计基线,为大型推理模型实现了稳定且高效的策略优化,在保持与现有方法相当的性能的同时,降低了计算开销。
大型推理模型的可验证奖励强化学习(Reinforcement learning with verifiable rewards, RLVR)依赖于基线估计以实现方差减小(variance reduction),但现有方法付出了高昂的代价:PPO 需要一个与策略模型同等规模的评论家(critic),而 GRPO 则需要针对每个提示词进行多次 rollout 以维持经验群体均值(empirical group mean)的稳定。我们提出了基于内部状态价值估计的策略优化(Policy Optimization with Internal State Value Estimation, POISE),该方法利用策略模型在正向传递过程中已计算出的内部信号,以极低的成本获得基线。一个轻量级探针(lightweight probe)根据提示词和生成轨迹的隐藏状态以及 token 熵统计信息预测可验证奖励的期望值,并与策略同步在线训练。为了在使用轨迹条件特征(trajectory-conditioned features)时保持梯度无偏性(gradient unbiasedness),我们引入了跨 rollout 构建(cross-rollout construction),利用独立 rollout 的内部状态预测每个 rollout 的价值。由于 POISE 仅使用单次 rollout 估计提示词价值,它在固定计算预算下能够支持更高的提示词多样性。这不仅降低了梯度方差以实现更稳定的学习,还消除了因检测零优势提示词而产生的采样计算开销。在 Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 上进行的数学推理基准测试表明,POISE 在所需计算资源更少的情况下,性能可与 DAPO 媲美。此外,其价值估计器的表现与独立的 LLM 规模价值模型相当,并能泛化到各种可验证任务中。通过利用模型自身的内部表示,POISE 实现了更稳定、更高效的策略优化。
View arXiv page (https://arxiv.org/abs/2605.07579)View PDF (https://arxiv.org/pdf/2605.07579)Project page (https://holi-lab.github.io/POISE/)GitHub (https://github.com/holi-lab/POISE)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.07579)
在您的代理中获取这篇论文:
hf papers read 2605\.07579
没有最新版的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
Models citing this paper0
No model linking this paper
Cite arxiv.org/abs/2605.07579 in a model README.md to link it from this page.
Datasets citing this paper0
No dataset linking this paper
Cite arxiv.org/abs/2605.07579 in a dataset README.md to link it from this page.
Spaces citing this paper0
No Space linking this paper
Cite arxiv.org/abs/2605.07579 in a Space README.md to link it from this page.
Collections including this paper0
No Collection including this paper
Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.
相似文章
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
RL用于LLM的价值梯度假说
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。
面向多模态推理的结构化角色感知策略优化
本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。
使用语言模型先验从观测中学习POMDP世界模型
本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
提出了面向纠正的策略优化(CIPO),这是对RLVR的一种扩展,它将失败轨迹转化为面向纠正的监督信号,从而在数学和代码基准测试中提升LLM的推理与纠错能力。