你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习

Hugging Face Daily Papers 论文

摘要

本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。

针对大型推理模型的可验证奖励强化学习(RLVR)依赖于基线估计以实现方差缩减,但现有方法代价高昂:PPO 需要一个与策略模型同等规模的评论家模型,而 GRPO 则需要针对每个提示进行多次采样 rollout,以保持其实验组均值的稳定。我们引入了策略优化与内部状态价值估计(Policy Optimization with Internal State Value Estimation,简称 POISE),该方法利用策略前向传播过程中已计算出的策略模型内部信号,以极低的成本获取基线。一个轻量级的探针从提示和生成轨迹的隐藏状态以及令牌熵统计中预测预期的可验证奖励,并与策略一起在线训练。为了在使用轨迹条件化特征的同时保持梯度无偏性,我们引入了一种跨 rollout 构造方法,利用独立 rollout 的内部状态来预测每个 rollout 的价值。由于 POISE 仅使用单次 rollout 即可估计提示价值,因此在训练时的固定计算预算下,它能够实现更高的提示多样性。这不仅降低了梯度方差,使学习更加稳定,还消除了检测零优势提示所需的采样成本带来的计算开销。在 Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 上的数学推理基准测试中,POISE 的表现与 DAPO 相当,但所需的计算资源更少。此外,其价值估计器的性能与独立的 LLM 级价值模型相似,并能泛化到各种可验证任务中。通过利用模型自身的内部表示,POISE 实现了更稳定、更高效的策略优化。
查看原文
查看缓存全文

缓存时间: 2026/05/13 12:14

Paper page - Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor’s Internal States

Source: https://huggingface.co/papers/2605.07579

Abstract

POISE 通过利用模型内部信号来估计基线,为大型推理模型实现了稳定且高效的策略优化,在保持与现有方法相当的性能的同时,降低了计算开销。

大型推理模型的可验证奖励强化学习(Reinforcement learning with verifiable rewards, RLVR)依赖于基线估计以实现方差减小(variance reduction),但现有方法付出了高昂的代价:PPO 需要一个与策略模型同等规模的评论家(critic),而 GRPO 则需要针对每个提示词进行多次 rollout 以维持经验群体均值(empirical group mean)的稳定。我们提出了基于内部状态价值估计的策略优化(Policy Optimization with Internal State Value Estimation, POISE),该方法利用策略模型在正向传递过程中已计算出的内部信号,以极低的成本获得基线。一个轻量级探针(lightweight probe)根据提示词和生成轨迹的隐藏状态以及 token 熵统计信息预测可验证奖励的期望值,并与策略同步在线训练。为了在使用轨迹条件特征(trajectory-conditioned features)时保持梯度无偏性(gradient unbiasedness),我们引入了跨 rollout 构建(cross-rollout construction),利用独立 rollout 的内部状态预测每个 rollout 的价值。由于 POISE 仅使用单次 rollout 估计提示词价值,它在固定计算预算下能够支持更高的提示词多样性。这不仅降低了梯度方差以实现更稳定的学习,还消除了因检测零优势提示词而产生的采样计算开销。在 Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 上进行的数学推理基准测试表明,POISE 在所需计算资源更少的情况下,性能可与 DAPO 媲美。此外,其价值估计器的表现与独立的 LLM 规模价值模型相当,并能泛化到各种可验证任务中。通过利用模型自身的内部表示,POISE 实现了更稳定、更高效的策略优化。

View arXiv page (https://arxiv.org/abs/2605.07579)View PDF (https://arxiv.org/pdf/2605.07579)Project page (https://holi-lab.github.io/POISE/)GitHub (https://github.com/holi-lab/POISE)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.07579)

在您的代理中获取这篇论文:

hf papers read 2605\.07579

没有最新版的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2605.07579 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2605.07579 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2605.07579 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.

相似文章

RL用于LLM的价值梯度假说

arXiv cs.LG

本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。

面向多模态推理的结构化角色感知策略优化

arXiv cs.AI

本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。

使用语言模型先验从观测中学习POMDP世界模型

Hugging Face Daily Papers

本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。