RL用于LLM的价值梯度假说
摘要
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。
arXiv:2605.21654v1 公告类型:新论文
摘要:强化学习显著提升了预训练语言模型,但为何像PPO和GRPO这类无评论家方法效果如此之好,以及何时能带来最大收益,仍研究不足。我们从价值梯度视角研究LLM后训练中的无评论家强化学习。首先,在可微展开和加性噪声参数化下,我们证明演员更新的期望形式类似于价值梯度:反向传播传播了共态(costates),其条件期望等于价值梯度。其次,对于离散Transformer策略,我们展示通过注意力的自动微分产生的经验共态近似于这一价值信号,其误差由采样间隔和策略熵控制。这些结果促使我们将RL的影响分解为价值梯度信号与可达奖励空间两部分,从而得出一个准则,用于判断在预训练轨迹中何时RL最为有效。
查看缓存全文
缓存时间: 2026/05/22 08:50
# 面向LLM的强化学习价值梯度假设 来源:https://arxiv.org/html/2605.21654 Arip Asadulaev,Daniil Ognev,Karim Salta,Martin Takac(MBZUAI、MBZUAI、独立、MBZUAI)
###### 摘要
强化学习显著提升了预训练语言模型的性能,但关于为何无评论家方法(如PPO和GRPO)能够如此有效,以及在何种情况下它们应带来最大收益,这些问题仍未得到充分研究。本文为LLM后训练中的无评论家RL发展了一个价值梯度视角。首先,在可微轨迹展开和加性噪声参数化下,我们证明actor更新在期望上是类似价值梯度的:*反向传播传播了共态,其条件期望等于价值梯度*。其次,对于离散Transformer策略,我们证明通过注意力的自动微分产生了近似此价值信号的经验共态,其误差由采样间隔和策略熵控制。这些结果激励将RL影响分解为可用价值梯度信号和可达奖励余量,从而得到一个沿预训练轨迹RL最有效的判据。
## 1 引言
参阅图注
图1:使用价值影响公式(第5节,式29)预测的实际RL增益与预测值的对比。
近期,大语言模型(LLM)使用组相对策略优化(GRPO)(Shao等人,2024)实现了最先进的推理能力,该方法完全丢弃了评论家,然而经典强化学习(RL)理论预测无评论家方法应在长期信用分配上失败。为何它们没有失败?*在本文中,我们认为LLM中的无评论家RL并非无价值*。核心主张是,actor的反向传播已经携带了类似价值梯度的信号。在可微轨迹展开中,该信号正是通过时间反向传播(BPTT)传播的共态。在离散Transformer中,相同的结构近似存活,因为注意力为围绕令牌采样瓶颈的信用传输提供了可微分路径。
首先,在连续松弛条件下(Fairbank和Alonso,2012),我们证明近端策略优化(PPO)/GRPO的actor更新在期望上是类似价值梯度的。其次,对于离散Transformer策略,我们证明由自动微分计算的经验共态近似了连续BPTT信号,其误差由采样间隔和策略熵控制。第三,我们利用这一视角推导出RL影响分解为可用价值梯度信号和可达奖励余量,这可以预测沿预训练过程RL最有效的时刻(图1)。这一视角为实际问题提供了具体答案:*RL在那些同时足够接近价值梯度机制以传输有效信用、且远离饱和以保留奖励改善轨迹的检查点处帮助最大*。
我们的贡献是:
- 我们证明,在可微轨迹展开和移位/加性噪声策略下,局部GRPO actor更新在期望上是类似价值梯度的。
- 我们证明,在具有离散令牌采样的Transformer中,由自动微分计算的经验共态近似了BPTT共态,其误差由采样间隔和基于注意力的信用传输控制。
- 我们推导出一个预测性的RL影响分解为可用价值梯度信号和可达奖励余量,该分解可在预训练期间用于检查点选择。
## 2 背景
### 符号表示。
提示/问题记为 \(q\sim P(Q)\)。给定 \(q\),一个参数为 \(\theta\) 的策略生成自回归补全 \(o=(o_1,\dots,o_T)\),具有令牌级别的分解 \(\pi_\theta(o\mid q)=\prod_{t=1}^T \pi_\theta(o_t\mid s_t)\),其中 \(s_t:=(q,o_{<t})\) 是上下文。奖励函数 \(r(o,q)\) 对完整补全进行评分。折扣因子为 \(\gamma\in[0,1]\)。
在GRPO中,对于每个提示 \(q\),我们从当前策略中采样 \(G\) 个补全:\(o^{(1)},\dots,o^{(G)}\)。计算奖励 \(r_i=r(o^{(i)},q)\),然后对组内奖励进行归一化:\(\tilde{r}_i = \frac{r_i-\mu_r}{\sigma_r}\),其中 \(\mu_r = \frac{1}{G}\sum_{j=1}^G r_j\),\(\sigma_r = \sqrt{\frac{1}{G}\sum_{j=1}^G (r_j-\mu_r)^2 + \xi_{\mathrm{num}}}\),\(\xi_{\mathrm{num}}>0\) 用于数值稳定性,且 \(r=(r_1,\dots,r_G)\)。GRPO随后使用沿补全保持常量的令牌级优势估计:对于所有 \(t\),\(\widehat{A}_{i,t}:=\tilde{r}_i\)(过程监督变种可以使用令牌级或步骤级的奖励待收回)。目标函数是带有针对固定参考策略 \(\pi_{\mathrm{ref}}\) 的KL惩罚的GRPO裁剪替代目标:
\[
J(\theta)=\mathbb{E}\Bigg[\frac{1}{G}\sum_{i=1}^G\frac{1}{T_i}\sum_{t=1}^{T_i}\Big(\min\bigl(\rho_{i,t}(\theta)\widehat{A}_{i,t},\;\operatorname{clip}(\rho_{i,t}(\theta),1-\varepsilon,1+\varepsilon)\widehat{A}_{i,t}\bigr)-\beta\,\mathrm{KL}\!\bigl(\pi_\theta\,\|\,\pi_{\mathrm{ref}}\bigr)\Bigg]\tag{1}
\]
其中 \(\varepsilon>0\) 是裁剪阈值,\(\beta>0\) 控制KL正则化强度。GRPO与PPO的区别仅在于 \(\widehat{A}_{i,t}\) 的构造方式:它使用组归一化回报(基于同一提示的多次采样计算得出)并通常将该标量值沿轨迹保持常量。
### 2.2 梯度估计器
令 \(x\) 为随机变量,\(c\) 为可微标量代价,且 \(F(\theta):=\mathbb{E}_x[c(x)]\) 为目标函数。\(\theta\) 可以通过两种典型方式进入此期望(Schulman等人,2015)。
**得分函数(SF)估计器**:若 \(x\sim p(\cdot;\theta)\),则由对数导数技巧得:
\[
\frac{\partial}{\partial\theta}\,\mathbb{E}_{x\sim p(\cdot;\theta)}\bigl[c(x)\bigr] = \mathbb{E}_x\left[c(x)\,\frac{\partial}{\partial\theta}\log p(x;\theta)\right].\tag{2}
\]
该恒等式在 \(p(x;\theta)\) 关于 \(\theta\) 可微时成立。关键在于 \(c\) 无需关于 \(x\) 可微甚至连续。这正是SF成为经典RL自然估计器的原因:离散动作、非可微奖励和未知动态均被允许。代价是方差:估计器仅使用*标量* \(c(x)\),而非其斜率,因此*忽略了 \(c\) 的所有局部几何信息*。
**路径导(PD)估计器**:若 \(x=x(z,\theta)\) 是 \(\theta\) 和外部噪声变量 \(z\sim p(z)\) 的可微函数,且 \(z\) 的分布*不*依赖于 \(\theta\)(即*重参数化*),则微分与期望可直接交换:
\[
\frac{\partial}{\partial\theta}\,\mathbb{E}_z\bigl[c(x(z,\theta))\bigr] = \mathbb{E}_z\left[\frac{\partial}{\partial\theta}c(x(z,\theta))\right].\tag{3}
\]
PD直接利用 \(\frac{\partial c}{\partial x}\),通常比同时适用的SF方差更低(Rezende等人,2014)。代价是需要更强的正则性:\(c\circ x(\cdot,\theta)\) 必须(几乎处处)可微,且采样必须允许重参数化。
### 2.3 共态与价值梯度
现在我们将 §2.2 的单变量策略梯度设置扩展到轨迹,并探究RL设置中反向传播计算的对象。
###### 定义1(可微轨迹展开)。
函数 \(\pi_\theta, f_\theta, r\) 关于其参数可微。噪声律 \(p(\xi)\) 不依赖于 \(\theta\),且
\[
a_t = \pi_\theta(s_t, \xi_t),\quad s_{t+1}=f_\theta\bigl(s_t, \pi_\theta(s_t,\xi_t)\bigr),\quad \xi_t\sim p(\xi)\text{ i.i.d.,独立于 }\theta.\tag{4}
\]
令 \(D\) 表示关于状态的全导数,同时考虑直接状态依赖和通过策略动作的间接依赖。对于向量值动态,\(Df_\theta(s_t,a_t)=\frac{\partial f_\theta}{\partial s}+\frac{\partial f_\theta}{\partial a}\frac{\partial \pi_\theta}{\partial s}\);类似地定义 \(Dr\)。由于在定义1下所有随机性均为外生,给定噪声后采样回报 \(R_1(\theta,\xi_{1:T})\) 是参数的决定性函数。这使得微分与期望可交换,得到类似公式(3)的路径恒等式:
\[
\frac{\partial J(\theta)}{\partial\theta} = \mathbb{E}\!\left[\frac{\partial R_1}{\partial\theta}\right].
\]
梯度 \(\frac{\partial R_1}{\partial\theta}\) 通过对展开的计算图(4)进行微分来计算,这一过程称为*通过时间反向传播*(BPTT)(Fairbank和Alonso,2012)。关键的是,BPTT传播的并非参数梯度本身,而是状态灵敏度伴随变量,我们称之为**共态**:
\[
\lambda_t := \frac{\partial R_t}{\partial s_t},\quad \lambda_{T+1}:=0.\tag{5}
\]
直观上,当前状态对未来回报的影响包含两部分:对当前奖励的直接影响,以及通过转移雅可比向后推动的未来影响。形式上:
###### 命题1(伴随递归,(Fairbank和Alonso,2012))。
在定义1下,共态满足
\[
\boxed{\;\lambda_t = Dr(s_t,a_t) + \gamma\,\bigl(Df_\theta(s_t,a_t)\bigr)^\top\!\lambda_{t+1}\;}\tag{6}
\]
对 \(t=T,\dots,1\) 成立,且精确的路径参数梯度为
\[
\frac{\partial J(\theta)}{\partial\theta}=\mathbb{E}\Bigg[\sum_{t=1}^T \gamma^{t-1}\Bigg(\gamma\left(\frac{\partial f_\theta(s_t,a_t)}{\partial\theta}\right)^\top\lambda_{t+1} + \left(\frac{\partial \pi_\theta(s_t,\xi_t)}{\partial\theta}\right)^\top\left(\frac{\partial r(s_t,a_t)}{\partial a_t}+\gamma\left(\frac{\partial f_\theta(s_t,a_t)}{\partial a_t}\right)^\top\lambda_{t+1}\right)\Bigg)\Bigg].\tag{7}
\]
证明(见附录A)是对 \(R_t=r(s_t,a_t)+\gamma R_{t+1}\) 的直接链式展开。
**共态是价值梯度估计器**。给定 \(s_t=s\) 的条件,值函数满足 \(V_t^\pi(s)=\mathbb{E}\!\left[r(s_t,a_t)+\gamma V_{t+1}^\pi(s_{t+1})\,\middle|\,s_t=s\right]\)。将此值递归与式(6)中的采样共态递归比较,可见两者形式相同。更准确地说,对式(6)关于 \(s\) 求导并在定义1下交换微分与期望,得
\[
\frac{\partial V_t^\pi(s)}{\partial s} = \mathbb{E}\!\left[Dr(s_t,a_t)+\gamma\bigl(Df_\theta(s_t,a_t)\bigr)^\top G_{t+1}^\pi(s_{t+1})\,\middle|\,s_t=s\right].\tag{8}
\]
价值梯度是相应于未来噪声的*条件期望*。因此,
\[
\mathbb{E}[\lambda_t\mid s_t=s] = \frac{\partial V_t^\pi(s)}{\partial s}\tag{9}
\]
即BPTT向后传播的量在每一步都是价值梯度的蒙特卡洛样本。因此,*无评论家*并不意味着*无价值*:相关的价值信息以传播的梯度信号而非单独拟合的标量评论家形式存在。
**要点**:本文的关键对象是共态:在可微轨迹展开中,BPTT传播的反向信号是价值梯度的蒙特卡洛估计器。
## 3 连续视角:为何无评论家RL类似价值梯度
我们现在证明,GRPO/PPO的actor更新在期望上等于连续松弛轨迹下的BPTT路径梯度。标准的GRPO/PPO推导针对离散令牌动作,其中 \(s_t:=(q,o_{<t})\) 且 \(a_t=o_t\) 为离散。而重参数化梯度(3)要求动作和转移可微。因此,我们考虑一个连续松弛,其中令牌被替换为可微变量:\(\tilde{o}_t = \pi_\theta(s_t,\xi_t)\) 且 \(\tilde{s}_{t+1}=f_\theta(\tilde{s}_t,\tilde{o}_t)\),所有函数均关于 \(\theta\) 和 \(\tilde{s}_t\) 可微。在此松弛中,梯度由式(7)精确给出,并涉及共态 \(\lambda_t = Dr(\tilde{s}_t,\tilde{o}_t) + \gamma (Df_\theta(\tilde{s}_t,\tilde{o}_t))^\top \lambda_{t+1}\)。
与GRPO的比较:GRPO的梯度(忽略裁剪和KL项)为
\[
\nabla_\theta J_{\text{GRPO}} \approx \mathbb{E}\left[\sum_{t=1}^T \widehat{A}_t \cdot \nabla_\theta \log \pi_\theta(o_t\mid s_t)\right].\tag{10}
\]
在连续松弛中,\(\log \pi_\theta(o_t\mid s_t)\) 被 \(\log \pi_\theta(\tilde{o}_t\mid \tilde{s}_t)\) 替代。通过重参数化,\(\tilde{o}_t = \pi_\theta(\tilde{s}_t,\xi_t)\),因此梯度可写为
\[
\mathbb{E}\left[\sum_{t=1}^T \left(\frac{\partial \pi_\theta(\tilde{s}_t,\xi_t)}{\partial \theta}\right)^\top \left(\frac{\partial \log \pi_\theta}{\partial \tilde{o}_t}\right) \widehat{A}_t\right].\tag{11}
\]
比较式(7)与(11),我们发现关键对应:在式(7)中,项 \(\left(\frac{\partial r}{\partial a_t}+\gamma\left(\frac{\partial f_\theta}{\partial a_t}\right)^\top \lambda_{t+1}\right)\) 扮演了“优势”角色,因为它衡量了动作对当前及未来回报的影响。在GRPO中,标量 \(\widehat{A}_t\) 使用整个轨迹的回报估计。若我们定义 \(\lambda_t^{\text{GRPO}} := \widehat{A}_t \cdot \frac{\partial \log \pi_\theta}{\partial s_t}\)(假设可微,或通过类似softmax的松弛),则递归结构相似。事实上,在定义适当的“奖励”为 \(\widehat{A}_t\) 且“转移”恒等映射下,式(6)变为 \(\lambda_t = \widehat{A}_t \cdot \frac{\partial \log \pi_\theta}{\partial s_t} + \lambda_{t+1}\)。这不是精确的BPTT递归,但说明了信用分配的结构。我们的主要结论是,在可微松弛和加性噪声参数化下,GRPO的actor更新在期望上等于BPTT路径梯度,前提是奖励函数定义为 \(r(s_t,a_t) = \mathbb{E}[\text{回报}(a_t,\dots)\mid s_t]\) 的某种合适形式。我们将在§4中为离散情况建立更精确的对应关系。
## 4 离散Transformer中的经验共态
本节证明,在离散Transformer策略中,由自动微分计算的反向信号(经验共态)近似了连续BPTT共态,其误差由注意力和采样过程控制。
设 \(h_t^{(L)}\) 为第 \(t\) 个时间步Transformer最后一层的隐藏状态。从 \(h_t^{(L)}\) 到下一时间步隐藏状态 \(h_{t+1}^{(L)}\) 的计算图包含一个非可微分支:\(h_t^{(L)} \xrightarrow{\text{线性投影}} z_t \xrightarrow{\text{采样}} o_t \xrightarrow{\text{嵌入}} e_t \xrightarrow{\text{Transformer}} h_{t+1}^{(L)}\)。在自动微分中,正向采样步骤(\(\arg\max\) 或多项式采样)被当作常数处理,但损失函数 \(-\log \pi_\theta(o_t\mid s_t)\) 关于 \(h_t^{(L)}\) 的梯度通过softmax传播。此外,注意力机制提供了跨时间步的可微路径,因为 \(h_{t+1}^{(L)}\) 通过注意力权重依赖于 \(h_{1,\dots,t}^{(L)}\)。
定义**注意力转移雅可比** \(J_{t+1\leftarrow t}^{\text{attn}} := \frac{\partial h_{t+1}^{(L)}}{\partial h_t^{(L)}}\),其中导数通过注意力权重和值投影反向传播。注意,由于采样造成的间断,此雅可比并不包含采样步骤的导数。那么,自动微分通过损失函数反向传播,在每一步 \(t\) 计算一个信号,我们称之为**经验共态** \(\hat{\lambda}_t\)。具体地,假设损失为 \(-\sum_{k=1}^T \widehat{A}_k \log \pi_\theta(o_k\mid s_k)\),则
\[
\hat{\lambda}_t = \widehat{A}_t \cdot \frac{\partial \ell_t}{\partial h_t^{(L)}} + \sum_{k>t} \widehat{A}_k \cdot \frac{\partial \ell_k}{\partial h_k^{(L)}} \cdot J_{k\leftarrow t},
\]
或等价写为递归形式:
\[
\boxed{\;\hat{\lambda}_t = \widehat{A}_t \cdot \frac{\partial \ell_t}{\partial h_t^{(L)}} + J_{t+1\leftarrow t}^\top \cdot \hat{\lambda}_{t+1}\;},\qquad \hat{\lambda}_{T+1}:=0.\tag{15}
\]
这与命题1中的BPTT共态递归在结构上相同:
\[
\lambda_t = Dr(s_t,a_t) + \gamma\,(Df_\theta(s_t,a_t))^\top \lambda_{t+1}.
\]
对应关系为:
\[
Dr \longleftrightarrow \widehat{A}_t \cdot \frac{\partial \ell_t}{\partial h_t^{(L)}} \quad (\text{即时信用信号}),\tag{16}
\]
\[
(Df_\theta)^\top \longleftrightarrow J_{t+1\leftarrow t}^\top \quad (\text{通过注意力的转移雅可比}),\tag{17}
\]
\[
\lambda_{t+1} \longleftrightarrow \hat{\lambda}_{t+1} \quad (\text{传播的未来信号}).\tag{18}
\]
### 4.1 与精确BPTT缺失的部分
在§2.3的连续松弛中,转移 \(s_{t+1}=f_\theta(s_t,a_t)\) 完全可微,因此 \(Df_\theta\) 捕捉了*所有内容*,包括对 \(s_t\) 的扰动将如何改变连续动作 \(a_t\),进而改变 \(s_{t+1}\)。在离散GRPO中,每个采样步骤存在一个**非可微间隙**:
\[
h_t^{(L)} \xrightarrow{\text{可微}} z_t \xrightarrow{\text{采样}} o_t \xrightarrow{\text{嵌入}} e_t \xrightarrow{\text{可微}} h_{t+1}^{(L)}.\tag{19}
\]
自动微分计算的经验注意力转移雅可比 \(J_{t+1\leftarrow t}^{\text{attn}}\) 仅通过可微路径(注意力权重和嵌入)线性化:相似文章
基于价值梯度流的强化学习
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。
@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展!传统 RL 假装您可以将所有奖励信号压缩为...
介绍了向量策略优化(VPO),一种新的 RL 方法,通过处理向量值奖励来改进 LLM 的测试时扩展,优于传统的标量奖励方法。
GRAIL:面向可验证奖励强化学习的梯度重加权优势方法
GRAIL 引入了梯度重加权优势,以改进 LLM 推理强化学习中的 token 级信用分配,在多个模型上优于 GRPO。
列表式策略优化:基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影
本文介绍了列表式策略优化(LPO),这是一种用于 RLVR 的方法,通过在响应单纯形上进行散度最小化来显式处理目标投影,从而提高大语言模型(LLM)的训练稳定性和性能。
@lateinteraction: 你可能错过了:阅读关于Pedagogical RL的博客,与其盲目地从你的LLM中采样,不如利用用于RLVR的标签!学习…
介绍了Pedagogical RL,一种利用特权信息指导成功轨迹采样以增强LLM推理的方法,相比GRPO和在线策略蒸馏,实现了高达40%的相对增益。