@johnschulman2: PPO在LLM时代迎来了第二波,原因超出了原始论文的预期——重要性比率目标会修正由数值误差、异步训练和前向传播噪声引起的偏差——而裁剪目标通过一种我们当初发表时未知的机制影响熵(DAPO, https://arxiv.org/abs/2509.26114)
摘要
本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差:低裁剪增加熵,高裁剪减少熵。作者证明,即使在随机奖励的情况下,标准裁剪也会降低熵,并表明调整低裁剪可以防止熵塌陷并促进探索。
查看缓存全文
缓存时间: 2026/06/18 02:02
PPO 在 LLM 时代经历了第二次浪潮,其原因超出了原始论文的预期——重要性比目标修正了来自数值误差、异步训练和前向传播噪声的偏差——剪辑目标通过一种我们在发表时未知的机制影响熵(DAPO,https://arxiv.org/abs/2509.26114)。
在大语言模型强化学习中,低剪提高熵,高剪降低熵
来源:https://arxiv.org/html/2509.26114
Jaesung R. Park(^1)Junsu Kim(^2)Gyeongman Kim(^3) Jinyoung Jo(^4)Sean Choi(^5)Jaewoong Cho(^3)Ernest K. Ryu(^1)
(^1)加州大学洛杉矶分校数学系
(^2)首尔大学数理科学系
(^3)KRAFTON
(^4)斯坦福大学语言学系
(^5)圣克拉拉大学计算机科学与工程系
摘要
基于可验证奖励的强化学习(RLVR)最近成为提升大语言模型(LLM)推理能力的主要方法。然而,RLVR 容易发生熵坍塌,即 LLM 迅速收敛到接近确定性的形式,这在长期 RL 训练过程中阻碍了探索和进步。在本工作中,我们揭示了 PPO 和 GRPO 中的剪辑机制对熵产生了偏差。通过理论和实证分析,我们表明低剪(clip-low)提高熵,而高剪(clip-high)降低熵。此外,在标准剪辑参数下,高剪的效果占主导,即使为 RL 算法提供纯粹的随机奖励,也会导致总体熵降低。我们的发现指出了 RLVR 中一个被忽视的混杂因素:独立于奖励信号,剪辑机制影响熵,进而影响推理行为。进一步地,我们的分析表明剪辑可以有意地用于控制熵。具体地,通过设置更激进的低剪值,可以提高熵、促进探索,并最终防止 RLVR 训练中的熵坍塌。
1 引言
基于可验证奖励的强化学习(RLVR)最近成为提升大语言模型(LLM)推理能力的主要方法,尤其是在数学推理领域(Guo et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib13);Lambert et al., 2024 (https://arxiv.org/html/2509.26114v1#bib.bib20);Luong et al., 2024 (https://arxiv.org/html/2509.26114v1#bib.bib24);Yang et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib37))。然而,RLVR 容易发生熵坍塌:一种 LLM 迅速收敛到接近确定性形式的现象,这在长期 RL 训练过程中阻碍了探索和进步(Yu et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib38))。最近的研究报告了这一效应,并继续争论它是否是性能改善的必然副产品(Yue et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib39);Cui et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib8);Wu et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib35))。许多工作提出了启发式干预措施来缓解熵坍塌,例如调整训练超参数(Yu et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib38))或显式地加入 KL 散度损失项(Liu et al., 2025a (https://arxiv.org/html/2509.26114v1#bib.bib22))。尽管这些方法可以在一定程度上提高策略熵,但它们未能提供关于 LLM 在 RL 训练过程中熵为何以及如何演化的机制性理解。
贡献。
在本文中,我们阐明了 LLM 在 RL 训练过程中这种鲜为人知的熵动态。首先,我们在奖励为随机(即独立于策略分布)的玩具环境中进行理论分析,并证明 PPO(Schulman et al., 2017 (https://arxiv.org/html/2509.26114v1#bib.bib27))或 GRPO(Shao et al., 2024 (https://arxiv.org/html/2509.26114v1#bib.bib29))中使用的剪辑机制对熵产生了偏差。具体来说,针对负优势的低剪(clip-low)提高熵,而针对正优势的高剪(clip-high)降低熵。接下来,我们通过实验证明理论结果可以推广到数学推理任务的一般 RLVR 设置。通过简单地调整剪辑超参数,我们可以有效控制 RLVR 过程中的熵动态,从而防止熵坍塌。此外,我们表明这种熵控制训练保留了基础模型的探索能力而不牺牲其性能,为稳定且持久的 RLVR 训练提供了一个实用工具。
1.1 相关工作
缓解 RLVR 中的熵坍塌。
越来越多的工作研究了熵坍塌现象。DAPO(Yu et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib38))认为 PPO(Schulman et al., 2017 (https://arxiv.org/html/2509.26114v1#bib.bib27))和 GRPO(Shao et al., 2024 (https://arxiv.org/html/2509.26114v1#bib.bib29))中的高剪组件阻止了“探索 token”被提升,从而加速熵衰减。为了应对这一点,他们提出了“clip-higher”,一种非对称剪辑规则,通过设置 (\varepsilon_{\mathrm{high}} > \varepsilon_{\mathrm{low}}) 来减少高剪事件。ProRL(Liu et al., 2025a (https://arxiv.org/html/2509.26114v1#bib.bib22))采用了 clip-higher,并进一步强调使用 KL 散度损失来稳定熵;他们监控训练过程,并多次手动硬重置优化状态和用于 KL 散度项的参考策略,以实现长时间的 RLVR 训练。另一种流行的方法是使用奖励塑形来促进探索(Cheng et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib6);Gao et al., 2025a (https://arxiv.org/html/2509.26114v1#bib.bib10)),这大体上可以理解为受传统强化学习算法启发的方法(Haarnoja et al., 2018 (https://arxiv.org/html/2509.26114v1#bib.bib14);Burda et al., 2019 (https://arxiv.org/html/2509.26114v1#bib.bib3))。另一方面,Cui et al. (2025 (https://arxiv.org/html/2509.26114v1#bib.bib8)) 进行了广泛的搜索,并提供了一个不同的观点:训练期间熵的下降实际上可以理解为性能的权衡,将熵坍塌视为训练的一个预期副产品(Deng et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib9))。
RLVR 期间 LLM 的探索。
关于 RLVR 是否引出了真正新颖的推理,或者仅仅重新加权了基础模型中已存在的推理路径,存在积极的争论。一方面,最近的分析认为 RLVR 主要重塑了预先存在的思维链上的采样分布。这些工作强调了 RLVR 训练期间 pass@k 指标的退化(He et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib15)),并表明当 k 很大时,训练后的 LLM 可能不如基础模型(Yue et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib39);Wu et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib35))。另一方面,相互矛盾的证据表明 RLVR 可以诱导基础模型不具备的能力(Wen et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib33))。例如,仔细重塑奖励函数并采用增强的训练计划已被证明能有效改善 RLVR 期间的探索(Chen et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib5);Song et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib31))。值得注意的是,Liu et al. (2025a (https://arxiv.org/html/2509.26114v1#bib.bib22)) 报告了 RLVR 能够解决即使基础模型在较大 k 下也无法解决的一些逻辑任务。我们的发现强化了后一种观点:我们表明通过受控剪辑有意维持更高熵可以改善 pass@k 而不降低 mean@k,这表明 LLM 探索能力退化并非 RLVR 的固有局限。
用于 RL 的随机奖励。
反直觉的是,最近的研究报告指出,即使使用弱、噪声或完全随机的奖励,RL 也能提高 LLM 的基准分数(Wang et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib32);Lv et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib25);Zhu et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib41))。这一系列的研究包括利用策略模型的熵最小化的方法(Zhao et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib40);Agarwal et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib1);Gao et al., 2025b (https://arxiv.org/html/2509.26114v1#bib.bib11))。与我们工作最相关的是 (Shao et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib28)),其中作者使用纯粹的随机奖励进行训练,并观察到 Qwen 系列模型(Yang et al., 2025 (https://arxiv.org/html/2509.26114v1#bib.bib37))的主要收益。我们表明,在表面之下,熵最小化是训练随机奖励时始终如一的驱动力,并且这种机制出现在广泛的模型家族中,而非 Qwen 特有。这重新定义了“随机奖励改进”:它是剪辑后的 RLVR 目标将策略偏向低熵的可预测结果,即使奖励信号不提供任何信息。
1.2 符号与预备知识
考虑如下设置:给定提示 (x),一个 LLM (\pi_\theta) 生成响应 (y = (y_1, \dots, y_T)),并且一个奖励函数 (r(y)) 对其进行评估。目标是最大化期望奖励:
[
\underset{\theta}{\text{maximize}} \quad \mathcal{J}(\theta) := \mathbb{E}{\substack{x \sim \mathcal{D} \ y \sim \pi\theta(\cdot \mid x)}} [r(y)],
\tag{1}
]
其中 (\mathcal{D}) 表示提示的训练分布。我们将这个优化问题转化为一个 RL 问题。具体地,考虑具有离散状态空间 (\mathcal{S}) 和有限动作空间 (\mathcal{A}) 的 MDP,其中 (\mathcal{A}) 是有限动作空间。状态定义为 (s_t = (x, y_1, \dots, y_{t-1})),动作 (a_t) 是下一个要生成的 token,转移动态是确定性的,即生成的 token 被附加到状态上。最后,语言模型 (\pi_\theta) 被视为策略,我们称这为大语言模型强化学习(RL-LLM)设置。给定一个策略(语言模型)(\pi),我们定义其状态访问度量为
[
d^\pi(s) = \sum_{t=0}^\infty \mathbb{P}(s_t = s) = \mathbb{E}\left[\sum_{t=0}^T \mathbf{1}_{s_t = s}\right],
]
其中概率和期望相对于 (s_0 = x \sim \mathcal{D}) 和 (a_t \sim \pi(\cdot \mid s_t))((t = 0, 1, \dots))而言。
REINFORCE。
经典的 REINFORCE 策略梯度估计器(Williams, 1992 (https://arxiv.org/html/2509.26114v1#bib.bib34))为:
[
\nabla_\theta \mathcal{J}(\theta) = \mathbb{E}{\substack{x \sim \mathcal{D} \ y \sim \pi\theta(\cdot \mid x)}} \left[\sum_{t=1}^T \nabla_\theta \log \pi_\theta(y_t \mid y_{<t}) \left(\sum_{t’=t}^T r_{t’}\right)\right].
]
然而,在实际中,通常使用
[
\mathbb{E}[A] = 0, \quad \mathbb{P}(A > 0) = \mathbb{P}(A < 0) = \nu, \quad \mathbb{E}[A \mid A > 0] = \mu.
]
实际的 GRPO 算法对目标函数 (\mathcal{J}) 执行有限步的优化步骤,通常使用 AdamW,这难以直接建模和分析。为了分析的可处理性,我们假设使用全批量梯度,并考虑两种简化的公式:应用于 (\mathcal{J}) 的策略梯度和自然策略梯度算法。即,第一种算法是策略梯度算法:
[
\theta_{k+1} = \theta_k + \eta \nabla_\theta \mathcal{J}(\pi_{\theta_k}; \pi_{\text{old}}),
\tag{5}
]
其中 (\pi_{\text{old}}) 是 (\pi_{\theta_k}) 的较旧版本,由 GRPO 的外循环更新,并且 (\pi_\theta) 被参数化为表格 softmax 策略:
[
\pi_\theta(a \mid s) = \frac{\exp(\theta_{s,a})}{\sum_{a’ \in \mathcal{A}} \exp(\theta_{s,a’})} \qquad \text{for } s \in \mathcal{S}, a \in \mathcal{A},
]
其中状态空间为 (\mathcal{S}),有限动作空间为 (\mathcal{A}),可训练参数 (\theta \in \mathbb{R}^{|\mathcal{S}| \times |\mathcal{A}|})。第二种算法是自然策略梯度算法(Kakade, 2001 (https://arxiv.org/html/2509.26114v1#bib.bib19)):
[
\pi_{k+1} \propto \pi_k \circ \exp\left(\eta \nabla_\pi \mathcal{J}(\pi_k; \pi_{\text{old}})\right),
\tag{6}
]
其中 (\pi_{\text{old}}) 同样是 (\pi_k) 的较旧版本,由 GRPO 的外循环更新,(\circ) 表示逐元素乘法。正如我们将看到的,我们对这两种算法的分析结果略有不同,但在性质上是一致的。由于这两种算法被认为是真实 GRPO 更新的模型,这种一致性进一步增强了我们从分析中得出的定性结论的可信度。
现在,定义以下概率事件:
[
\begin{aligned}
X_k(s) &= {\text{事件使得 } \tfrac{\pi_k(a|s)}{\pi_{\text{old}}(a|s)} < 1 - \varepsilon_{\text{low}}} \
&= {\text{事件使得低剪发生}} \
Y_k(s) &= {\text{事件使得 } \tfrac{\pi_k(a|s)}{\pi_{\text{old}}(a|s)} > 1 + \varepsilon_{\text{high}}} \
&= {\text{事件使得高剪发生}}.
\end{aligned}
]
事件 (X_k(s)) 和 (Y_k(s)) 是否成立由动作 (a \sim \pi_{\text{old}}(\cdot \mid s)) 决定。
2.2 熵变化的一阶分析
我们首先给出策略梯度算法熵变化的分析。
定理 1.
考虑第 2.1 节中描述的设置和公式 (5) 给出的策略梯度算法。那么,在状态 (s) 处的熵变化的一阶近似为:
[
\begin{aligned}
\mathcal{H}(\theta_{k+1} \mid s) - \mathcal{H}(\theta_k \mid s) = \mu \nu \eta ; d^{\pi_{\text{old}}} &\bigg( \underbrace{p_k (\mathbb{E}[Q] - \mathbb{E}[Q \mid X_k])}{\text{低剪贡献}} \
&\quad - \underbrace{q_k (\mathbb{E}[Q] - \mathbb{E}[Q \mid Y_k])}{\text{高剪贡献}} \bigg) + \mathcal{O}(\eta^2)
\end{aligned}
]
其中 (Q = \pi_k(a \mid s)(\log \pi_k(a \mid s) + \mathcal{H}(\theta^k \mid s))),(p_k = \mathbb{P}(X_k)),(q_k = \mathbb{P}(Y_k)),(d^{\pi_{\text{old}}}) 是状态访问度量,期望 (\mathbb{E}) 相对于 (a \sim \pi_k(\cdot \mid s)) 取。
相似文章
RL用于LLM的价值梯度假说
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。
@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展!传统 RL 假装您可以将所有奖励信号压缩为...
介绍了向量策略优化(VPO),一种新的 RL 方法,通过处理向量值奖励来改进 LLM 的测试时扩展,优于传统的标量奖励方法。
ODRPO:离散奖励的序数分解用于鲁棒策略优化
介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。
选择性优势熵自适应范围GRPO:用于语言模型高效强化学习的非对称令牌级折扣
本文介绍了GRPO的自适应范围和选择性优势变体,这些变体使用基于熵的令牌级折扣来稳定训练并提高数学推理任务的性能,以更低的方差实现了更强的结果。
重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。