驾驭极端 Token:基于高斯核优势重权重的协方差感知 GRPO

arXiv cs.CL 论文

摘要

本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。

arXiv:2605.11538v1 公告类型:新文章 摘要:组相对策略优化(GRPO)已成为提升大语言模型推理能力的一种有前景的方法。然而,该方法在训练过程中往往难以有效地平衡探索与利用之间的权衡,从而导致次优的性能表现。受理论洞察的启发,即熵的变化受 token 概率与其对应优势之间协方差的支配,我们提出了一种无超参数的、基于协方差权重的优化方法,该方法通过高斯核动态地对极端的 token 级更新进行降权处理。这种方法在保留信息丰富的学习信号的同时,自动减少了由探索与利用权衡引起的不稳定性。广泛的实证评估表明,与 GRPO 相比,我们的方法在各类推理基准测试中提升了下游任务性能,并随着训练的推进有效稳定了熵值。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:14

# 驯服极端 Token:基于高斯核优势重加权与协方差感知的 GRPO
**来源:** https://arxiv.org/html/2605.11538
Cheng Wang† Qin Liu‡ Wenxuan Zhou§ Muhao Chen‡
† 新加坡国立大学 ‡ 加州大学戴维斯分校 § 南加州大学
wangcheng@u\.nus\.edu

###### 摘要
组相对策略优化(Group Relative Policy Optimization, GRPO)已成为提升大语言模型(LLM)推理能力的一种有前景的方法。然而,它在训练过程中难以有效平衡探索与利用之间的权衡,往往导致次优性能。受这样一个理论洞察的启发——即熵的变化由 token 概率及其对应优势之间的协方差所支配,我们提出了一种无超参数的*协方差加权优化*方法,通过高斯核动态地对极端 token 级别的更新进行降权。该方法在保留信息性学习信号的同时,自动减少了由探索-利用权衡引起的不稳定性。大量的实证评估表明,与 GRPO 相比,我们的方法在推理基准测试中提升了下游性能,并有效地稳定了训练过程中的熵。

## 1 引言

组相对策略优化(GRPO)(Shao et al., 2024a) 已成为增强大语言模型(LLM)推理能力,特别是在复杂数学和编程任务中的一种有前景的方法。尽管其有效性已得到证明,但 GRPO 面临一个关键局限,即在策略优化过程中无法恰当地平衡利用与探索,这会损害其性能 (Wang et al., 2025a)。过度的利用会导致模型对其次优解过于自信,从而限制其探索新颖推理策略的能力,并可能忽略更有效的方案。相反,虽然探索对于识别更好的策略是必要的,但过度的探索可能导致训练动态不稳定,并阻碍收敛到稳定且高性能的解决方案。这些对立的风险突显了建立一种原则性机制以平衡探索和利用的重要性,从而实现更鲁棒的 GRPO。

> **图 1 说明:** 训练期间的策略熵。Vanilla GRPO 表现出熵的不稳定性,而我们的方法将熵保持在合理水平,有效地平衡了探索与利用。
>
> **图 2 说明:** 我们提出的方法图示。与 Vanilla GRPO 相比,我们的方法基于 token 概率与优势之间的协方差对优势进行重加权。

具体而言,GRPO 中的权衡从根本上与训练期间策略的熵动力学有关。正如 Cui et al. (2025b) 所建立的,在自然策略梯度更新下,熵的变化由 token 对数概率及其对应优势估计值之间的协方差所支配。基于这一理论基础以及我们的实证观察,我们发现,一小部分具有极端协方差值的 token 不成比例地主导了策略更新,导致熵不稳定和训练动态退化。为了缓解这一问题,我们提出了 GRPO 的一种协方差感知变体,通过高斯核加权来减弱极端 token 级别的更新。具体而言,我们的方法计算每个 token 的中心化对数概率与中心化优势之间的协方差,并对具有高幅度协方差的 token 应用平滑降权函数,同时保留具有中等协方差的 token 的影响。这一机制有效调节了异常 token 对策略梯度的贡献,从而以无超参数的方式改善了探索与利用之间的平衡。大量实验表明,我们的方法大幅优于 Vanilla GRPO,实现了更好的下游性能并保持稳定的熵动力学,如图 1 所示。

## 2 方法

### 2.1 预备知识

GRPO (Shao et al., 2024b) 通过移除价值网络并使用基于组的奖励来估计优势,扩展了近端策略优化 (PPO, Schulman et al., 2017)。对于从分布 $\mathcal{D}$ 中采样的每个提示 $q$,GRPO 从当前策略 $\pi_\theta$ 中采样一组 $G$ 个响应 $\{o_1, o_2, \dots, o_G\}$,并使用奖励模型 $r_\phi$(通常是一个基于规则的验证器)对其进行评估。GRPO 计算响应 $i$ 的优势为:
$$ \hat{A}_i = \frac{r_i - \bar{r}}{\sigma_r} $$
其中 $r_i$ 是响应 $i$ 的奖励,$\bar{r}$ 和 $\sigma_r$ 是组内奖励的均值和标准差。GRPO 旨在最大化以下目标函数:
$$ J_{GRPO}(\theta) = \mathbb{E}_{q \sim \mathcal{D}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{\pi_\theta(o_i | q)}{\pi_{\theta_{old}}(o_i | q)} \hat{A}_i \right] - \beta \mathbb{E}_{q \sim \mathcal{D}} \left[ D_{KL}[\pi_\theta(\cdot | q) \| \pi_{ref}(\cdot | q)] \right] $$
其中 $\pi_{\theta_{old}}$ 是上一迭代的策略,$\pi_{ref}$ 是参考策略,$\beta$ 是 KL 惩罚系数。

### 2.2 动机

为了衡量 GRPO 中的探索-利用权衡,我们可以使用策略熵作为指标,其定义为:
$$ \mathcal{H}(\pi_\theta) = - \mathbb{E}_{q \sim \mathcal{D}} \left[ \mathbb{E}_{o \sim \pi_\theta(\cdot | q)} [\log \pi_\theta(o | q)] \right] $$
$$ = - \frac{1}{|\mathcal{D}|} \sum_{q \in \mathcal{D}} \frac{1}{|o|} \sum_{t=1}^{|o|} \mathbb{E}_{o_t \sim \pi_\theta} \log \pi_\theta(o_t \mid q, o_{<t}) $$

> **注意:** 请以英语回复,不要使用其他语言。
> **图 4 说明:** 提示词

## 附录 C 实现细节

我们使用四块 NVIDIA H200 GPU 进行所有训练和评估。我们的奖励函数结合了准确性和格式指标。对于准确性,我们使用用 LaTeX 实现的验证函数将解析后的模型输出与地面真值进行比较。该函数在完全匹配时分配 1.0 的奖励,否则为 0.0。对于格式合规性,当输出包含正确匹配的标签时,我们给予 1.0 的奖励。

**表 5:实验超参数配置**

| 参数 | 值 |
| :--- | :--- |
| 学习率 | $1.0 \times 10^{-6}$ |
| 批量大小 | 12 |
| 梯度累积步数 | 4 |
| 训练步数 | 100 |
| 预热比例 | 0.1 |
| 最大提示长度 | 512 |
| 最大补全长度 | 4096 |
| 温度 | 0.7 |
| 生成数量 | 12 |

## 附录 D 相关工作

#### 推理任务的测试时缩放
测试时缩放已成为通过在推理期间分配额外计算资源来提高 LLM 性能的一种有前景的范式。Snell et al. (2024) 表明,最优地扩展测试时计算比扩展模型参数更有效,通过计算最优策略展示了超过 4 倍的效率提升。Muennighoff et al. (2025) 引入了一种简化的方法,使用“预算强制”通过附加“Wait”令牌来控制推理计算,以极少的训练数据实现了强大的推理能力。Zhao et al. (2025) 通过 GenPRM 推动了该领域的发展,这是一种生成式过程奖励模型,通过显式的思维链推理扩展测试时计算。Setlur et al. (2024) 提出,有效的过程奖励应通过评估每个推理步骤前后的似然变化来衡量进展。

#### 推理任务的强化学习
带有可验证奖励的强化学习(RLVR)已成为激发 LLM 逐步推理的主导路径。Shao et al. (2024b) 首先表明,组相对策略优化(GRPO)可以在无需价值网络的情况下改善性能,该方案后来在 DeepSeek-R1 (DeepSeek-AI, 2025) 中得到了扩展。后续工作诊断了探索瓶颈:不可能性奖励提高了低概率但正确的轨迹 (He et al., 2025),而基于协方差的裁剪将早期饱和追溯到熵崩溃 (Cui et al., 2025c; Hao et al., 2025)。效率研究表明,即使是*单个*工作示例也可以通过 1-shot RLVR 解锁巨大的增益 (Wang et al., 2025b)。

相似文章

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。