SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索
摘要
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。
arXiv:2604.16995v1 发布类型:新论文
摘要:强化学习(RL)已成为一种极具前景的训练范式,能够利用基于规则的奖励信号来训练面向推理的模型。然而,RL 训练通常倾向于提升单样本成功率(即 Pass@1),却未能充分探索多样的推理轨迹,而这对于多样本性能(即 Pass@k)至关重要。我们的初步分析表明,这一局限源于一种根本性的“挤压效应”:概率质量过度集中在少数高奖励轨迹上,从而限制了真正的探索,并制约了 RL 训练所能达到的性能上限。为解决该问题,本文提出了概率挤压引导(SPS)训练范式,通过将传统强化学习与逆强化学习(IRL)交替进行。SPS 将在线策略采样轨迹作为演示数据,并利用 IRL 显式重塑所诱导的轨迹分布,从而在不引入外部监督的情况下增强探索能力。在五个常用推理基准上的实验表明,SPS 能够实现更好的探索效果并提升 Pass@k 指标。除了算法层面的贡献,我们还分析了 RL 的学习动态,并确定了 Pass@k 的经验上限,为揭示基于 RL 的推理模型内在的探索极限提供了见解。研究结果表明,在 RL 与 IRL 之间交替切换,为扩展面向推理的大语言模型的探索能力提供了一条有效途径。
查看缓存全文
缓存时间: 2026/04/21 07:05
# SPS:Steering Probability Squezzing(概率挤压引导)以实现大语言模型强化学习中的更优探索 来源:https://arxiv.org/html/2604.16995 Yifu Huo¹, Chenglong Wang¹, Ziming Zhu¹, Shunjie Xing¹, Peinan Feng¹, Tongran Liu², Qiaozhi He¹, Tianhua Zhou³, Xiaojia Chang³, Jingbo Zhu¹, Zhengtao Yu⁴ 和 Tong Xiao¹†† ¹ 中国沈阳 东北大学 ² 中国科学院行为科学重点实验室,北京,中国 ³ 独立研究员,北京,中国 ⁴ 昆明理工大学,昆明,中国 <[email protected]> | <[email protected]> ###### 摘要 强化学习(RL)已成为利用基于规则的奖励信号训练推理导向模型的一种极具前景的范式。然而,RL 训练通常倾向于提高单样本成功率(即 Pass@1),而对多样化推理轨迹的探索有限,这对于多样本性能(即 Pass@k)至关重要。我们的初步分析表明,这一局限性源于一种**基础概率挤压效应**,即概率质量过度集中在少数高奖励轨迹上,限制了真正的探索,并制约了 RL 训练所能达到的性能上限。为了解决这一问题,本文提出了 **Steering Probability Squeezing(SPS)**,这是一种将传统 RL 与逆强化学习(IRL)交替融合的訓練范式。SPS 将策略内采样(on-policy rollouts)视为演示数据,并利用 IRL 显式重塑由此产生的轨迹分布,从而在不引入外部监督的情况下增强探索能力。在五个常用推理基准上的实验表明,SPS 能够实现更好的探索并提升 Pass@k 性能。除了算法贡献外,我们还分析了 RL 的学习动态,并确定了 Pass@k 的经验上限,揭示了基于 RL 的推理模型中内在的探索极限。我们的研究结果表明,在 RL 和 IRL 之间交替进行训练,是扩展推理导向大语言模型探索能力的一条有效途径。 ## 1 引言 近年来,大语言模型(LLMs)在文本摘要、对话系统和机器翻译等广泛的自然语言处理(NLP)基础任务中展现出了卓越的性能 Stiennon et al. (2020) <https://arxiv.org/html/2604.16995#bib.bib26>;Wang et al. (2024a) <https://arxiv.org/html/2604.16995#bib.bib35>;Luo et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib19>。在此基础上,研究界日益将焦点转向更具挑战性的前沿领域,尤其是推理和代码生成 Lightman et al. (2024) <https://arxiv.org/html/2604.16995#bib.bib16>;Li et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib15>,甚至开始探索 LLM 在发现新型科学定理中的应用 Georgiev et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib8>。因此,探索能力已成为 LLM 在未来这些领域取得进展的关键。 受推理中心型应用中探索重要性的日益增长所驱动,当前的 LLM 对齐方法开始将探索明确纳入训练流程。一种简单且广泛采用的策略是为每个提示词生成多个样本以获得多样化的候选响应集,其中模型的探索能力对于确保输出多样性至关重要 Liu et al. (2024) <https://arxiv.org/html/2604.16995#bib.bib18>;Wang et al. (2024b) <https://arxiv.org/html/2604.16995#bib.bib36>。然而,这类多样本策略仅仅通过从固定策略中重复采样来增加表层多样性,并未从根本上提升底层分布的熵,导致探索效率极低 Cui et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib4>。最近的经验研究进一步证实了这一局限性。例如,Yue et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib43> 表明,尽管 RL 训练在大规模采样下能显著提升 Pass@1,但相应的 Pass@k 收益增长却缓慢得多,这反映了对替代推理轨迹的探索不足。本质上,RL 主要提升了采样效率以推高单样本成功率,而非发掘能够实质性提升多样本性能的多样化轨迹。 为了缓解这种分布锐化效应并促进探索,近期工作主要从同一方向拓展了 vanilla RL 方法:显式对抗熵坍缩,以鼓励 RL 训练期间的更广泛探索 Liu et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib17>;Cui et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib4>。在本研究中,我们通过探究 RL 训练中存在的**基础概率挤压效应** Ren and Sutherland (2024) <https://arxiv.org/html/2604.16995#bib.bib23> 推进了这一研究方向。该效应刻画了概率质量重新分配中的系统性偏差。具体而言,施加于低概率响应的负梯度未能将概率质量重分配至获得正反馈的替代方案;相反,被移除的质量不成比例地被贪婪响应(即已占主导地位的响应)吸收。结果,输出分布变得愈发集中,加剧了分布锐化而非促进探索。我们的初步分析表明,这种挤压效应构成了基于 RL 的训练中探索能力的内在局限。此外,我们提供了支持这一洞察的理论依据,形式化了标准 RL 目标下概率质量重新分配如何导致渐进式集中(详见附录A <https://arxiv.org/html/2604.16995#A1>)。 受此分析启发,我们旨在通过缓解挤压效应来显式增强探索能力。为此,我们提出了 **Steering Probability Squeezing(SPS)**,这是一种通过将逆强化学习(IRL)阶段与传统 RL 交替融合而扩展常规 RL 的训练方法。我们的基本思路是,在完成标准 RL 训练后,我们采用 IRL 显式重塑由此生成的轨迹分布,将概率质量从过度主导的响应重新分配至探索不足但潜在有价值的替代方案。具体而言,与 vanilla RL 相比,SPS 定期 incorporate 前向 IRL 更新 Sun and van der Schaar (2024) <https://arxiv.org/html/2604.16995#bib.bib29>,仅使用策略内采样作为演示数据,以避免引入外部监督或先验知识。此外,为进一步增强探索,我们设计了一种迭代 SPS 训练策略,反复交替进行 RL 和 IRL 更新,实现概率质量的渐进式重新分配,防止策略过早集中。 我们的核心贡献有三: - 我们对 RL 的训练动态进行了初步分析,并确定了 Pass@k 的经验上限。分析结果揭示了 RL 中存在的**挤压效应**,该效应限制了探索能力。 - 基于此分析,我们提出了 SPS 方法,该方法利用 IRL 显式重塑轨迹分布,从而促进更强的探索。此外,我们引入了迭代 SPS 训练策略以进一步增强探索。 - 我们在五个奥赛级数学基准上对 SPS 进行了评估。实验结果表明 Pass@k 取得了持续且显著的提升,表明 SPS 能有效拓宽探索范围并促进多样化推理轨迹的发现。值得注意的是,在 Qwen2.5-Math-1.5B 模型上,SPS 在 BrUMo 基准上实现了 63.33 的 Pass@128 分数,相较于 vanilla GRPO Shao et al. (2024) <https://arxiv.org/html/2604.16995#bib.bib25> 提升了 +10.00 分。 ## 2 预备知识 ### 2.1 任务定义 #### 通过约束数据增强 LLM 推理 给定一组有限的推理问题 $x$ 及其对应的真实标签集合 $\{l\}$,增强 LLM 推理的目标是学习一个策略,使其通过策略内采样产生正确的推理轨迹。在训练过程中,策略会迭代地采样多条轨迹,并从验证器中提取相应的结果级反馈。验证器可表示为 $R(y, l)$: $$ R(y, l) = \mathbb{I}[v(y) = l] \quad (1) $$ 其中 $v(\cdot)$ 表示一个从响应 $y$ 中提取答案的提取函数。在数学推理中,验证器通常被表述为指示函数,当提取的答案与真实标签 $l$ 完全匹配时值为 1,否则为 0。 #### 推理任务中的探索 在 LLM 训练中,探索是指学习过程扩大正确推理轨迹集合的能力,而非仅仅重新加权部分现有模式。形式化地,给定基础策略 $\pi_{\text{base}}(\cdot)$ 和训练策略 $\pi_\theta(\cdot)$,如果 $\pi_\theta(\cdot)$ 提高了位于高似然区域之外的正确推理轨迹的概率,从而扩大了可解决问题集合的边界,则称发生了探索。 #### 探索的度量 根据我们的定义,有效的探索对应于扩展模型能够成功解决的难题集合。为将此概念操作化,我们采用 Pass@k 作为探索能力的估计量。Pass@k 通常定义为针对给定问题从 $k$ 次独立采样响应中获得的最大预期奖励 Chen et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib3>。形式化计算如下: $$ \kappa_k = \mathbb{E}_{(x,l)\sim D} \left[ \max(R(\hat{y}_1, l), R(\hat{y}_2, l), \dots, R(\hat{y}_k, l)) \right] \quad (2) $$ 其中 $\hat{y}_i \sim \pi_\theta(\cdot|x)$。$k$ 通常设置为一个相对较大的值以反映模型的探索能力。遵循前人研究 Ji et al. (2025) <https://arxiv.org/html/2604.16995#bib.bib12>,我们在实验中统一设置 $k=128$。 ### 2.2 组相对策略优化(GRPO) GRPO 已成为训练 LLM 的最广泛采用的 RL 算法之一。与标准 PPO Schulman et al. (2017) <https://arxiv.org/html/2604.16995#bib.bib24> 相比,GRPO 使用一组 $G$ 次采样而非依赖独立的价值网络来估计优势。尽管采用了多样本设定,但在 RLVR 设置中的奖励信号是二元的(即正确或不正确),这使得学习目标可以重构为对比学习框架。基于这一观察,Wu et al. <https://arxiv.org/html/2604.16995#bib.bib38> 进一步将原始目标分解为以下对比形式: $$ \mathcal{J}_{\text{GRPO}}(\theta) = \sqrt{\text{Var}(x)} \left( \mathop{\mathbb{E}}_{y^+ \sim \pi_\theta^+(\cdot|x)} \frac{\pi_\theta(y^+|x)}{\|y^+\|} - \mathop{\mathbb{E}}_{y^- \sim \pi_\theta^-(\cdot|x)} \frac{\pi_\theta(y^-|x)}{\|y^-\|} \right) \quad (3) $$ 其中 $\text{Var}(\cdot)$ 表示从分组样本估计的伯努利奖励分数的方差,$y^+$ 和 $y^-$ 分别表示获得正/负奖励的样本。$\pi_\theta^+(\cdot)$ 和 $\pi_\theta^-(\cdot)$ 分别表示正/负策略。 > **图 1:挤压效应示意图。** $(a)$ 梯度对均衡分布的影响。$(b)$ 梯度对峰值分布的影响。图中 $y_n^*$ 表示在输出分布中占主导地位的序列(即贪婪解码一致采样的序列)。子图 $(a)$ 显示正常 RL 情况,概率质量沿梯度方向转移。子图 $(b)$ 显示当分布已失衡时,更新会将更多概率质量集中到主导峰值上,这种现象称为**挤压效应**。 ## 3 初步分析 受 Ren and Sutherland (2024) <https://arxiv.org/html/2604.16995#bib.bib23> 关于学习动态分析的启发,我们假设 RL 中探索不足的问题源于对比奖励优化引发的固有挤压效应。为验证这一假设,我们进行了两阶段分析。首先,我们刻画了挤压效应在 RL 训练期间是如何形成的。其次,我们探讨了该效应如何限制推理任务中的真正探索。 ### 3.1 强化学习中挤压效应的形成 **挤压效应**描述了一种现象:对低概率 token 应用负梯度更新,反而会导致模型的输出分布进一步集中于最可能的 token。如图 1(a) 所示,当使用 RL 训练策略模型时,其更新同时受到目标函数产生的两个相反梯度分量的影响。直观上讲,正梯度增加了获得正奖励样本的似然性,而负梯度抑制了获得负奖励样本的似然性。然而,在输出分布高度失衡的情况下(如图 1(b) 所示),这种直觉不再成立。当少量 token 已经主导分布时,从低概率 token 移走的概率质量并不会均匀重分配;相反,它被有效地**挤压**向了主导 token,进一步放大了它们的概率。 事实上,这种反直觉的行为源于模型中使用的 softmax 函数的归一化特性 Ren and Sutherland (2024) <https://arxiv.org/html/2604.16995#bib.bib23>。具体而言,当对概率可忽略的 token 应用负更新时,该 token 本身几乎不受影响。相反,更新主要增加了 softmax 的归一化常数,从而降低了几乎所有 token 的归一化概率。然而,对于已经主导分布的 token 来说,这种减少在相对意义上微乎其微,导致其归一化概率成比例上升。结果是,概率质量逐渐集中于
相似文章
ESPO:早期停止近端策略优化
ESPO为强化学习引入了一种早期停止机制,能够检测并终止大语言模型中失败的推理轨迹,从而提升数学推理性能,同时减少超过20%的计算量。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
DenseSteer:引导小型语言模型走向密集数学推理
DenseSteer是一种无需训练的推理时框架,通过将小型语言模型的内部表示引导至密集推理模式,提升其数学推理能力,在不增加词元级负对数似然的情况下实现准确率提升。
乱码也有效:提示空间扰动拓宽推理探索
本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。