CurveRL:面向LLM推理的基于分布感知的上下文权重调整原则性方法

arXiv cs.LG 论文

摘要

本文介绍了CurveRL,一种基于原则的分布感知提示权重调整方法,用于带有可验证奖励的强化学习(RLVR),通过基于通过率的排名和密度而非绝对值来分配权重,从而改进LLM推理,持续优于GRPO及其他基线方法。

arXiv:2605.24331v1 Announce Type: new 摘要:上下文或提示级权重调整已成为带有可验证奖励的强化学习(RLVR)中提升大语言模型推理能力的一个核心算法杠杆,但关于何种权重为最优的原则仍缺乏理解。我们通过将提示权重调整表述为在通过率函数空间中定义的效用泛函的泛函导数,填补了这一空白,从而得到一个统一的最优性框架,该框架能够涵盖包括REINFORCE和GRPO在内的现有方案。基于这一最优性框架,我们提出了一种基于分位数坐标变换的分布感知提示权重调整方法,称为CurveRL,其中分配给每个提示的权重不取决于通过率的绝对值,而是取决于其排名和密度,以反映学习动态中通过率的分布结构。在多个基准上的大量实验表明,我们提出的CurveRL持续优于GRPO及其他RLVR基线。我们的研究将上下文分布控制识别为分析和设计提示加权RLVR算法的一个原则性轴。代码发布在 https://github.com/zhyzmath/CurveRL。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:04

# CurveRL:基于原则的分布感知上下文重加权,用于大语言模型推理

来源:https://arxiv.org/html/2605.24331

Ke Sun¹¹*††¹¹University of Pennsylvania  
{kesun6, qlong}@upenn.edu, [email protected]  
[email protected], [email protected]  

###### 摘要

上下文或提示级重加权已成为基于验证奖励的强化学习(RLVR)中提升大语言模型推理能力的关键算法手段,但关于何种权重构成最优权重的基本原理仍缺乏深入理解。为填补这一空白,我们将提示重加权形式化为在通过正确率函数空间定义的效用泛函的泛函导数,从而得到一个统一的优化框架,该框架涵盖了包括 REINFORCE 和 GRPO 在内的现有方案。在此优化框架基础上,我们提出了一种基于分位数坐标变换的分布感知提示重加权方法,称为CurveRL,其中分配给每个提示的权重不取决于正确率的绝对值,而是取决于其在学习动态中正确率分布中的排名和密度。跨多个基准的大量实验表明,我们提出的 CurveRL 持续优于 GRPO 及其他 RLVR 基线。我们的研究将上下文分布控制识别为分析和设计提示重加权 RLVR 算法的一个原则性维度。代码已发布于 https://github.com/zhyzmath/CurveRL。

### 1 引言

基于验证奖励的强化学习(RLVR)是近期涌现的推理模型(Jaech等人,2024(https://arxiv.org/html/2605.24331#bib.bib44);Guo等人,2025(https://arxiv.org/html/2605.24331#bib.bib38))的主要驱动因素。随着基于结果的奖励被更广泛采用,令牌级MDP(Puterman,2014(https://arxiv.org/html/2605.24331#bib.bib57))实际上坍缩为一个上下文赌博机(Lattimore and Szepesvári,2020(https://arxiv.org/html/2605.24331#bib.bib43)),其中整个推理轨迹被吸收到响应中,成为一个单步决策。在现代 RLVR 方法中,组相对策略优化(GRPO)(Shao等人,2024(https://arxiv.org/html/2605.24331#bib.bib37);Guo等人,2025(https://arxiv.org/html/2605.24331#bib.bib38))及其变体,如(Yu等人,2025(https://arxiv.org/html/2605.24331#bib.bib14);Liu等人,2025(https://arxiv.org/html/2605.24331#bib.bib46);Chu等人,2026(https://arxiv.org/html/2605.24331#bib.bib47);Zhang等人,2025b(https://arxiv.org/html/2605.24331#bib.bib48);Xiong等人,2025(https://arxiv.org/html/2605.24331#bib.bib10);Tajwar等人,2026(https://arxiv.org/html/2605.24331#bib.bib7)),已成为主导家族,在低内存开销下提供了有竞争力的性能。然而,它们成功背后的机制仍未被充分理解。

理解这些算法为何有效,需要认识到 RLVR 的一个独特特征,该特征在标准 RL 中没有直接对应物:能够直接塑造训练样本抽取所依赖的上下文或提示分布。在具有外部环境的标准 RL 中,状态访问分布主要通过智能体的动作和探索策略间接塑造(Thrun,1992(https://arxiv.org/html/2605.24331#bib.bib62);Ladosz等人,2022(https://arxiv.org/html/2605.24331#bib.bib63)),因为状态或上下文分布通常被视为外生的,无法直接操控。基于结果的 RLVR 的上下文赌博机结构移除了这一约束,开辟了一个新的、正交的信息获取轴,我们将其称为上下文分布控制:提示分布在训练期间是显式可控的,算法可以决定采样哪些提示以及对其梯度赋予多大的权重。

最近,越来越多的研究工作通过广泛的机制利用这种自由度,例如样本选择(Yu等人,2025(https://arxiv.org/html/2605.24331#bib.bib14);Mao等人,2026(https://arxiv.org/html/2605.24331#bib.bib15);Xiong等人,2025(https://arxiv.org/html/2605.24331#bib.bib10))、课程策略(Parashar等人,2025(https://arxiv.org/html/2605.24331#bib.bib11);Rajaraman等人,2026(https://arxiv.org/html/2605.24331#bib.bib66);Chen等人,2025a(https://arxiv.org/html/2605.24331#bib.bib69))以及提示重加权(Davis and Recht,2025(https://arxiv.org/html/2605.24331#bib.bib9);Tajwar等人,2026(https://arxiv.org/html/2605.24331#bib.bib7))。这些方法通常基于各自独立的启发式规则,决定在训练各阶段哪些提示应获得更多梯度信号。然而,迄今为止,没有任何方法能为“为何其对提示训练分布的特定干预是正确”这一问题提供原则性的解答。

最近的工作(Tajwar等人,2026(https://arxiv.org/html/2605.24331#bib.bib7))通过最大化正确率的对数似然,将最大似然原理引入 RLVR 目标。虽然最大似然估计(MLE)在经典统计学中拥有完善的最优性质(Shao,1999(https://arxiv.org/html/2605.24331#bib.bib136);Casella and Berger,2024(https://arxiv.org/html/2605.24331#bib.bib55)),但我们认为这些保证并不适用于 RLVR,因为策略优化在结构上不同于统计估计。正如(Davis and Recht,2025(https://arxiv.org/html/2605.24331#bib.bib9))也简要提及的,经典 MLE 的最优性依赖于一个固定的、外生的概率测度,该测度刻画了数据生成的总体,而估计量正是针对此测度进行评估的。相比之下,在 RLVR 中,目标是在一个依赖于策略的测度或数据分布下进行评估,该测度在整个训练过程中与策略共同演化。不存在一个固定的总体需要估计,并且该测度本身是优化过程中一个依赖于策略的内生对象。因此,MLE 中的经典最优性论证不再适用。

##### 动机:提示重加权及其最优性。提示重加权为实现 RLVR 中的上下文分布控制提供了一种具体途径。为了学习 LLM 策略πθ\\pi_\\{\\theta\},我们考虑那些在策略梯度更新中为每个提示xx分配一个依赖策略的提示权重wθ\(x\)w_\\{\\theta\}\(x\)的 RLVR 算法。令r\(x,y\)r\(x,y\)表示基于规则的二元奖励函数(提示xx,响应yy),d0d\_\{0\}表示初始提示分布。定义正确率pθ\(x\)=Ey∼πθ\(⋅∣x\)\[r\(x,y\)\]p\_\\{\\theta\}\(x\)=\\mathbb\{E\}\_\{y\\sim\\pi\_\\{\\theta\}\(\\cdot\\mid x\)\}\\left\[r\(x,y\)\\right\]。一大类提示重加权的 RLVR 算法采用以下策略梯度更新:

∇θJ\(θ\)=Ex∼d0\[wθ\(x\)Ey∼πθ\(⋅\|x\)\[r\(x,y\)∇θlog⁡πθ\(y\|x\)\]\]=Ex∼d0\[wθ\(x\)∇θpθ\(x\)\]。\\displaystyle\\nabla\_\\{\\theta\}J\(\\theta\)=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[w\_\\{\\theta\}\(x\)\\mathbb\{E\}\_\{y\\sim\\pi\_\\{\\theta\}\(\\cdot\|x\)\}\\left\[r\(x,y\)\\nabla\_\\{\\theta\}\\log\\pi\_\\{\\theta\}\(y\|x\)\\right\]\\right\]=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[w\_\\{\\theta\}\(x\)\\nabla\_\\{\\theta\}p\_\\{\\theta\}\(x\)\\right\]。\(1\)

例如,GRPO 的总体对应物对应于wθ\(x\)=1/pθ\(x\)\(1−pθ\(x\)\)w\_\\{\\theta\}\(x\)=1/\\sqrt\{p\_\\{\\theta\}\(x\)\(1\-p\_\\{\\theta\}\(x\)\)\}。详细解释见第2节(https://arxiv.org/html/2605.24331#S2)。重要的是,式(1)(https://arxiv.org/html/2605.24331#S1.E1)中的这种通用形式引出了我们研究的核心问题:在提示重加权 RLVR 中,确定wθ\(x\)w\_\\{\\theta\}\(x\)的原则和最优性是什么?

##### 我们的贡献。在本文中,我们将提示重加权视为上下文分布控制,其中算法直接重塑有效的提示分布。在这一视角下,我们将最优权重形式化为在正确率函数空间上效用泛函的泛函导数。由此产生的最优性框架涵盖了现有的逐点加权规则,并揭示了它们的权重坍缩局限性。然后,我们通过 CurveRL 实例化该原则,其最优权重通过在正确率分位数空间中的分布感知效用函数推导得出,该函数使用不断演化的正确率分布的排名和密度信息。实证上,CurveRL 在多个推理基准上持续改善了 pass@11 和 pass@kk 的权衡。我们的研究贡献可简要总结如下:

- • 我们将 RLVR 中的提示重加权形式化为上下文分布控制,并通过依赖于效用的泛函导数定义最优权重。
- • 我们通过在正确率分位数空间中的分布感知效用实例化这一原则,并提出了 CurveRL,该方法刻画了正确率分布的分布结构。
- • 我们进行了大量实验,表明 CurveRL 在标准基线上改善了 pass@11 和 pass@kk 的帕累托前沿。还分析了 CurveRL 的底层机制。

### 2 预备知识与技术背景

##### 正确率空间中的 REINFORCE 目标。RLVR 通常被形式化为一个上下文赌博机问题,其中整个推理轨迹被吸收到响应中,成为一个单步决策。我们假设一个基于规则的二元奖励r\(x,y\)∈\{0,1\}r\(x,y\)\\in\\\{0,1\\\}(提示xx,响应yy)。为了在这些奖励的引导下学习πθ\\pi\_\\{\\theta\},策略梯度方法(Sutton等人,1998(https://arxiv.org/html/2605.24331#bib.bib29)),例如 REINFORCE(Williams,1992(https://arxiv.org/html/2605.24331#bib.bib45);Sutton等人,1999(https://arxiv.org/html/2605.24331#bib.bib58)),通常被用于最大化JRL\(θ\)J\_\\{\\text\{RL\}\}\(\\theta\),其定义如下:

JRL\(θ\)=Ex∼d0,y∼πθ\(⋅∣x\)\[r\(x,y\)\]=Ex∼d0\[Ey∼πθ\(⋅∣x\)\[I\{y∈C\(x\)\}\]\]:=Ex∼d0\[pθ\(x\)\],\\displaystyle J\_\\{\\text\{RL\}\}\(\\theta\)=\\mathbb\{E\}\_\{x\\sim d\_\{0\},y\\sim\\pi\_\\{\\theta\}\(\\cdot\\mid x\)\}\\left\[r\(x,y\)\\right\]=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[\\mathbb\{E\}\_\{y\\sim\\pi\_\\{\\theta\}\(\\cdot\\mid x\)\}\\left\[\\mathbb\{I\}\\\{y\\in C\(x\)\\\}\\right\]\\right\]:=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[p\_\\{\\theta\}\(x\)\\right\],\(2\)

其中C\(x\)C\(x\)是响应中的一个可行集,通常由领域特定的验证器确定。得分函数技巧在 REINFORCE 的推导中至关重要(Williams,1992(https://arxiv.org/html/2605.24331#bib.bib45)),为在基于 LLM 的生成模型πθ\\pi\_\\{\\theta\}的决策依赖采样分布下求解优化问题提供了一个通用优化工具。接下来,我们可以推导其梯度:

∇θJRL\(θ\)=Ex∼d0,y∼πθ\(⋅\|x\)\[r\(x,y\)∇θlog⁡πθ\(y\|x\)\]=Ex∼d0\[∇θpθ\(x\)\]。\\displaystyle\\nabla\_\\{\\theta\}J\_\\{\\text\{RL\}\}\(\\theta\)=\\mathbb\{E\}\_\{x\\sim d\_\{0\},y\\sim\\pi\_\\{\\theta\}\(\\cdot\|x\)\}\\left\[r\(x,y\)\\nabla\_\\{\\theta\}\\log\\pi\_\\{\\theta\}\(y\|x\)\\right\]=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[\\nabla\_\\{\\theta\}p\_\\{\\theta\}\(x\)\\right\]。\(3\)

特别地,对于正确率空间中式(1)(https://arxiv.org/html/2605.24331#S1.E1)的通用提示重加权形式,REINFORCE 对应于一个常数提示权重wθ\(x\)=1w\_\\{\\theta\}\(x\)=1。

##### 组相对策略优化(GRPO)(Shao等人,2024(https://arxiv.org/html/2605.24331#bib.bib37);Guo等人,2025(https://arxiv.org/html/2605.24331#bib.bib38))。接下来,我们将 GRPO 的梯度重写为相同的提示重加权形式。对于每个提示xx,GRPO 执行nn次展开以生成响应\{yi\}i=1n\\\{y\_\{i\}\\\}\_\{i=1\}^\{n\}。我们记参考策略πref\\pi\_\\{\\text\{ref\}\}和旧策略πold\\pi\_\\{\\text\{old\}\}。在(Davis and Recht, 2025 (https://arxiv.org/html/2605.24331#bib.bib9))采用的上下文赌博机或单步决策抽象分析下,GRPO 可以写成一种序列级形式,这与组序列策略优化(GSPO)(Zheng等人,2025(https://arxiv.org/html/2605.24331#bib.bib137))密切相关。因此,GRPO 最大化以下目标:

JGRPO\(θ\)=Ex∼d0,\{yi\}i=1n∼πθold\(⋅∣x\)\\displaystyle J\_\\\{\\mathrm\{GRPO\}\}\(\\theta\)=\\mathbb\{E\}\_\{x\\sim d\_\{0\},\\\{y\_\{i\}\\\}\_\{i=1\}^\{n\}\\sim\\pi\_\\{\\theta\_\\{\\text\{old\}\}\}\(\\cdot\\mid x\)\}\(4\)
\[1n∑i=1n\(min\(πθ\(yi\|x\)πθold\(yi\|x\)A^ix,clip\(πθ\(yi\|x\)πθold\(yi\|x\),1−ε,1\+ε\)A^ix\)−βDKL\(πθ\(⋅∣x\)∥πref\(⋅∣x\)\)\)\)\],\\displaystyle\\left\[\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}\\left\(\\min\\left\(\\frac\{\\pi\_\\{\\theta\}\\left\(y\_\{i\}\|x\\right\)\}\{\\pi\_\\{\\theta\_\\{\\mathrm\{old\}\}\}\\left\(y\_\{i\}\|x\\right\)\}\\hat\{A\}\_\{i\}^\{x\},\\operatorname\{clip\}\\left\(\\frac\{\\pi\_\\{\\theta\}\\left\(y\_\{i\}\|x\\right\)\}\{\\pi\_\\{\\theta\_\\{\\text\{old\}\}\}\\left\(y\_\{i\}\|x\\right\)\},1\-\\epsilon,1\+\\epsilon\\right\)\\hat\{A\}\_\{i\}^\{x\}\\right\)\-\\left\.\\beta D\_\\{\\mathrm\{KL\}\}\\left\(\\pi\_\\{\\theta\}\(\\cdot\\mid x\)\\\|\\pi\_\\{\\mathrm\{ref\}\}\(\\cdot\\mid x\)\\right\)\\right\)\\right\)\\right\],

其中ε\\epsilon是裁剪参数,A^ix\\hat\{A\}\_\{i\}^\{x\}是优势估计。裁剪后的策略比率πθ\(yi\|x\)πθold\(yi\|x\)\\frac\{\\pi\_\\{\\theta\}\\left\(y\_\{i\}\|x\\right\)\}\{\\pi\_\\{\\theta\_\\{\\mathrm\{old\}\}\}\\left\(y\_\{i\}\|x\\right\)\}防止πθ\\pi\_\\{\\theta\}过度偏离之前的策略πold\\pi\_\\{\\text\{old\}\},而正则化超参数β\\beta则惩罚与参考策略πref\\pi\_\\{\\text\{ref\}\}的偏离。值得注意的是,在梯度更新规则中,采用了基于组的归一化方案,通过A^ix\\hat\{A\}\_\{i\}^\{x\}估计优势:

A^ix=r\(x,yi\)−mean\(\{r\(x,yj\)\}j=1n\)std\(\{r\(x,yj\)\}j=1n\)。\\displaystyle\\hat\{A\}\_\{i\}^\{x\}=\\frac\{r\\left\(x,y\_\{i\}\\right\)\-\\text\{mean\}\\left\(\\left\\\{r\\left\(x,y\_\{j\}\\right\)\\right\\\}\_\{j=1\}^\{n\}\\right\)\}\{\\text\{std\}\\left\(\\left\\\{r\\left\(x,y\_\{j\}\\right\)\\right\\\}\_\{j=1\}^\{n\}\\right\)\}。\(5\)

根据(Davis and Recht,2025(https://arxiv.org/html/2605.24331#bib.bib9)),当我们用总体对应物(即无限组大小)替换组内经验基线和归一化,并忽略裁剪和策略比率项时,GRPO 的梯度可以近似为以下简单形式:

∇θJGRPO\(θ\)\\displaystyle\\nabla\_\\{\\theta\}J\_\\{\\mathrm\{GRPO\}\}\(\\theta\)≈Ex∼d0,y∼πθ\(⋅∣x\)\[r\(x,y\)−Ey~∼πθ\(⋅\|x\)\[r\(x,y~\)\]Vary~∼πθ\(⋅∣x\)\[r\(x,y~\)\]∇θlog⁡πθ\(y\|x\)\]\\displaystyle\\approx\\mathbb\{E\}\_\{x\\sim d\_\{0\},y\\sim\\pi\_\\{\\theta\}\(\\cdot\\mid x\)\}\\left\[\\frac\{r\(x,y\)\-\\mathbb\{E\}\_\{\\tilde\{y\}\\sim\\pi\_\\{\\theta\}\(\\cdot\|x\)\}\\left\[r\(x,\\tilde\{y\}\)\\right\]\}\{\\sqrt\{\\text\{Var\}\_\{\\tilde\{y\}\\sim\\pi\_\\{\\theta\}\(\\cdot\\mid x\)\}\\left\[r\(x,\\tilde\{y\}\)\\right\]\}\}\\nabla\_\\{\\theta\}\\log\\pi\_\\{\\theta\}\(y\|x\)\\right\]\(6\)

=Ex∼d0\[1pθ\(x\)\(1−pθ\(x\)\)∇θpθ\(x\)\],\\displaystyle=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[\\frac\{1\}\{\\sqrt\{p\_\\{\\theta\}\(x\)\(1\-p\_\\{\\theta\}\(x\)\)\}\}\\nabla\_\\{\\theta\}p\_\\{\\theta\}\(x\)\\right\],

这理想地对应于一个总体级目标JGRPO\(θ\)=Ex∼d0\[2arcsin⁡pθ\(x\)\]J\_\\{\\text\{GRPO\}\}\(\\theta\)=\\mathbb\{E\}\_\{x\\sim d\_\{0\}\}\\left\[2\\arcsin\{\\sqrt\{p\_\\{\\theta\}\(x\)\}\}\\right\](Davis and Recht, 2025 (https://arxiv.org/html/2605.24331#bib.bib9))。值得注意的是,式(6)(https://arxiv.org/html/2605.24331#S2.E6)中总体级 GRPO 的提示加权函数是1/pθ\(x\)\(1−pθ\(x\)\)1/\\sqrt\{p\_\\{\\theta\}\(x\)\(1\-p

相似文章

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。