面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG 论文

摘要

本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。

arXiv:2606.05606v1 公告类型:新 摘要:LLM的后训练通常依赖于对每个提示采样多个展开的强化学习方法,然而大多数现有方法为每个提示使用固定的展开预算,尽管不同提示提供的训练信号差异很大。在本文中,我们研究了在固定全局预算下的自适应展开分配,并将问题形式化为具有提示级边际收益递减的在线资源分配问题。我们的方法CERO维护每个提示成功概率的Beta后验分布,并使用后验期望伯努利方差作为额外展开价值的贝叶斯估计。我们利用该估计构建了一个关于累积分配的凹饱和效用函数,从而得到一个目标函数,其中跨提示和跨轮次的决策通过全局预算耦合。由于该目标函数在时间上不可分离,我们推导了Fenchel对偶重构,并通过投影在线梯度下降更新提示级和预算级的对偶变量。在固定提示效用下,我们证明了相对于离线分配基准的$O(\sqrt{K})$遗憾界。在数学推理问题上的实验表明,CERO在多个开源权重LLM和基准上持续优于GRPO,证明了自适应展开预算可以提高样本效率。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:12

# 1 引言 来源:https://arxiv.org/html/2606.05606 \\OneAndAHalfSpacedXI\\TheoremsNumberedThrough\\ECRepeatTheorems\\EquationsNumberedThrough \\RUNAUTHOR Zong, Wang, Jiang \\RUNTITLE Adaptive Rollout Optimization \\TITLE 跨纪元自适应展开优化用于RL后训练 \\ARTICLEAUTHORS\\AUTHOR Yiming Zong, Yige Wang, Jiashuo Jiang \\AFF 香港科技大学工业工程与决策分析系 \\ABSTRACT LLM后训练通常依赖在每个提示上采样多次展开的强化学习方法,但大多数现有方法对每个提示使用固定的展开预算,尽管不同提示提供的训练信号差异很大。在本文中,我们研究在固定全局预算下的自适应展开分配,并将该问题形式化为具有提示级边际收益递减的在线资源分配问题。我们的方法CERO在每个提示的成功概率上维护一个Beta后验分布,并使用后验期望伯努利方差作为额外展开价值的贝叶斯估计。我们利用该估计构建一个凹的、饱和的累积分配效用函数,从而得到一个目标函数,其中跨提示和跨纪元的决策通过全局预算耦合。由于所得目标在时间上不可分离,我们推导出Fenchel对偶重述,并通过投影在线梯度下降更新提示级和预算级对偶变量。在固定提示效用下,我们证明相对于离线分配基准有O(√K)的遗憾界。在数学推理问题上的实验表明,CERO在多个开源权重LLM和基准上持续优于GRPO,证明了自适应展开预算能够提高样本效率。 \\KEYWORDS 强化学习,LLM后训练,在线资源分配,展开优化 强化学习(RL)后训练已成为提升大型语言模型(LLM)推理能力的关键组成部分。在广泛使用的算法(如GRPO(Shao et al. 2024 (https://arxiv.org/html/2606.05606#bib.bib227)))中,每个提示通常被分配固定数量的展开,这些展开被分组以构建用于策略优化的相对奖励信号。虽然简单且可扩展,但这种均匀分配策略忽略了提示之间的显著异质性。有些提示已被解决,产生很小的奖励变化;另一些则过于困难,提供微弱或噪声信号;只有一部分提示能产生有用的成功-失败变化,从而驱动有意义的策略更新。结果,大量的展开预算可能被花在边际价值有限的提示上。最近的展开优化方法通过提示选择(Yu et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib230))、批次内重分配(Li et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib219))或生成后过滤与剪枝来解决这一低效问题。这些方法提高了训练效率,但它们主要是在批次内或展开已经生成后做出局部决策。相比之下,RL后训练中的展开预算自然跨越多个纪元:训练早期做出的决策会影响剩余预算、每个提示收集的证据以及未来更新的机会。这引发了一个全局问题:在固定展开预算下,我们应如何跨提示和纪元分配展开,以最大化收集样本的效用?我们将此问题形式化为具有提示级边际收益递减的在线优化。一个有效的分配规则应偏好具有高预期学习价值的提示,同时避免随着证据积累而对同一提示过度采样。为此,我们提出CERO,一种跨纪元在线自适应展开优化框架。据我们所知,CERO是首个明确优化跨纪元全局展开预算的LLM后训练展开分配框架,而不仅仅是批次内的重分配或过滤。CERO在每个提示的潜在成功概率上维护一个Beta后验分布,并使用后验期望伯努利奖励方差来估计额外展开的价值。该估计产生一个凹的、饱和的累积提示级分配效用函数,捕捉到随着更多展开分配给同一提示而出现的边际收益递减。由于该效用依赖于累积分配,所得目标在全局预算下在时间上是不可分离的。然后我们推导出预算分配问题的Fenchel对偶重述,并获得一个在线原始-对偶算法,包含提示级对偶变量和一个全局预算乘子。提示级变量估计额外展开的边际价值,而全局乘子作为一个动态预算价格,协调跨纪元的展开消耗。该结果算法易于与现有RL后训练管线集成。在每个纪元,CERO在提示的估计边际价值超过当前全局预算价格时分配展开,使用观察到的奖励更新提示后验,并刷新未来纪元的插入价值估计。它作为一个即插即用的自适应数据收集层,位于GRPO风格策略优化之上:它改变哪些提示获得展开以及获得多少展开,但保留底层策略梯度目标不变。我们的贡献有三方面。首先,我们将LLM RL后训练中的自适应展开分配形式化为一个具有提示特异性边际收益递减的跨纪元固定预算在线优化问题。该形式化通过共享的全局预算明确耦合了跨越训练时间轴的展开决策,使其区别于先前的批次内选择或生成后过滤方法。其次,我们提出CERO,一种贝叶斯原始-对偶分配算法,使用提示级展开价值的后验估计来指导跨纪元的预算分配。第三,我们为CRO的有效性提供了理论和实证证据:在由提示级价值估计诱导的固定效用下,我们建立了相对于离线分配基准的O(√K)遗憾保证。在数学推理问题上的实验表明,CERO在多个开源权重LLM和基准上优于vanilla GRPO。 ### 1.1 相关工作 #### RL展开优化 近期出现大量聚焦于RL展开优化的研究。这些工作主要涉及对GRPO(Shao et al. 2024 (https://arxiv.org/html/2606.05606#bib.bib227))的修改,并大致可分为三个视角。第一类专注于在线课程学习与样本选择,根据估计的学习价值对训练示例进行优先排序(Mahroogi et al. 2026 (https://arxiv.org/html/2606.05606#bib.bib217), Zhang et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib225), Chen et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib226), Hu et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib218))。第二类研究自适应展开预算分配(Li et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib219), Yao et al. 2026 (https://arxiv.org/html/2606.05606#bib.bib220)),在固定总预算下用价值感知的资源分配替代均匀展开分配。第三类强调展开后过滤或剪枝,如AERO(Zhang et al. 2026 (https://arxiv.org/html/2606.05606#bib.bib221))、CPPO(Lin et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib224))、PODS(Xu et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib223))和GFPO(Shrivastava et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib222)),通过生成后抢救、平滑或子选择展开组来减少更新成本。总体而言,先前的工作表明展开效率的关键在于识别高价值查询并避免退化的全对或全错组。 #### 在线资源分配 在线资源分配是在线优化文献的核心主题,已应用于许多运营场景,包括广告分配(Mehta et al. 2007 (https://arxiv.org/html/2606.05606#bib.bib138))、收益管理(Talluri and Van Ryzin 2006 (https://arxiv.org/html/2606.05606#bib.bib199), Jasin and Kumar 2012 (https://arxiv.org/html/2606.05606#bib.bib100), Jiang et al. 2025 (https://arxiv.org/html/2606.05606#bib.bib13))、在线背包问题(Arlotto and Gurvich 2019 (https://arxiv.org/html/2606.05606#bib.bib105), Jiang and Zhang 2020 (https://arxiv.org/html/2606.05606#bib.bib135), Liu et al. 2022 (https://arxiv.org/html/2606.05606#bib.bib3))以及在线打包/覆盖问题(Buchbinder and Naor 2005 (https://arxiv.org/html/2606.05606#bib.bib202), 2006 (https://arxiv.org/html/2606.05606#bib.bib201), Feldman et al. 2010 (https://arxiv.org/html/2606.05606#bib.bib200))。现存的算法文献可根据其利用对偶信息的方式大致分类。一类主流方法使用对偶价格作为在线分配决策的信号。在这一类中,有些论文采用一次性学习策略:保留一组初始到达用于估计,从该样本计算价格向量,然后对所有未来决策使用相同价格(Devanur and Hayes 2009 (https://arxiv.org/html/2606.05606#bib.bib183), Feldman et al. 2010 (https://arxiv.org/html/2606.05606#bib.bib200), Molinaro and Ravi 2014 (https://arxiv.org/html/2606.05606#bib.bib130), Devanur and Jain 2012 (https://arxiv.org/html/2606.05606#bib.bib203), Zong and Jiang 2026 (https://arxiv.org/html/2606.05606#bib.bib1))。其他论文提倡自适应更新,通过在多个时间点重复求解来修正定价规则,从而获得更强的鲁棒性和改进的时域依赖性(Agrawal et al. 2014 (https://arxiv.org/html/2606.05606#bib.bib131), Li and Ye 2022 (https://arxiv.org/html/2606.05606#bib.bib76), Chen and Wang 2015 (https://arxiv.org/html/2606.05606#bib.bib204))。与此同时,其他工作通过开发原始导向算法(Kesselheim et al. 2014 (https://arxiv.org/html/2606.05606#bib.bib139))或不需要重复计算对偶价格的一阶方案(Agrawal and Devanur 2014 (https://arxiv.org/html/2606.05606#bib.bib206), Balseiro et al. 2020 (https://arxiv.org/html/2606.05606#bib.bib207))偏离了这一范式。 ## 2 问题形式化 我们关注LLM后训练阶段,研究展开分配的优化。考虑一个具有K个纪元和一个包含M个提示的训练数据集X = {x_1, ..., x_M}的训练过程。在每个纪元k,每个提示x_i出现一次,当前策略基于x_i生成多个展开以进行策略优化。标准方法(如GRPO)在每个纪元的每个提示分配固定数量N的展开,得到总展开预算B = KMN。在本工作中,我们考虑自适应展开分配策略。令N_X = (N_1, ..., N_M) ∈ Z_{\ge 0}^{M×K}, N_i = (N_{i,1}, ..., N_{i,K}) ∈ Z_{\ge 0}^K,表示整个训练过程上的分配,其中N_{i,k}是分配给提示x_i在纪元k的展开数量。该分配受全局展开预算约束: ∑_{k=1}^K ∑_{i=1}^M N_{i,k} ≤ B。对于理论形式化,我们将每个提示x_i与一个固定分数q_i关联起来,该分数抽象了从额外展开中获得的预期学习信号。我们称q_i为提示信息性分数。分数q_i参数化提示级效用函数,并决定分配额外展开给x_i的价值。在我们的实现中,q_i使用Beta后验插入规则跨纪元更新。令U_i(n) := U(q_i, n)表示将n个累积展开分配给提示x_i的效用。由于q_i在理论形式化中是固定的,我们将其从符号中省略,并将U_i视为提示特定的效用函数。我们将在第3节中说明信息性分数q_i和效用U_i(n)。然后,展开分配问题被形式化为: OPT(X) = max_{ {N_{i,k}} } ∑_{i=1}^M U_i( ∑_{k=1}^K N_{i,k} ) (1)  s.t. ∑_{i=1}^M ∑_{k=1}^K N_{i,k} ≤ B,  N_{i,k} ∈ {0, 1, ..., N_max}, i ∈ [M], k ∈ [K]。这里∑_{k=1}^K N_{i,k}是分配给提示x_i的累积展开数量,N_max表示一个纪元中分配给单个提示的最大展开数量。与均匀分配相比,该形式化允许展开数量跨提示和纪元变化,因此可以在尊重相同总预算的同时将更多预算分配给具有更高效用的提示。 ### 2.1 问题重述 方程(1)中的分配问题跨纪元耦合,因为提示x_i的效用依赖于其累积分配∑_{k=1}^K N_{i,k}。这种时间耦合使得在线选择逐纪元分配N_{i,k}变得困难。我们通过使用每个效用函数的Fenchel对偶表示来解决这一困难,该表示将累积分配的依赖线性化,并产生一个跨纪元可分解的分配子问题。对于每个提示x_i,定义U_i的凹共轭为U_i^*(θ) = inf_{s ≥ 0} { sθ - U_i(s) }。假设U_i在R_+上是闭的、凹的且非递减,我们有双共轭表示U_i(s) = inf_{θ ≥ 0} { sθ - U_i^*(θ) }。为每个提示x_i引入一个Fenchel对偶变量θ_i,以及全局展开预算约束的拉格朗日乘子μ ≥ 0,我们得到以下对偶目标: L_X(θ, μ) = Bμ + max_{ {N_{i,k} ∈ {0,1,...,N_max}} } { ∑_{i=1}^M (θ_i - μ) ∑_{k=1}^K N_{i,k} } - ∑_{i=1}^M U_i^*(θ_i)。由弱对偶性,我们知道OPT(X) ≤ inf_{θ ≥ 0, μ ≥ 0} L_X(θ, μ)。这种重述的关键优势在于,对分配的最大化现在跨纪元可分解。对于固定的(θ, μ),分配项可以写成K个相同的逐纪元子问题。因此,L_X(θ, μ) = K L(θ, μ),其中逐纪元对偶目标是 L(θ, μ) = (B/K)μ + max_{ {n_i ∈ {0,1,...,N_max}} } {

相似文章

CEPO:基于对比证据策略优化的RLVR自我蒸馏

Hugging Face Daily Papers

CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。