小型模型是GRPO中策略级多样性的自然探索器
摘要
S2L-PO框架利用小型模型作为自然探索器,增强GRPO中的策略多样性,以训练大型语言模型。它实现了更快的收敛,并在降低rollout计算量的同时,提高了数学推理基准的准确性。
查看缓存全文
缓存时间: 2026/06/15 09:03
论文页面 - 更小模型是 GRPO 中策略层面多样性的天然探索者
来源:https://huggingface.co/papers/2605.30789 作者:
,
,
,
,
,
,
,
,
,
摘要
Small-to-Large Policy Optimization 框架利用更小的模型作为天然探索者,以增强策略多样性并提升大语言模型的训练效率。
我们在组相对策略优化(Group Relative Policy Optimization, GRPO)中发现了一个提升 rollout 多样性(https://huggingface.co/papers?q=rollout%20diversity)的新维度。虽然 GRPO 依赖多样化的 rollout,但当前主流策略主要通过注入更多的 token 级随机性(https://huggingface.co/papers?q=token-level%20randomness)来增加多样性,这可能会引入逐步噪声并导致不连贯的轨迹。我们发现,同一模型族中的较小模型天然具有更高的策略级多样性(https://huggingface.co/papers?q=policy-level%20diversity),表现为随着样本数量增加,其 pass@k(https://huggingface.co/papers?q=pass%40k)优于较大模型。与 token 级噪声不同,这种多样性在时间上具有相关性,保留了逻辑一致性,并为梯度估计(https://huggingface.co/papers?q=gradient%20estimation)提供了结构化的探索信号。因此,我们提出 S2L-PO(Small-to-Large Policy Optimization(https://huggingface.co/papers?q=Small-to-Large%20Policy%20Optimization)),该框架利用固定的小模型作为天然探索者来训练更大的模型。为了平衡探索与利用,我们设计了一种渐进退火(https://huggingface.co/papers?q=progressive%20annealing)策略,从离线的小模型 rollout 逐步过渡到大学习器自身的采样。这种转变优雅地避免了因小模型容量限制导致的训练中期性能下降,实现了更快的收敛并解锁了更高的性能上限。S2L-PO 在多个数学推理基准(https://huggingface.co/papers?q=mathematical%20reasoning%20benchmarks)上提升了准确率(例如,在 AIME 24 上使用 1.7B 探索者指导 8B 模型提升 8.8%),同时减少了 rollout 计算量。
查看 arXiv 页面(https://arxiv.org/abs/2605.30789)查看 PDF(https://arxiv.org/pdf/2605.30789)项目页面(https://qishisuren123.github.io/S2L-PO/)GitHub2(https://github.com/qishisuren123/S2L-PO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30789)
在您的 agent 中获取这篇论文:
hf papers read 2605\.30789
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。
包含此论文的集合0
没有包含此论文的集合
将这篇论文添加到集合(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
N-GRPO:嵌入级邻居混合以增强策略优化
N-GRPO 在 GRPO 框架中引入语义邻居混合,以增强数学推理多样性并保持语义一致性,在数学基准和分布外任务上均取得了提升。
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
SocraticPO:通过交互式指导的策略优化
SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。