小型模型是GRPO中策略级多样性的自然探索器

Hugging Face Daily Papers 论文

摘要

S2L-PO框架利用小型模型作为自然探索器,增强GRPO中的策略多样性,以训练大型语言模型。它实现了更快的收敛,并在降低rollout计算量的同时,提高了数学推理基准的准确性。

我们识别出在LLM的群组相对策略优化(GRPO)中增强rollout多样性的一个新维度。虽然GRPO依赖于多样化的rollout,但主流策略主要通过注入更多的token级随机性来增加多样性,这可能会引入逐步噪声并导致不连贯的轨迹。我们发现,同一模型系列中的较小模型天生具有更高的策略级多样性,随着样本数量的增加,其pass@k优于较大模型。与token级噪声不同,这种多样性在时间上相关,保持逻辑一致性,并为梯度估计提供结构化的探索信号。因此,我们提出了S2L-PO(小到大策略优化),这是一个利用固定的小型模型作为自然探索器来训练更大模型的框架。为了平衡探索与利用,我们设计了一种渐进退火策略,从离线小型模型rollout过渡到大型学习器自身的采样。这种转变巧妙地避免了由于小型模型容量限制导致的训练中期性能下降,实现了更快的收敛并解锁了更高的性能上限。S2L-PO在多种数学推理基准上提高了准确性(例如,在AIME 24上使用1.7B探索器引导8B模型提高了+8.8%),同时减少了rollout计算量。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:03

论文页面 - 更小模型是 GRPO 中策略层面多样性的天然探索者

来源:https://huggingface.co/papers/2605.30789 作者:

摘要

Small-to-Large Policy Optimization 框架利用更小的模型作为天然探索者,以增强策略多样性并提升大语言模型的训练效率。

我们在组相对策略优化(Group Relative Policy Optimization, GRPO)中发现了一个提升 rollout 多样性(https://huggingface.co/papers?q=rollout%20diversity)的新维度。虽然 GRPO 依赖多样化的 rollout,但当前主流策略主要通过注入更多的 token 级随机性(https://huggingface.co/papers?q=token-level%20randomness)来增加多样性,这可能会引入逐步噪声并导致不连贯的轨迹。我们发现,同一模型族中的较小模型天然具有更高的策略级多样性(https://huggingface.co/papers?q=policy-level%20diversity),表现为随着样本数量增加,其 pass@k(https://huggingface.co/papers?q=pass%40k)优于较大模型。与 token 级噪声不同,这种多样性在时间上具有相关性,保留了逻辑一致性,并为梯度估计(https://huggingface.co/papers?q=gradient%20estimation)提供了结构化的探索信号。因此,我们提出 S2L-PO(Small-to-Large Policy Optimization(https://huggingface.co/papers?q=Small-to-Large%20Policy%20Optimization)),该框架利用固定的小模型作为天然探索者来训练更大的模型。为了平衡探索与利用,我们设计了一种渐进退火(https://huggingface.co/papers?q=progressive%20annealing)策略,从离线的小模型 rollout 逐步过渡到大学习器自身的采样。这种转变优雅地避免了因小模型容量限制导致的训练中期性能下降,实现了更快的收敛并解锁了更高的性能上限。S2L-PO 在多个数学推理基准(https://huggingface.co/papers?q=mathematical%20reasoning%20benchmarks)上提升了准确率(例如,在 AIME 24 上使用 1.7B 探索者指导 8B 模型提升 8.8%),同时减少了 rollout 计算量。

查看 arXiv 页面(https://arxiv.org/abs/2605.30789)查看 PDF(https://arxiv.org/pdf/2605.30789)项目页面(https://qishisuren123.github.io/S2L-PO/)GitHub2(https://github.com/qishisuren123/S2L-PO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30789)

在您的 agent 中获取这篇论文:

hf papers read 2605\.30789

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。