小型模型是GRPO中策略级多样性的自然探索器

Hugging Face Daily Papers 2026/06/02 00:00 论文

small-to-large-policy-optimization group-relative-policy-optimization policy-level-diversity language-model-training rollout-diversity progressive-annealing mathematical-reasoning

摘要

S2L-PO框架利用小型模型作为自然探索器，增强GRPO中的策略多样性，以训练大型语言模型。它实现了更快的收敛，并在降低rollout计算量的同时，提高了数学推理基准的准确性。

我们识别出在LLM的群组相对策略优化（GRPO）中增强rollout多样性的一个新维度。虽然GRPO依赖于多样化的rollout，但主流策略主要通过注入更多的token级随机性来增加多样性，这可能会引入逐步噪声并导致不连贯的轨迹。我们发现，同一模型系列中的较小模型天生具有更高的策略级多样性，随着样本数量的增加，其pass@k优于较大模型。与token级噪声不同，这种多样性在时间上相关，保持逻辑一致性，并为梯度估计提供结构化的探索信号。因此，我们提出了S2L-PO（小到大策略优化），这是一个利用固定的小型模型作为自然探索器来训练更大模型的框架。为了平衡探索与利用，我们设计了一种渐进退火策略，从离线小型模型rollout过渡到大型学习器自身的采样。这种转变巧妙地避免了由于小型模型容量限制导致的训练中期性能下降，实现了更快的收敛并解锁了更高的性能上限。S2L-PO在多种数学推理基准上提高了准确性（例如，在AIME 24上使用1.7B探索器引导8B模型提高了+8.8%），同时减少了rollout计算量。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:03

论文页面 - 更小模型是 GRPO 中策略层面多样性的天然探索者

来源：https://huggingface.co/papers/2605.30789 作者：

，

摘要

Small-to-Large Policy Optimization 框架利用更小的模型作为天然探索者，以增强策略多样性并提升大语言模型的训练效率。

我们在组相对策略优化（Group Relative Policy Optimization, GRPO）中发现了一个提升 rollout 多样性（https://huggingface.co/papers?q=rollout%20diversity）的新维度。虽然 GRPO 依赖多样化的 rollout，但当前主流策略主要通过注入更多的 token 级随机性（https://huggingface.co/papers?q=token-level%20randomness）来增加多样性，这可能会引入逐步噪声并导致不连贯的轨迹。我们发现，同一模型族中的较小模型天然具有更高的策略级多样性（https://huggingface.co/papers?q=policy-level%20diversity），表现为随着样本数量增加，其 pass@k（https://huggingface.co/papers?q=pass%40k）优于较大模型。与 token 级噪声不同，这种多样性在时间上具有相关性，保留了逻辑一致性，并为梯度估计（https://huggingface.co/papers?q=gradient%20estimation）提供了结构化的探索信号。因此，我们提出 S2L-PO（Small-to-Large Policy Optimization（https://huggingface.co/papers?q=Small-to-Large%20Policy%20Optimization）），该框架利用固定的小模型作为天然探索者来训练更大的模型。为了平衡探索与利用，我们设计了一种渐进退火（https://huggingface.co/papers?q=progressive%20annealing）策略，从离线的小模型 rollout 逐步过渡到大学习器自身的采样。这种转变优雅地避免了因小模型容量限制导致的训练中期性能下降，实现了更快的收敛并解锁了更高的性能上限。S2L-PO 在多个数学推理基准（https://huggingface.co/papers?q=mathematical%20reasoning%20benchmarks）上提升了准确率（例如，在 AIME 24 上使用 1.7B 探索者指导 8B 模型提升 8.8%），同时减少了 rollout 计算量。

查看 arXiv 页面（https://arxiv.org/abs/2605.30789）查看 PDF（https://arxiv.org/pdf/2605.30789）项目页面（https://qishisuren123.github.io/S2L-PO/）GitHub2（https://github.com/qishisuren123/S2L-PO）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.30789）

在您的 agent 中获取这篇论文：

hf papers read 2605\.30789

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30789 以从此页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合（https://huggingface.co/new-collection）中以从此页面链接。

小型模型是GRPO中策略级多样性的自然探索器

论文页面 - 更小模型是 GRPO 中策略层面多样性的天然探索者

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的集合0

相似文章

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

N-GRPO：嵌入级邻居混合以增强策略优化

LambdaPO: 面向推理语言模型的Lambda风格策略优化

SocraticPO：通过交互式指导的策略优化

基于梯度外推的策略优化

提交意见反馈