超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
摘要
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。
查看缓存全文
缓存时间: 2026/05/13 04:11
论文页面 - 超越 GRPO 和 On-Policy 蒸馏:语言模型后训练的稀疏到密集奖励原则实证研究
来源: https://huggingface.co/papers/2605.12483 发布于 5 月 12 日
·
提交者: https://huggingface.co/xuyd16
XYX (https://huggingface.co/xuyd16) 于 5 月 13 日
摘要
通过分阶段强化学习和密集监督策略性地分配稀缺的标注数据,可以提升训练效率:利用稀疏奖励进行教师模型探索,利用密集奖励进行学生模型压缩。
在标注的可验证训练数据成为关键瓶颈的场景中,每一个经过验证的样本都应被谨慎分配。常规做法是直接将这些数据用于待部署的模型上,例如在部署用的学生模型上运行 GRPO (https://huggingface.co/papers?q=GRPO)。我们认为,这种做法通常效率低下,因为它忽视了一个奖励密度原则 (reward-density principle) (https://huggingface.co/papers?q=reward-density%20principle):稀疏的序列级奖励应用于探索能产生成效的模型,而密集的词元级教师奖励则应用于旨在将行为压缩至较小模型的场景。从这个视角来看,类似 GRPO (https://huggingface.co/papers?q=GRPO) 的稀疏强化学习 (https://huggingface.co/papers?q=sparse%20RL) 与类似 OPD (https://huggingface.co/papers?q=OPD) 的密集教师监督 (https://huggingface.co/papers?q=dense%20teacher%20supervision) 并非截然不同的方法,而是不同的奖励密度机制。分配规则很简单:在流水线前端,将稀缺的标注训练数据用于最强的模型,使其转化为由奖励塑造的行为;然后在后端,将该行为作为密集监督转移到学生模型中。我们在基于 Qwen3 和 Llama 模型的可验证数学 (https://huggingface.co/papers?q=math) 任务上评估了这一规则。在固定 Qwen3-1.7B 部署学生模型规模下,经过强化学习改进并通过密集桥梁蒸馏的 8B 教师模型,其表现优于直接在该学生模型上运行 GRPO (https://huggingface.co/papers?q=GRPO);而来自同一教师模型在强化学习之前的表现则较差。桥梁至关重要:在对教师模型 rollout 进行前向 KL 预热 (forward-KL warmup) (https://huggingface.co/papers?q=forward-KL%20warmup) 后,再对学生模型 rollout 进行 OPD (https://huggingface.co/papers?q=OPD),在任何后桥阶段的学生侧稀疏强化学习 (https://huggingface.co/papers?q=sparse%20RL) 之前,在 MATH (https://huggingface.co/papers?q=MATH) 数据集上始终表现最强,同时也为标准的 8B/14B 教师模型提供了最佳的预 Stage~3 AIME (https://huggingface.co/papers?q=AIME) 端点表现。该桥梁还使得后续的学生侧稀疏强化学习 (https://huggingface.co/papers?q=sparse%20RL) 变得有效:在未经初始化的学生模型上表现较弱的 GRPO (https://huggingface.co/papers?q=GRPO),在经过桥梁处理后,将 MATH (https://huggingface.co/papers?q=MATH) 得分从 75.4% 提升至 78.5%,并以 2.8 分的优势击败了匹配的重放对照组。核心操作原则是避免在最未准备好的策略上使用稀缺的标注数据:利用稀疏奖励进行教师侧探索,利用密集传输进行学生压缩,仅在桥梁建立后再进行学生侧稀疏奖励训练。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12483) 查看 PDF (https://arxiv.org/pdf/2605.12483) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12483)
在您的 Agent 中获取此论文:
hf papers read 2605\.12483
没有最新版的 CLI?运行 curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.12483 即可在此页面建立链接。
引用此论文的数据集 0
暂无链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.12483 即可在此页面建立链接。
引用此论文的 Spaces 0
暂无链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.12483 即可在此页面建立链接。
包含此论文的收藏集 0
暂无包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可在此页面建立链接。
相似文章
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
分布视角下的 SFT、RL 与 On-Policy Distillation(19 分钟阅读)
本文从分布视角分析语言模型的后训练方法,对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布,及其对灾难性遗忘等现象的影响。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。