超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则

Hugging Face Daily Papers 论文

摘要

本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。

在标注的可验证训练数据是主要约束条件的情况下,每一个经过检查的样本都应被谨慎分配。标准做法是将这些数据直接用于即将部署的模型上,例如在部署用的学生模型上运行 GRPO。我们认为,这种做法往往是一种低效的资源分配,因为它忽视了一个奖励密度原则:稀疏的序列级奖励应用于探索能带来收益的模型训练,而稠密的令牌级教师奖励则应用于旨在将行为压缩至更小模型的场景中。在此视角下,GRPO 风格的稀疏强化学习与 OPD(策略内蒸馏)风格的稠密教师监督并非彼此独立的方案;它们是不同奖励密度机制的体现。分配规则很简单:在上游使用稀缺的标注训练数据训练最强的、能将其转化为由奖励塑造的行为的模型,然后将该行为作为稠密监督向下游传递。我们在可验证数学任务上使用 Qwen3 和 Llama 模型对该规则进行了评估。在固定 Qwen3-1.7B 部署学生模型规模的情况下,经过强化学习改进的 8B 教师模型通过稠密桥梁蒸馏后,其效果优于在同一学生模型上直接运行 GRPO,而在强化学习之前从同一教师模型转移的效果则较差。桥梁至关重要:在教师采样上进行前向 KL 热身,随后在学生采样上进行 OPD,在 MATH 数据集上始终是最强的(先于任何桥接后的学生端稀疏强化学习),同时也为典型的 8B/14B 教师模型提供了最佳的第三阶段前 AIME 端点表现。该桥梁还使后续的学生端稀疏强化学习变得有效:在未经预热学生模型上表现不佳的 GRPO,在桥接后能将 MATH 成绩从 75.4% 提升至 78.5%,并比匹配的回放控制组高出 2.8 分。操作原则是避免将稀缺的标注数据用于准备最不足的模型策略:使用稀疏奖励进行教师端的发现,使用稠密转移进行学生端的压缩,仅在桥接完成后才在学生端使用稀疏奖励。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - 超越 GRPO 和 On-Policy 蒸馏:语言模型后训练的稀疏到密集奖励原则实证研究

来源: https://huggingface.co/papers/2605.12483 发布于 5 月 12 日

·

提交者: https://huggingface.co/xuyd16

XYX (https://huggingface.co/xuyd16) 于 5 月 13 日

摘要

通过分阶段强化学习和密集监督策略性地分配稀缺的标注数据,可以提升训练效率:利用稀疏奖励进行教师模型探索,利用密集奖励进行学生模型压缩。

在标注的可验证训练数据成为关键瓶颈的场景中,每一个经过验证的样本都应被谨慎分配。常规做法是直接将这些数据用于待部署的模型上,例如在部署用的学生模型上运行 GRPO (https://huggingface.co/papers?q=GRPO)。我们认为,这种做法通常效率低下,因为它忽视了一个奖励密度原则 (reward-density principle) (https://huggingface.co/papers?q=reward-density%20principle):稀疏的序列级奖励应用于探索能产生成效的模型,而密集的词元级教师奖励则应用于旨在将行为压缩至较小模型的场景。从这个视角来看,类似 GRPO (https://huggingface.co/papers?q=GRPO) 的稀疏强化学习 (https://huggingface.co/papers?q=sparse%20RL) 与类似 OPD (https://huggingface.co/papers?q=OPD) 的密集教师监督 (https://huggingface.co/papers?q=dense%20teacher%20supervision) 并非截然不同的方法,而是不同的奖励密度机制。分配规则很简单:在流水线前端,将稀缺的标注训练数据用于最强的模型,使其转化为由奖励塑造的行为;然后在后端,将该行为作为密集监督转移到学生模型中。我们在基于 Qwen3 和 Llama 模型的可验证数学 (https://huggingface.co/papers?q=math) 任务上评估了这一规则。在固定 Qwen3-1.7B 部署学生模型规模下,经过强化学习改进并通过密集桥梁蒸馏的 8B 教师模型,其表现优于直接在该学生模型上运行 GRPO (https://huggingface.co/papers?q=GRPO);而来自同一教师模型在强化学习之前的表现则较差。桥梁至关重要:在对教师模型 rollout 进行前向 KL 预热 (forward-KL warmup) (https://huggingface.co/papers?q=forward-KL%20warmup) 后,再对学生模型 rollout 进行 OPD (https://huggingface.co/papers?q=OPD),在任何后桥阶段的学生侧稀疏强化学习 (https://huggingface.co/papers?q=sparse%20RL) 之前,在 MATH (https://huggingface.co/papers?q=MATH) 数据集上始终表现最强,同时也为标准的 8B/14B 教师模型提供了最佳的预 Stage~3 AIME (https://huggingface.co/papers?q=AIME) 端点表现。该桥梁还使得后续的学生侧稀疏强化学习 (https://huggingface.co/papers?q=sparse%20RL) 变得有效:在未经初始化的学生模型上表现较弱的 GRPO (https://huggingface.co/papers?q=GRPO),在经过桥梁处理后,将 MATH (https://huggingface.co/papers?q=MATH) 得分从 75.4% 提升至 78.5%,并以 2.8 分的优势击败了匹配的重放对照组。核心操作原则是避免在最未准备好的策略上使用稀缺的标注数据:利用稀疏奖励进行教师侧探索,利用密集传输进行学生压缩,仅在桥梁建立后再进行学生侧稀疏奖励训练。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12483) 查看 PDF (https://arxiv.org/pdf/2605.12483) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12483)

在您的 Agent 中获取此论文:

hf papers read 2605\.12483

没有最新版的 CLI?运行 curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12483 即可在此页面建立链接。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12483 即可在此页面建立链接。

引用此论文的 Spaces 0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.12483 即可在此页面建立链接。

包含此论文的收藏集 0

暂无包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可在此页面建立链接。

相似文章

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。