Self-Distillation Zero:自我修订将二元奖励转化为密集监督
摘要
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
查看缓存全文
缓存时间: 2026/04/20 08:29
Paper page - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
来源:https://huggingface.co/papers/2604.12002
摘要
Self-Distillation Zero 训练一个模型,通过双重角色训练和基于策略的自蒸馏,将二元奖励转化为密集的词元级自监督,在推理任务中实现了卓越的性能,同时降低了对样本效率的要求。
当前在可验证场景下的后训练方法分为两类。强化学习(RLVR)依赖于二元奖励,这种方法适用范围广泛且强大,但在训练过程中仅提供稀疏的监督。蒸馏方法则提供密集的词元级监督(通常来自外部教师或使用高质量演示)。收集此类监督的成本可能很高,或根本不可行。我们提出了 Self-Distillation Zero(SD-Zero),该方法在训练样本效率上显著优于 RL,并且不需要外部教师或高质量演示。SD-Zero 训练单个模型扮演两个角色:生成器,负责生成初始回复;修订器,负责根据生成的回复及其二元奖励来产生改进后的回复。随后,我们执行基于策略的自蒸馏,将修订器的知识蒸馏到生成器中,利用修订器在生成器回复及其奖励条件下的词元分布作为监督。实际上,SD-Zero 训练模型将二元奖励转化为密集的词元级自监督。在数学和代码推理基准测试中(使用 Qwen3-4B-Instruct 和 Olmo-3-7B-Instruct 模型),SD-Zero 相比基础模型将性能提升了至少 10%,并且在相同问题集和训练样本预算下,优于拒绝微调(RFT)、GRPO 以及自蒸馏微调(SDFT)等强基线方法。广泛的消融研究揭示了所提算法的两个新特性:(a) 词元级自定位——修订器能够基于奖励在生成器的回复中识别出需要修订的关键词元;(b) 迭代式自我演化——修订答案能力的提升,可以通过定期的教师同步蒸馏回生成性能中。
查看 arXiv 页面 (https://arxiv.org/abs/2604.12002)
查看 PDF (https://arxiv.org/pdf/2604.12002)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12002)
在您的智能体中获取本文:
hf papers read 2604.12002
没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型
0
没有模型链接这篇论文
请在模型 README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。
引用本文的数据集
0
没有数据集链接这篇论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。
引用本文的 Spaces
0
没有 Space 链接这篇论文
请在 Space README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。
收录本文的收藏集
0
没有收藏集收录这篇论文
请将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面链接到它。
相似文章
反思奖励监督:Rubric-Conditioned Self-Distillation
本文提出Rubric-Conditioned Self-Distillation (RCSD)框架,该框架利用细粒度评分标准在自蒸馏过程中提供token级别的指导,相比GRPO和OPSD等标量奖励方法提升了推理性能。
Self-Distilled Agentic Reinforcement Learning
SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。
G-Zero:从零数据开始的无界生成自博弈方法
本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。
自蒸馏实现持续学习 [pdf]
介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。