Self-Distillation Zero:自我修订将二元奖励转化为密集监督

Hugging Face Daily Papers 论文

摘要

Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。

当前在可验证环境下的后训练方法分为两类。强化学习(RLVR)依赖于二元奖励,这种方法广泛适用且强大,但在训练过程中仅提供稀疏监督。蒸馏方法提供密集的token级监督,通常从外部教师模型或使用高质量演示获得。收集此类监督可能成本高昂或不可得。 我们提出Self-Distillation Zero(SD-Zero),一种训练样本效率显著高于RL且不需要外部教师或高质量演示的方法。SD-Zero训练单个模型扮演两个角色:生成器(Generator),负责生成初始响应;以及修订者(Reviser),根据该响应及其二元奖励来生成改进后的响应。然后我们执行在线策略自我蒸馏,将修订者蒸馏到生成器中,使用修订者在生成器响应及其奖励条件下的token分布作为监督。实际上,SD-Zero训练模型将二元奖励转化为密集的token级自我监督。 在数学和代码推理基准上,使用Qwen3-4B-Instruct和Olmo-3-7B-Instruct,SD-Zero相较于基础模型性能提升至少10%,并在相同问题集和训练样本预算下优于强基线方法,包括拒绝微调(RFT)、GRPO和自蒸馏微调(SDFT)。 大量消融研究展示了我们提出的算法的两个新颖特性:(a) token级自我定位,即修订者能够根据奖励识别生成器响应中需要修订的关键token;(b) 迭代自我进化,即改进的答案修订能力可以通过定期教师同步蒸馏回生成性能中。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

Paper page - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

来源:https://huggingface.co/papers/2604.12002

摘要

Self-Distillation Zero 训练一个模型,通过双重角色训练和基于策略的自蒸馏,将二元奖励转化为密集的词元级自监督,在推理任务中实现了卓越的性能,同时降低了对样本效率的要求。

当前在可验证场景下的后训练方法分为两类。强化学习(RLVR)依赖于二元奖励,这种方法适用范围广泛且强大,但在训练过程中仅提供稀疏的监督。蒸馏方法则提供密集的词元级监督(通常来自外部教师或使用高质量演示)。收集此类监督的成本可能很高,或根本不可行。我们提出了 Self-Distillation Zero(SD-Zero),该方法在训练样本效率上显著优于 RL,并且不需要外部教师或高质量演示。SD-Zero 训练单个模型扮演两个角色:生成器,负责生成初始回复;修订器,负责根据生成的回复及其二元奖励来产生改进后的回复。随后,我们执行基于策略的自蒸馏,将修订器的知识蒸馏到生成器中,利用修订器在生成器回复及其奖励条件下的词元分布作为监督。实际上,SD-Zero 训练模型将二元奖励转化为密集的词元级自监督。在数学和代码推理基准测试中(使用 Qwen3-4B-Instruct 和 Olmo-3-7B-Instruct 模型),SD-Zero 相比基础模型将性能提升了至少 10%,并且在相同问题集和训练样本预算下,优于拒绝微调(RFT)、GRPO 以及自蒸馏微调(SDFT)等强基线方法。广泛的消融研究揭示了所提算法的两个新特性:(a) 词元级自定位——修订器能够基于奖励在生成器的回复中识别出需要修订的关键词元;(b) 迭代式自我演化——修订答案能力的提升,可以通过定期的教师同步蒸馏回生成性能中。

查看 arXiv 页面 (https://arxiv.org/abs/2604.12002)
查看 PDF (https://arxiv.org/pdf/2604.12002)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12002)

在您的智能体中获取本文:

hf papers read 2604.12002

没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型

0

没有模型链接这篇论文

请在模型 README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。

引用本文的数据集

0

没有数据集链接这篇论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。

引用本文的 Spaces

0

没有 Space 链接这篇论文

请在 Space README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。

收录本文的收藏集

0

没有收藏集收录这篇论文

请将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面链接到它。

相似文章

Self-Distilled Agentic Reinforcement Learning

Hugging Face Daily Papers

SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Hugging Face Daily Papers

提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。

G-Zero:从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers

本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。

自蒸馏实现持续学习 [pdf]

Hacker News Top

介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。