Self-Distillation Zero：自我修订将二元奖励转化为密集监督

Hugging Face Daily Papers 2026/04/13 19:46 论文

摘要

Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法，通过双角色训练将稀疏的二元奖励转化为密集的token级监督，其中模型同时充当生成器和修订者，在数学和代码推理基准上实现了超过10%的性能提升，且样本效率高于强化学习方法。

当前在可验证环境下的后训练方法分为两类。强化学习（RLVR）依赖于二元奖励，这种方法广泛适用且强大，但在训练过程中仅提供稀疏监督。蒸馏方法提供密集的token级监督，通常从外部教师模型或使用高质量演示获得。收集此类监督可能成本高昂或不可得。我们提出Self-Distillation Zero（SD-Zero），一种训练样本效率显著高于RL且不需要外部教师或高质量演示的方法。SD-Zero训练单个模型扮演两个角色：生成器（Generator），负责生成初始响应；以及修订者（Reviser），根据该响应及其二元奖励来生成改进后的响应。然后我们执行在线策略自我蒸馏，将修订者蒸馏到生成器中，使用修订者在生成器响应及其奖励条件下的token分布作为监督。实际上，SD-Zero训练模型将二元奖励转化为密集的token级自我监督。在数学和代码推理基准上，使用Qwen3-4B-Instruct和Olmo-3-7B-Instruct，SD-Zero相较于基础模型性能提升至少10%，并在相同问题集和训练样本预算下优于强基线方法，包括拒绝微调（RFT）、GRPO和自蒸馏微调（SDFT）。大量消融研究展示了我们提出的算法的两个新颖特性：(a) token级自我定位，即修订者能够根据奖励识别生成器响应中需要修订的关键token；(b) 迭代自我进化，即改进的答案修订能力可以通过定期教师同步蒸馏回生成性能中。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

Paper page - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

来源：https://huggingface.co/papers/2604.12002

摘要

Self-Distillation Zero 训练一个模型，通过双重角色训练和基于策略的自蒸馏，将二元奖励转化为密集的词元级自监督，在推理任务中实现了卓越的性能，同时降低了对样本效率的要求。

当前在可验证场景下的后训练方法分为两类。强化学习（RLVR）依赖于二元奖励，这种方法适用范围广泛且强大，但在训练过程中仅提供稀疏的监督。蒸馏方法则提供密集的词元级监督（通常来自外部教师或使用高质量演示）。收集此类监督的成本可能很高，或根本不可行。我们提出了 Self-Distillation Zero（SD-Zero），该方法在训练样本效率上显著优于 RL，并且不需要外部教师或高质量演示。SD-Zero 训练单个模型扮演两个角色：生成器，负责生成初始回复；修订器，负责根据生成的回复及其二元奖励来产生改进后的回复。随后，我们执行基于策略的自蒸馏，将修订器的知识蒸馏到生成器中，利用修订器在生成器回复及其奖励条件下的词元分布作为监督。实际上，SD-Zero 训练模型将二元奖励转化为密集的词元级自监督。在数学和代码推理基准测试中（使用 Qwen3-4B-Instruct 和 Olmo-3-7B-Instruct 模型），SD-Zero 相比基础模型将性能提升了至少 10%，并且在相同问题集和训练样本预算下，优于拒绝微调（RFT）、GRPO 以及自蒸馏微调（SDFT）等强基线方法。广泛的消融研究揭示了所提算法的两个新特性：(a) 词元级自定位——修订器能够基于奖励在生成器的回复中识别出需要修订的关键词元；(b) 迭代式自我演化——修订答案能力的提升，可以通过定期的教师同步蒸馏回生成性能中。

查看 arXiv 页面 (https://arxiv.org/abs/2604.12002)
查看 PDF (https://arxiv.org/pdf/2604.12002)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12002)

在您的智能体中获取本文：

hf papers read 2604.12002

没有最新的 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型

没有模型链接这篇论文

请在模型 README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。

引用本文的数据集

没有数据集链接这篇论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。

引用本文的 Spaces

没有 Space 链接这篇论文

请在 Space README.md 中引用 arxiv.org/abs/2604.12002 以在此页面链接到它。

收录本文的收藏集

没有收藏集收录这篇论文

请将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面链接到它。

Self-Distillation Zero：自我修订将二元奖励转化为密集监督

Paper page - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

摘要

引用本文的模型

引用本文的数据集

引用本文的 Spaces

收录本文的收藏集

相似文章

反思奖励监督：Rubric-Conditioned Self-Distillation

Self-Distilled Agentic Reinforcement Learning

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

G-Zero：从零数据开始的无界生成自博弈方法

自蒸馏实现持续学习 [pdf]

提交意见反馈