Self-Verified Distillation:你的语言模型实则就是它自己的合成数据流水线

arXiv cs.CL 论文

摘要

提出了Self-Verified Distillation方法,该方法让LLM从无标注的种子问题中生成候选解决方案,并通过基于提示的自我验证进行筛选,然后在过滤后的数据集上进行训练,从而在Qwen3模型的数学、科学和编程基准测试上取得了显著提升。

arXiv:2605.26132v1 公告类型:new \n摘要:后训练的大型语言模型(LLM)能否仅使用无标注的提示,在没有外部教师或工具反馈的情况下进一步提升自身?我们研究这一设定,仅从没有真值解决方案的无标注种子问题开始,涵盖三个推理领域:数学、科学和编程。我们提出了Self-Verified Distillation,一种简单的后训练精炼算法,模型为这些种子问题生成候选解决方案,通过基于提示的自我验证进行筛选,并在由此产生的自我策划数据集上进行训练。受UQ基准测试使用多个验证器筛选困难未解决问题候选答案的启发,我们将这种基于验证的筛选思想应用于自我训练:模型通过三级级联检查(循环一致性、事实性和正确性)来筛选自身生成的解决方案,只有当解决方案在所有阶段都获得一致的评判投票时才接受。我们发现,在训练数据构建过程中,采样更多候选生成并使用更大的验证预算,可以产生更高质量的自我策划数据,进而获得更好的推理模型。随后,我们在多个规模上使用Self-Verified Distillation训练Qwen3模型,并在所有三个领域都取得了提升。对于Qwen3-4B,我们的方法在数学(AIME26和HMMT)上提高了+16.7个百分点的整体保留pass@1,在科学(GPQA Diamond和HLE)上提高了+11.1个百分点,在编程(LCBv5和LCBv6)上提高了+8.3个百分点,0.6B和8B模型也有提升。与仅在测试时花费额外计算资源来提升性能的基线方法(UQ-TTC)相比,Self-Verified Distillation在大多数设置下实现了更好的性能,且测试时仅需一次推理调用。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:02

# 自验证蒸馏:你的语言模型悄然成为自己的合成数据管线
来源:https://arxiv.org/abs/2605.26132
查看PDF(https://arxiv.org/pdf/2605.26132)

> 摘要:经过后训练的大型语言模型(LLM)能否仅使用无标签提示(无需外部教师或工具反馈)来进一步提升自身?我们从仅有未标记的种子问题(无真实答案)开始研究这一设置,涉及数学、科学和编程三个推理领域。我们提出自验证蒸馏(Self-Verified Distillation),一种简单的后训练精炼算法:模型为这些种子问题生成候选解,通过基于提示的自验证进行筛选,然后在自整理的数据集上进行训练。受UQ基准测试中使用多个验证器筛选困难未解问题候选答案的启发,我们将这种基于验证的筛选思路引入自训练:模型通过三级级联检查(循环一致性、事实性和正确性)来筛选自己生成的解,仅当所有阶段均获得一致通过时才接受该解。我们发现,在训练数据构建过程中采样更多候选生成结果并使用更大的验证预算,能够产生更高质量的自整理数据,进而得到更好的推理模型。随后,我们在多个规模上使用自验证蒸馏训练Qwen3模型,并在所有三个领域取得了提升。对于Qwen3-4B,我们的方法在数学(AIME26和HMMT)上将保留集中pass@1整体提升了+16.7个百分点,在科学(GPQA Diamond和HLE)上提升了+11.1个百分点,在编程(LCBv5和LCBv6)上提升了+8.3个百分点,这些提升同样扩展到0.6B和8B模型。与我们的仅测试时基线(UQ-TTC,通过在推理时增加计算量来提升性能)相比,自验证蒸馏在大多数设置下取得了更好的性能,且测试时仅需单次推理调用。

## 提交历史

来自:Tony Lee [查看邮件(https://arxiv.org/show-email/564e9e73/2605.26132)]  
**[v1]** 2026年5月20日星期三 17:26:10 UTC(2,264 KB)

相似文章

通过追踪重写保护语言模型免受未授权蒸馏

arXiv cs.CL

本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。

GDSD:强化学习作为扩散语言模型的引导式降噪器自蒸馏

Hugging Face Daily Papers

GDSD提出了一种强化学习方法,直接从优势引导的自教师中蒸馏扩散语言模型的降噪器,避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上,比先前最先进的方法准确率提升高达+19.6%。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。