Self-Verified Distillation：你的语言模型实则就是它自己的合成数据流水线

arXiv cs.CL 2026/05/27 04:00 论文

self-verification distillation synthetic-data reasoning post-training llm qwen

摘要

提出了Self-Verified Distillation方法，该方法让LLM从无标注的种子问题中生成候选解决方案，并通过基于提示的自我验证进行筛选，然后在过滤后的数据集上进行训练，从而在Qwen3模型的数学、科学和编程基准测试上取得了显著提升。

arXiv:2605.26132v1 公告类型：new \n摘要：后训练的大型语言模型（LLM）能否仅使用无标注的提示，在没有外部教师或工具反馈的情况下进一步提升自身？我们研究这一设定，仅从没有真值解决方案的无标注种子问题开始，涵盖三个推理领域：数学、科学和编程。我们提出了Self-Verified Distillation，一种简单的后训练精炼算法，模型为这些种子问题生成候选解决方案，通过基于提示的自我验证进行筛选，并在由此产生的自我策划数据集上进行训练。受UQ基准测试使用多个验证器筛选困难未解决问题候选答案的启发，我们将这种基于验证的筛选思想应用于自我训练：模型通过三级级联检查（循环一致性、事实性和正确性）来筛选自身生成的解决方案，只有当解决方案在所有阶段都获得一致的评判投票时才接受。我们发现，在训练数据构建过程中，采样更多候选生成并使用更大的验证预算，可以产生更高质量的自我策划数据，进而获得更好的推理模型。随后，我们在多个规模上使用Self-Verified Distillation训练Qwen3模型，并在所有三个领域都取得了提升。对于Qwen3-4B，我们的方法在数学（AIME26和HMMT）上提高了+16.7个百分点的整体保留pass@1，在科学（GPQA Diamond和HLE）上提高了+11.1个百分点，在编程（LCBv5和LCBv6）上提高了+8.3个百分点，0.6B和8B模型也有提升。与仅在测试时花费额外计算资源来提升性能的基线方法（UQ-TTC）相比，Self-Verified Distillation在大多数设置下实现了更好的性能，且测试时仅需一次推理调用。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:02

# 自验证蒸馏：你的语言模型悄然成为自己的合成数据管线
来源：https://arxiv.org/abs/2605.26132
查看PDF（https://arxiv.org/pdf/2605.26132）

> 摘要：经过后训练的大型语言模型（LLM）能否仅使用无标签提示（无需外部教师或工具反馈）来进一步提升自身？我们从仅有未标记的种子问题（无真实答案）开始研究这一设置，涉及数学、科学和编程三个推理领域。我们提出自验证蒸馏（Self-Verified Distillation），一种简单的后训练精炼算法：模型为这些种子问题生成候选解，通过基于提示的自验证进行筛选，然后在自整理的数据集上进行训练。受UQ基准测试中使用多个验证器筛选困难未解问题候选答案的启发，我们将这种基于验证的筛选思路引入自训练：模型通过三级级联检查（循环一致性、事实性和正确性）来筛选自己生成的解，仅当所有阶段均获得一致通过时才接受该解。我们发现，在训练数据构建过程中采样更多候选生成结果并使用更大的验证预算，能够产生更高质量的自整理数据，进而得到更好的推理模型。随后，我们在多个规模上使用自验证蒸馏训练Qwen3模型，并在所有三个领域取得了提升。对于Qwen3-4B，我们的方法在数学（AIME26和HMMT）上将保留集中pass@1整体提升了+16.7个百分点，在科学（GPQA Diamond和HLE）上提升了+11.1个百分点，在编程（LCBv5和LCBv6）上提升了+8.3个百分点，这些提升同样扩展到0.6B和8B模型。与我们的仅测试时基线（UQ-TTC，通过在推理时增加计算量来提升性能）相比，自验证蒸馏在大多数设置下取得了更好的性能，且测试时仅需单次推理调用。

## 提交历史

来自：Tony Lee [查看邮件（https://arxiv.org/show-email/564e9e73/2605.26132）]  
**[v1]** 2026年5月20日星期三 17:26:10 UTC（2,264 KB）

Self-Verified Distillation：你的语言模型实则就是它自己的合成数据流水线

相似文章

基于参考的LLM蒸馏检测

共识作为无标签自蒸馏的特权上下文

大型语言模型中的未来置信度蒸馏

@agarwl_: 自蒸馏方法目前对思维模型无效 https://arxiv.org/abs/2603.24472 https://openreview.net/forum?i…

通过追踪重写保护语言模型免受未授权蒸馏

提交意见反馈