面向大型语言模型的分布校正离线数据蒸馏
摘要
本文提出了一种原则性的离线推理蒸馏框架,能够校正教师-学生分布漂移,在数学基准测试上提升推理准确性,且无需在线推理。
arXiv:2605.14071v1 Announce Type: new
摘要:将强大型语言模型的推理轨迹蒸馏到较小模型中,是提高资源受限场景下智能能力的一条有前景的途径。现有方法面临一个基本权衡:来自教师生成轨迹的离线蒸馏提供了高质量、样本高效的监督,但存在分布漂移问题:训练过程中,学生模型以教师生成的前缀为条件,而在推理时,学生模型以自生成的前缀进行自回归,导致长推理轨迹上的错误累积。同时,在线策略或自蒸馏方法更匹配学生推理时的分布,但需要昂贵的在线采样,并且在早期训练中通常产生低质量轨迹。本文提出了一种原则性的离线推理蒸馏框架,该框架在保留离线教师数据的效率与监督质量的同时,校正教师-学生分布漂移。它自适应地强调与学生在线策略分布更一致的教师监督。在数学推理基准测试GSM8K、MATH、MATH500以及更难的保留竞赛类任务(包括AMC、AIME和OlympiadBench)上的评估表明,我们的方法提高了先前离线蒸馏算法的推理准确性,并生成更稳定的推理轨迹,同时保留了指令遵循能力。我们的工作表明,轻量级的、感知分布校正的训练可以在无需在线推理的情况下显著增强离线推理蒸馏。
查看缓存全文
缓存时间: 2026/05/15 06:19
# 面向大语言模型的分布校正离线数据蒸馏 来源: https://arxiv.org/abs/2605.14071 查看 PDF (https://arxiv.org/pdf/2605.14071) > 摘要:将强大型语言模型的推理轨迹蒸馏到较小模型中,是在资源受限环境下提升智能水平的一条有前景的路径。现有方法面临一个根本性的权衡:基于教师生成轨迹的离线蒸馏能够提供高质量、样本高效的监督,但会遭受分布漂移问题:训练期间,学生模型以教师生成的前缀为条件;而在推理时,学生模型则基于自身生成的前缀进行自回归,这会导致在长推理轨迹上出现累积误差。与此同时,在线策略或自蒸馏方法更能匹配学生模型的推理时分布,但需要昂贵的在线采样,并且在早期训练中常常产生低质量的轨迹。我们提出了一种原则性的离线推理蒸馏框架,它既保留了离线教师生成数据的高效性和监督质量,又纠正了师生分布漂移。该框架自适应地强调与学生在线策略分布更一致的教师监督。在数学推理基准 GSM8K、MATH、MATH500 以及更难的保留竞赛类任务(包括 AMC、AIME 和 OlympiadBench)上的评估表明,我们的方法比先前的离线蒸馏算法提高了推理准确性,并生成了更稳定的推理轨迹,同时保留了指令遵循能力。我们的工作表明,轻量级、感知分布校正的训练可以在无需在线 rollout 的情况下显著增强离线推理蒸馏。 ## 提交历史 来自: Yumeng Zhang [查看邮件 (https://arxiv.org/show-email/0b0b9485/2605.14071)] **[v1]** 2026年5月13日星期三 19:47:31 UTC (1,102 KB)
相似文章
通过追踪重写保护语言模型免受未授权蒸馏
本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。