面向大型语言模型的分布校正离线数据蒸馏

arXiv cs.CL 2026/05/15 04:00 论文

摘要

本文提出了一种原则性的离线推理蒸馏框架，能够校正教师-学生分布漂移，在数学基准测试上提升推理准确性，且无需在线推理。

arXiv:2605.14071v1 Announce Type: new 摘要：将强大型语言模型的推理轨迹蒸馏到较小模型中，是提高资源受限场景下智能能力的一条有前景的途径。现有方法面临一个基本权衡：来自教师生成轨迹的离线蒸馏提供了高质量、样本高效的监督，但存在分布漂移问题：训练过程中，学生模型以教师生成的前缀为条件，而在推理时，学生模型以自生成的前缀进行自回归，导致长推理轨迹上的错误累积。同时，在线策略或自蒸馏方法更匹配学生推理时的分布，但需要昂贵的在线采样，并且在早期训练中通常产生低质量轨迹。本文提出了一种原则性的离线推理蒸馏框架，该框架在保留离线教师数据的效率与监督质量的同时，校正教师-学生分布漂移。它自适应地强调与学生在线策略分布更一致的教师监督。在数学推理基准测试GSM8K、MATH、MATH500以及更难的保留竞赛类任务（包括AMC、AIME和OlympiadBench）上的评估表明，我们的方法提高了先前离线蒸馏算法的推理准确性，并生成更稳定的推理轨迹，同时保留了指令遵循能力。我们的工作表明，轻量级的、感知分布校正的训练可以在无需在线推理的情况下显著增强离线推理蒸馏。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:19

# 面向大语言模型的分布校正离线数据蒸馏
来源: https://arxiv.org/abs/2605.14071
查看 PDF (https://arxiv.org/pdf/2605.14071)

> 摘要:将强大型语言模型的推理轨迹蒸馏到较小模型中，是在资源受限环境下提升智能水平的一条有前景的路径。现有方法面临一个根本性的权衡：基于教师生成轨迹的离线蒸馏能够提供高质量、样本高效的监督，但会遭受分布漂移问题：训练期间，学生模型以教师生成的前缀为条件；而在推理时，学生模型则基于自身生成的前缀进行自回归，这会导致在长推理轨迹上出现累积误差。与此同时，在线策略或自蒸馏方法更能匹配学生模型的推理时分布，但需要昂贵的在线采样，并且在早期训练中常常产生低质量的轨迹。我们提出了一种原则性的离线推理蒸馏框架，它既保留了离线教师生成数据的高效性和监督质量，又纠正了师生分布漂移。该框架自适应地强调与学生在线策略分布更一致的教师监督。在数学推理基准 GSM8K、MATH、MATH500 以及更难的保留竞赛类任务（包括 AMC、AIME 和 OlympiadBench）上的评估表明，我们的方法比先前的离线蒸馏算法提高了推理准确性，并生成了更稳定的推理轨迹，同时保留了指令遵循能力。我们的工作表明，轻量级、感知分布校正的训练可以在无需在线 rollout 的情况下显著增强离线推理蒸馏。

## 提交历史

来自: Yumeng Zhang [查看邮件 (https://arxiv.org/show-email/0b0b9485/2605.14071)] **[v1]** 2026年5月13日星期三 19:47:31 UTC (1,102 KB)

面向大型语言模型的分布校正离线数据蒸馏

相似文章

通过追踪重写保护语言模型免受未授权蒸馏

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

OPRD：在策略表示蒸馏

偏离时回溯：缓解大语言模型推理蒸馏中的双重暴露偏差

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

提交意见反馈