通过混合策略蒸馏进行推理压缩

arXiv cs.AI 论文

摘要

本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。

arXiv:2605.08776v1 公告类型:新论文 摘要:以推理为中心的大语言模型(LLMs)通过生成中间推理轨迹实现了强劲的性能,但往往伴随着过高的令牌消耗和推理时解码成本。我们观察到,在解决相同问题时,较大的推理模型通常能产生更简洁的轨迹,而较小的推理模型倾向于生成更长且更冗余的轨迹。这在现实世界的部署中尤其成问题,因为内存、延迟和服务成本的约束通常更青睐较小的模型。我们的观察结果表明,推理压缩可以从大模型转移到小模型,而不是通过显式的长度约束来强制执行。基于这一见解,我们提出了混合策略蒸馏(MPD),这是一种推理压缩框架,通过蒸馏经过教师模型压缩的学生轨迹,将简洁的推理行为从较大的教师模型转移到较小的学生模型。与在对冗长学生轨迹上对齐师生分布的在线策略蒸馏不同,也与依赖教师生成轨迹且可能面临分布不匹配问题的离线策略蒸馏不同,MPD结合了二者的优势。给定一条学生采样的轨迹,教师将其重写为更简洁的推理轨迹,学生则在压缩轨迹上通过基于KL散度的对齐进行训练。这在注入教师指导压缩的同时,保留了学生策略的探索能力。在Qwen3-1.7B上的实验表明,MPD将令牌使用量最多降低了27.1%,同时在多个推理基准测试中提升了性能,证明了这是一种高效的小模型推理方法。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:24

# 基于混合策略蒸馏的推理压缩

来源: https://arxiv.org/abs/2605.08776
查看 PDF (https://arxiv.org/pdf/2605.08776)

> 摘要: 以推理为中心的大语言模型(LLMs)通过生成中间推理轨迹取得了卓越的性能,但往往会导致过度的令牌(token)使用和高昂的推理时解码成本。我们观察到,在解决相同问题时,较大的推理模型通常能产生更简洁的轨迹,而较小的推理模型倾向于生成长度更长、冗余更多的轨迹。这在真实世界的部署中尤为 problematic,因为内存、延迟和服务成本的限制通常更倾向于使用较小的模型。我们的观察表明,推理压缩能力可以从大模型转移到小模型,而不是通过显式的长度约束来强制执行。基于这一见解,我们提出了混合策略蒸馏(Mixed-Policy Distillation, MPD),这是一种推理压缩框架,它通过蒸馏由教师压缩的学生轨迹,将来自较大教师模型的简洁推理行为转移到较小的学生模型。与在冗长的学生轨迹上对齐师生分布的同策略蒸馏(on-policy distillation)不同,也与依赖教师生成轨迹且可能遭受分布失配问题的异策略蒸馏(off-policy distillation)不同,MPD 结合了两者的优势。给定学生采样的轨迹,教师将其重写为更简洁的推理痕迹,然后学生通过基于 KL 散度的对齐在压缩轨迹上进行训练。这在注入教师引导的压缩的同时,保留了学生策略的探索性。在 Qwen3-1.7B 上的实验表明,MPD 在多个推理基准测试中提高了性能的同时,减少了高达 27.1% 的令牌使用量,证明了其作为高效小模型推理方法的有效性。

## 提交历史

来自: Zifeng Ding [查看邮件 (https://arxiv.org/show-email/84b03535/2605.08776)] **[v1]** 2026年5月9日, 星期六 08:04:47 UTC (983 KB)

相似文章

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

通过推理空间压缩的结构化理由蒸馏

arXiv cs.CL

本文提出了 D-RPC,一种通过将推理路径压缩为可复用库,从而将大型语言模型的推理能力蒸馏给较小模型的方法,该方法在数学和常识基准测试中实现了更好的性能和一致性。

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。