通过推理空间压缩的结构化理由蒸馏

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文提出了 D-RPC，一种通过将推理路径压缩为可复用库，从而将大型语言模型的推理能力蒸馏给较小模型的方法，该方法在数学和常识基准测试中实现了更好的性能和一致性。

arXiv:2605.07139v1 发布类型：新文章摘要：在将大型语言模型（LLMs）的推理能力蒸馏到较小模型时，教师模型对相似问题的推理理由在结构和策略上往往差异巨大。就像一位厨师每次做同一道菜方法都不同一样，这种不一致性给学生模型带来了难以内化的噪声监督。我们提出了通过推理路径压缩进行蒸馏（D-RPC），该方法约束教师模型遵循一个紧凑且动态维护的、由可复用高层推理路径组成的库。对于每个训练问题，D-RPC 检索最相关的路径并让教师模型遵循该路径，从而生成在相似问题上保持一致、但又足够多样化以覆盖不同问题类型的推理理由。PAC-Bayes 分析形式化了库大小与覆盖率之间的权衡：较小的库能降低监督熵，但存在覆盖率不足的风险，而泛化边界确定了一个经我们的消融实验证实的最佳中间大小。在两个学生模型的五项数学和常识推理基准测试中，D-RPC 始终优于思维链蒸馏、自由形式理由生成、直接蒸馏和结构化监督基线方法，同时使用的 token 数量少于重度依赖模板的替代方案。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:49

# 通过推理空间压缩进行结构化推理蒸馏
来源: https://arxiv.org/abs/2605.07139
查看 PDF (https://arxiv.org/pdf/2605.07139)

> 摘要：在将大型语言模型（LLMs）的推理能力蒸馏到较小模型时，教师模型对相似问题的推理依据在结构和策略上往往差异巨大。就像一位大厨每次做同样的菜方法都不同，这种不一致性给学生模型带来了难以内化的噪声监督。我们提出了通过推理路径压缩进行蒸馏（D-RPC）方法，该方法约束教师模型遵循一个紧凑且动态维护的可重用高层推理路径库。对于每个训练问题，D-RPC 检索最相关的路径并条件化教师模型遵循该路径，产生的推理依据在相似问题上保持一致，同时又能充分覆盖不同类型的问题。PAC-Bayes 分析形式化了路径库大小与覆盖率之间的权衡：较小的库会降低监督熵，但存在覆盖不足的風險；泛化界确定了经消融实验验证的最佳中间规模。在两个学生模型和五个数学及常识推理基准测试上，D-RPC  consistently 优于思维链蒸馏、自由形式推理生成、直接蒸馏以及结构化监督基线，且使用的 token 数量少于依赖模板的替代方案。

## 提交历史

作者：Jialin Yang [查看邮箱 (https://arxiv.org/show-email/6e6a8fa0/2605.07139)] **[v1]** 2026年5月8日 星期五 02:15:52 UTC (549 KB)

通过推理空间压缩的结构化理由蒸馏

相似文章

通过混合策略蒸馏进行推理压缩

OmniThoughtVis：一种用于部署型多模态推理模型的可扩展蒸馏流水线

隐式压缩正则化：通过强化学习后训练中的内部短分布实现简洁推理

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

揭示大语言模型中的数学推理：内部机制的方法学研究

提交意见反馈