通过推理空间压缩的结构化理由蒸馏
摘要
本文提出了 D-RPC,一种通过将推理路径压缩为可复用库,从而将大型语言模型的推理能力蒸馏给较小模型的方法,该方法在数学和常识基准测试中实现了更好的性能和一致性。
arXiv:2605.07139v1 发布类型:新文章
摘要:在将大型语言模型(LLMs)的推理能力蒸馏到较小模型时,教师模型对相似问题的推理理由在结构和策略上往往差异巨大。就像一位厨师每次做同一道菜方法都不同一样,这种不一致性给学生模型带来了难以内化的噪声监督。我们提出了通过推理路径压缩进行蒸馏(D-RPC),该方法约束教师模型遵循一个紧凑且动态维护的、由可复用高层推理路径组成的库。对于每个训练问题,D-RPC 检索最相关的路径并让教师模型遵循该路径,从而生成在相似问题上保持一致、但又足够多样化以覆盖不同问题类型的推理理由。PAC-Bayes 分析形式化了库大小与覆盖率之间的权衡:较小的库能降低监督熵,但存在覆盖率不足的风险,而泛化边界确定了一个经我们的消融实验证实的最佳中间大小。在两个学生模型的五项数学和常识推理基准测试中,D-RPC 始终优于思维链蒸馏、自由形式理由生成、直接蒸馏和结构化监督基线方法,同时使用的 token 数量少于重度依赖模板的替代方案。
查看缓存全文
缓存时间: 2026/05/11 06:49
# 通过推理空间压缩进行结构化推理蒸馏 来源: https://arxiv.org/abs/2605.07139 查看 PDF (https://arxiv.org/pdf/2605.07139) > 摘要:在将大型语言模型(LLMs)的推理能力蒸馏到较小模型时,教师模型对相似问题的推理依据在结构和策略上往往差异巨大。就像一位大厨每次做同样的菜方法都不同,这种不一致性给学生模型带来了难以内化的噪声监督。我们提出了通过推理路径压缩进行蒸馏(D-RPC)方法,该方法约束教师模型遵循一个紧凑且动态维护的可重用高层推理路径库。对于每个训练问题,D-RPC 检索最相关的路径并条件化教师模型遵循该路径,产生的推理依据在相似问题上保持一致,同时又能充分覆盖不同类型的问题。PAC-Bayes 分析形式化了路径库大小与覆盖率之间的权衡:较小的库会降低监督熵,但存在覆盖不足的風險;泛化界确定了经消融实验验证的最佳中间规模。在两个学生模型和五个数学及常识推理基准测试上,D-RPC consistently 优于思维链蒸馏、自由形式推理生成、直接蒸馏以及结构化监督基线,且使用的 token 数量少于依赖模板的替代方案。 ## 提交历史 作者:Jialin Yang [查看邮箱 (https://arxiv.org/show-email/6e6a8fa0/2605.07139)] **[v1]** 2026年5月8日 星期五 02:15:52 UTC (549 KB)
相似文章
通过混合策略蒸馏进行推理压缩
本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。
OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线
本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。
隐式压缩正则化:通过强化学习后训练中的内部短分布实现简洁推理
本文提出了隐式压缩正则化(ICR),一种旨在解决大语言模型在强化学习后训练期间过度思考问题的方法,引导模型生成简洁且准确的推理轨迹。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。