用于LLM推理的自适应教师暴露自蒸馏方法
摘要
自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - 自适应教师曝光用于大语言模型推理中的自蒸馏
来源:https://huggingface.co/papers/2605.11458
摘要
自适应教师曝光用于自蒸馏(ATESD)通过一个可学习的策略控制器动态调整训练过程中的教师曝光,从而提升大语言模型的推理能力。
在线自蒸馏(https://huggingface.co/papers?q=self-distillation)已成为大语言模型推理的一种强效方案,其中特权教师以参考推理为条件,监督学生自身的展开过程。然而,几乎所有此类方法都共享一个未受质疑的设计选择:教师始终能看到完整的参考推理。我们认为这一默认设置本身也是问题的一部分,并识别出一种教师侧曝光不匹配(https://huggingface.co/papers?q=exposure%20mismatch):当教师以远超学生当前能力的推理为条件时,生成的 token 目标因过强而难以吸收。一次受控的固定曝光扫描从两个层面使这一问题具体化:1)完全曝光并非总是最佳选择;2)随着教师看到更多特权推理,学生-教师不匹配单调增长。这促使我们将教师曝光视为一个可学习的训练时控制变量,而非固定的超参数。因此,我们提出了自适应教师曝光用于自蒸馏(https://huggingface.co/papers?q=Self-Distillation)(ATESD)。ATESD 使用一个轻量级的 Beta 策略控制器(https://huggingface.co/papers?q=Beta-policy%20controller),以紧凑的训练状态统计量为条件,对揭示比例进行建模,并在一个较短的保持窗口内使用单次采样的曝光来更新学生。为了使这个曝光控制器可学习,我们使用一个折扣学习进度奖励(https://huggingface.co/papers?q=discounted%20learning-progress%20reward)对其进行优化,该奖励根据每个保持决策对学生未来改进的影响而非即时损失变化进行评分,从而解决在线蒸馏所引发的延迟信用分配(https://huggingface.co/papers?q=delayed%20credit%20assignment)问题。在 AIME 24、AIME 25 和 HMMT 25 上针对 Qwen3-{1.7B, 4B, 8B} 的实验表明,ATESD 持续优于竞争性的自蒸馏(https://huggingface.co/papers?q=self-distillation)和 RL 基线,与 OPSD 相比,Average@12 分别提升 +0.95、+2.05 和 +2.33 个点,从而将自适应教师曝光确立为推理自蒸馏(https://huggingface.co/papers?q=self-distillation)的一个有效新维度。
查看 arXiv 页面(https://arxiv.org/abs/2605.11458)查看 PDF(https://arxiv.org/pdf/2605.11458)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11458)
在您的 agent 中获取本文:
hf papers read 2605.11458
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
没有模型链接到此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.11458 即可从此页面链接。
引用本文的数据集 0
没有数据集链接到此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.11458 即可从此页面链接。
引用本文的 Spaces 0
没有 Space 链接到此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.11458 即可从此页面链接。
包含本文的收藏 0
没有包含此论文的收藏
将这篇论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。
在策略自蒸馏中尊重自不确定性以实现高效LLM推理
本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。
自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。