用于LLM推理的自适应教师暴露自蒸馏方法

Hugging Face Daily Papers 论文

摘要

自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。

同策略自蒸馏已成为LLM推理的有效方案:特权教师在参考解答的前提下监督学生自身的轨迹生成。然而,几乎所有此类方法都共享一个未经质疑的设计选择:教师始终完整地看到参考推理。我们认为,这一默认设置本身就是问题的一部分,并识别出教师侧暴露不匹配:当教师提供的推理远超学生当前能力时,生成的token目标过于强大,学生难以吸收。通过受控的固定暴露扫描实验,我们具体发现两点:1)完全暴露并非总是最优选择;2)随着教师看到更多特权推理,学生-教师不匹配度单调增加。这启示我们不应将教师暴露视为固定超参数,而应视为可学习的训练时控制变量。为此,我们提出自适应教师暴露自蒸馏(ATESD)。ATESD采用轻量级Beta策略控制器,基于紧凑的训练状态统计量对揭示比率建模,并在一个较短的固定学生更新窗口内使用采样的暴露值。为使该暴露控制器可学习,我们以折扣学习进度奖励进行优化,该奖励根据每个暴露决策对学生未来提升的影响来评分,而非即时损失变化,从而解决同策略蒸馏带来的延迟信用分配问题。在AIME 24、AIME 25和HMMT 25上使用Qwen3-{1.7B, 4B, 8B}的实验表明,ATESD始终优于有竞争力的自蒸馏和强化学习基线,相比OPSD分别提升了+0.95、+2.05和+2.33的Average@12分数,确立了自适应教师暴露作为推理自蒸馏的有效新维度。
查看原文
查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - 自适应教师曝光用于大语言模型推理中的自蒸馏

来源:https://huggingface.co/papers/2605.11458

摘要

自适应教师曝光用于自蒸馏(ATESD)通过一个可学习的策略控制器动态调整训练过程中的教师曝光,从而提升大语言模型的推理能力。

在线自蒸馏(https://huggingface.co/papers?q=self-distillation)已成为大语言模型推理的一种强效方案,其中特权教师以参考推理为条件,监督学生自身的展开过程。然而,几乎所有此类方法都共享一个未受质疑的设计选择:教师始终能看到完整的参考推理。我们认为这一默认设置本身也是问题的一部分,并识别出一种教师侧曝光不匹配(https://huggingface.co/papers?q=exposure%20mismatch):当教师以远超学生当前能力的推理为条件时,生成的 token 目标因过强而难以吸收。一次受控的固定曝光扫描从两个层面使这一问题具体化:1)完全曝光并非总是最佳选择;2)随着教师看到更多特权推理,学生-教师不匹配单调增长。这促使我们将教师曝光视为一个可学习的训练时控制变量,而非固定的超参数。因此,我们提出了自适应教师曝光用于自蒸馏(https://huggingface.co/papers?q=Self-Distillation)(ATESD)。ATESD 使用一个轻量级的 Beta 策略控制器(https://huggingface.co/papers?q=Beta-policy%20controller),以紧凑的训练状态统计量为条件,对揭示比例进行建模,并在一个较短的保持窗口内使用单次采样的曝光来更新学生。为了使这个曝光控制器可学习,我们使用一个折扣学习进度奖励(https://huggingface.co/papers?q=discounted%20learning-progress%20reward)对其进行优化,该奖励根据每个保持决策对学生未来改进的影响而非即时损失变化进行评分,从而解决在线蒸馏所引发的延迟信用分配(https://huggingface.co/papers?q=delayed%20credit%20assignment)问题。在 AIME 24、AIME 25 和 HMMT 25 上针对 Qwen3-{1.7B, 4B, 8B} 的实验表明,ATESD 持续优于竞争性的自蒸馏(https://huggingface.co/papers?q=self-distillation)和 RL 基线,与 OPSD 相比,Average@12 分别提升 +0.95、+2.05 和 +2.33 个点,从而将自适应教师曝光确立为推理自蒸馏(https://huggingface.co/papers?q=self-distillation)的一个有效新维度。

查看 arXiv 页面(https://arxiv.org/abs/2605.11458)查看 PDF(https://arxiv.org/pdf/2605.11458)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11458)

在您的 agent 中获取本文:

hf papers read 2605.11458

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

没有模型链接到此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.11458 即可从此页面链接。

引用本文的数据集 0

没有数据集链接到此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.11458 即可从此页面链接。

引用本文的 Spaces 0

没有 Space 链接到此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.11458 即可从此页面链接。

包含本文的收藏 0

没有包含此论文的收藏

将这篇论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Hugging Face Daily Papers

提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。