@agarwl_: 自蒸馏方法目前对思维模型无效 https://arxiv.org/abs/2603.24472 https://openreview.net/forum?i…

X AI KOLs Timeline 论文

摘要

本文研究了为何自蒸馏会降低大语言模型的推理能力,发现它会抑制认知性言语化(不确定性表达),导致数学推理任务中的性能下降高达40%。

自蒸馏方法目前对思维模型无效 https://arxiv.org/abs/2603.24472 https://openreview.net/forum?id=VhCJItwQHn… https://arxiv.org/abs/2606.11709
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:51

自我蒸馏(暂时)不适用于推理模型 https://arxiv.org/abs/2603.24472 https://openreview.net/forum?id=VhCJItwQHn… https://arxiv.org/abs/2606.11709 — # 为什么自我蒸馏(有时)会降低LLM的推理能力? 来源:https://arxiv.org/html/2603.24472 Jeonghye Kim¹,², Xufang Luo¹†\dagger, Minbeom Kim³, Sangmook Lee³, Dohyung Kim³, Jiwon Jeon², Dongsheng Li¹, Yuqing Yang¹¹微软研究院²韩国科学技术院(KAIST)³首尔大学 [无标题图片]博客文章 (https://beanie00.notion.site/why-does-self-distillation-degrade-reasoning?source=copy_link)[无标题图片]beanie00/self-distillation-analysis (https://github.com/beanie00/self-distillation-analysis) ###### 摘要 自我蒸馏已成为LLM的一种有效训练后范式,通常能在缩短推理轨迹的同时提升性能。然而,在数学推理中我们发现,它可能会在缩短响应的同时降低性能。我们将这种退化追溯到对认知表达(即模型在推理过程中表达不确定性的行为)的抑制。通过控制条件上下文丰富度和任务覆盖度的实验,我们发现,让教师模型以丰富信息为条件会抑制不确定性表达,从而能在有限任务覆盖下实现快速的域内优化,但会损害OOD(分布外)性能——面对未见问题时,表达不确定性并相应调整反而有益。在Qwen3-1.7B/8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct上,我们观察到性能下降高达40%。我们的发现表明,暴露适当水平的不确定性对于稳健的推理至关重要,并强调了优化推理行为(而不仅仅是强化正确答案轨迹)的重要性。 ## 1 引言 参考标题(a)化学 (Olmo3-7B-Instruct) 参考标题(b)DAPO-Math-17k (DeepSeek-Distill-Qwen-7B) 图1:(a) 化学领域GRPO和自我蒸馏(SDPO)的训练得分和响应长度变化,数据来自SDPO Wandb日志(wandb)(链接) (https://wandb.ai/jonhue/SDPO?nw=mgotcx6kk7). (b) DAPO-Math-17k上GRPO和SDPO的训练得分和响应长度变化。 最近,自我蒸馏在大语言模型(LLM)的训练后阶段吸引了越来越多的关注。在这种范式中,使用同一模型的两个实例:一个以特权信息(例如,真实答案)为条件,作为教师,为另一没有该信息的实例生成的响应提供密集奖励信号。多项研究表明,将此框架与可验证奖励强化学习(RLVR)等训练后方法相结合,可以带来高效的性能提升 (zhu2025token; understanding; SDPO; shenfeld2026self; song2026expanding; zhao2026self; opcd)。这些方法在智能体环境和科学推理等领域,尤其是在域内评估设置下,表现出尤为显著的改进。有趣的是,这些工作中观察到的一致趋势是,性能随响应长度减少而提升,这表明自我蒸馏促进了更简洁有效的推理。 然而,当我们将相同的自我蒸馏方法应用于数学推理任务时,观察到了明显不同的现象。图1 (https://arxiv.org/html/2603.24472#S1.F1) 比较了代表性自我蒸馏算法SDPO在化学领域 (a) 和数学领域 (b) 的效果。如图所示,在化学领域,与GRPO相比,自我蒸馏显著缩短了响应长度,同时性能快速提升。相反,在数学领域,尽管随着训练进行响应长度持续下降,但性能却显著下降,与先前发现相悖。这引出一个问题:“为什么模型被训练为主导正确答案方向,性能反而有时会下降?” 我们的分析揭示了一个一致的模式:给教师提供的上下文越丰富,其生成的推理就越简洁、越自信,不确定性表达大大减少,尤其在数学推理中,性能下降。我们将这种效应追溯到对认知表达(understanding)的抑制——模型在推理过程中明确表达并整合不确定性。像DeepSeek-R1 (deepseek-r1) 这样的强推理模型经常使用“等等”或“嗯”之类的标记来表达不确定性。虽然这些表达不一定直接推进推理,但移除它们会丢弃推理路径可能存在缺陷的重要信号,导致性能显著下降 (understanding)。 为了系统理解自我蒸馏何时以及为何抑制认知表达并影响性能,我们进行了一项全面的实证研究,并确定了两个关键因素:信息丰富度和任务覆盖度。教师获得的特权信息(如正确答案)越多,其推理轨迹就越能抑制不确定性表达,鼓励学生模仿一种在推理时无法获得的信息预设下的自信推理风格。当任务覆盖有限时,这种压缩能实现快速的域内优化。然而,随着覆盖度的增加,移除认知表达可能会干扰跨不同任务的优化,从而降低在更具挑战性或未见问题上的性能。 更广泛地说,我们的结果表明,即使训练目标忠实地引导模型走向正确的推理轨迹,产生的推理风格也可能悄然改变,从而损害泛化能力。标准目标不会惩罚对认知表达的抑制,但它会负面影响分布外(OOD)性能。这表明训练后目标不仅要考虑答案正确性,还需要考虑激发和保留感知不确定性的推理行为。我们相信这些发现有助于更深入地理解自我蒸馏及更广泛的训练后阶段的推理过程。 ## 2 预备知识 #### 自我蒸馏 设 (x \in \mathcal{X}) 表示输入,(y = (y_1, \dots, y_T)) 是由语言模型 (\pi_\theta) 生成的序列。模型定义了一个自回归分布 (\pi_\theta(y|x) = \prod_{t=1}^T \pi_\theta(y_t \mid x, y_{<t}))。在自我蒸馏中,模型的同一个实例既是教师又是学生,但教师以特权信息(如正确答案)为条件,而学生则没有。教师生成 (y_{\text{teacher}} \sim \pi_\theta(\cdot \mid x, c)),其中 (c) 是包含特权信息的条件上下文。然后,学生通过学习教师生成的轨迹来模仿教师的行为,或者使用教师作为奖励模型的信号(例如,基于教师响应与无条件生成之间相似性的密集奖励)来学习。 在这项工作中,我们专注于两种常见的自我蒸馏范式: * 离策略自我蒸馏 (SFT): 学生通过监督学习(SFT)直接学习教师生成的响应,最小化交叉熵损失 (\mathcal{L}{\text{SFT}} = -\sum_t \log \pi\theta(y_{\text{teacher}, t} \mid x, y_{\text{teacher}, < t}))。 * 在策略自我蒸馏 (SDPO): 使用强化学习(RL)框架。教师为学生自己的响应提供密集奖励信号。例如,SDPO (zhao2026self) 使用教师模型(以正确答案为条件)的对数似然与学生无条件对数似然之间的差值作为信号:(r(x, y) = \log \pi_\theta(y \mid x, s) - \log \pi_\theta(y \mid x, \emptyset)),然后通过如DPO (rafailov2024dpo) 或GRPO (shao2024grpo) 等方法进行优化。 我们比较了这两种自我蒸馏变体与基线GRPO的效果。 #### 认知表达 我们定义认知表达为模型在推理过程中明确表达不确定性或自我怀疑的行为,通常使用诸如“等等”、“嗯”、“我知道”、“我假设”等标记。我们通过计算每个响应中这些标记的数量来量化认知表达的程度。我们用 (E(y)) 表示响应 (y) 中认知标记的数量。我们用 (L(y)) 表示响应的长度(标记数)。 ## 3 信息丰富度与认知表达 为了理解条件上下文 (c) 的信息内容如何影响认知表达,我们首先分析教师在不同信息水平下的生成行为。我们使用 DeepSeek-R1-Distill-Qwen-7B (deepseek) 在 AIME24 数据集上进行实验。我们考虑四种生成设置: 1. 无引导生成 ((c = \emptyset)):教师独立生成响应,无特权信息。 2. 解引导生成 ((c = s)):教师以完整的正确答案 (s) 为条件,包括其推理轨迹(思考内容)。 3. 去掉思考内容的解引导生成 ((c = s_{\setminus \text{think}})):教师以正确答案 (s) 为条件,但移除其中标记之间的内容(即保留主要推理框架,但移除详细的自我质疑步骤)。 4. 重生成条件生成 ((c = y_r)):教师以一种之前基于完整答案 (s) 生成的响应 (y_r \sim \pi_\theta(\cdot \mid x, s)) 为条件。 设 (y^) 是模型的真实潜在推理过程(理想条件下的最优推理)。条件互信息 (I(y^; c \mid x)) 量化了给定输入 (x) 时,条件 (c) 提供的关于最优推理的信息量。预期响应长度 (\mathbb{E}[L(y)]) 和预期认知标记计数 (\mathbb{E}[E(y)]) 随 (I(y^; c \mid x)) 的增加而减少。 公式上: (I(y^; c \mid x) = 0)(对于 (c = \emptyset))是最小值,(I(y^; c \mid x)) 在 (c = s) 时最大。根据数据处理不等式,对于 (c = s_{\setminus \text{think}}) 和 (c = y_r),有 (I(y^; s_{\setminus \text{think}} \mid x) \leq I(y^; s \mid x)) 和 (I(y^; y_r \mid x) \leq I(y^; s \mid x))。因此,顺序为: (I(y^; \emptyset \mid x) = 0 < I(y^; s_{\setminus \text{think}} \mid x) < I(y^; y_r \mid x) < I(y^*; s \mid x))。 因此,(\mathbb{E}[L(y)]) 和 (\mathbb{E}[E(y)]) 的顺序相反: (\mathbb{E}[L(y)]\big|{(1)} > \mathbb{E}[L(y)]\big|{(3)} > \mathbb{E}[L(y)]\big|{(4)} > \mathbb{E}[L(y)]\big|{(2)}), 对于 (\mathbb{E}[E(y)]) 类似,证实了更丰富的条件信息导致更简洁、更自信的推理。 表1:不同信息丰富度下响应特征的比较。 | | 平均得分 | 平均长度 | 认知标记数量 | | :— | :— | :— | :— | | (1) 无引导 | 0.30 | 13,054 | 182.5 | | \rowcolor{c-pink-light} (2) 解引导 ((c=s)) | 0.98 | 1,873 | 8.8 | | (3) 去掉思考的解引导 ((c=s_{\setminus \text{think}})) | 0.78 | 12,036 | 159.8 | | \rowcolor{c-pink-light} (4) 重生成条件 | 0.95 | 2,808 | 24.1 |

具体来说,无引导生成 ((c=\emptyset)) 产生的响应更长,认知标记计数最高。当提供完整解 (s) (2) 时,模型高置信度地遵循给定的推理轨迹,其简洁输出可视为 (s) 中推理的压缩表示。在 (3) 中,移除部分仅保留 (s_{\setminus \text{think}}) (从13,054个响应标记中保留640个),(\mathbb{E}[L(y)]) 和 (\mathbb{E}[E(y)]) 再次向无引导水平增加,反映了大量的信息损失。设置 (4) 以重生成响应 (y_r) 为条件,产生中间值(低于 (3) 但高于 (2)),表明 (y_r) 保留了完整解的大部分信息结构。详细的逐标记分析见附录B.1 (https://arxiv.org/html/2603.24472#A2.SS1)。 要点1:信息丰富度与认知表达 随着条件上下文 (c) 的信息量更大且更直接有用,LLM生成答案时更自信,认知不确定性表达更少。 ## 4 使用自我蒸馏进行监督微调 一个自然的后续问题是,高 (I(y^*; c \mid x)) 下对认知表达的抑制是仅仅是风格上的,还是对推理能力有实质性影响。为此,我们使用 DeepSeek-R1-Distill-Qwen-7B (deepseek) 在两个数据集上进行离策略自我蒸馏(SFT),每个数据集包含800个正确响应: * (\mathcal{D}{\text{ug}}):无引导响应 ((c=\emptyset)),高 (\mathbb{E}[E(y)]),(\mathbb{E}[L(y)] \approx 12\text{k}) 标记。 * (\mathcal{D}{\text{sg}}):解引导响应 ((c=s)),低 (\mathbb{E}[E(y)]),(\mathbb{E}[L(y)] \approx 2\text{k}) 标记。 两个数据集均由完全正确的轨迹组成。关键区别在于训练信号的认知密度。我们在多个数学基准上评估了得到的检查点(每个数据集的示例见附录H.1 (https://arxiv.org/html/2603.24472#A8.SS1))。 表2:基础模型 DeepSeek-R1-Distill-Qwen-7B 及其在无引导和解引导数据集上的SFT检查点在数学基准上的性能。 | DeepSeek-R1-Distill-Qwen-7B | AIME24 | AIME25 | AMC23 | MATH500 | | :— | :— | :— | :— | :— | | 基础 | 54.79 | 37.92 | 89.06 | 92.19 | | 在 (\mathcal{D}{\text{ug}}) 上SFT | 51.04 | 40.00 | 87.66 | 90.93 | | \rowcolor{c-pink-light} 在 (\mathcal{D}{\text{sg}}) 上SFT | 20.21 | 12.71 | 57.03 | 65.52 |

如表2 (https://arxiv.org/html/2603.24472#S4.T2) 所示,尽管 (\mathcal{D}{\text{sg}}) 由正确答案组成,但在此数据集上训练却导致所有基准上的性能大幅下降;而在 (\mathcal{D}{\text{ug}}) 上训练则未产生显著的性能变化。这种不对称性是因为解引导响应之所以简洁,正是由于外部上下文 (s) 的存在。将它们作为SFT目标,迫使模型模仿一种在推理时无法获得的信息预设下的推理风格,从而有效地抑制了支持自主探索和错误修正的认知标记。 要点2:认知抑制与推理性能 即使在正确的轨迹上训练,过度抑制认知表达也会显著降低推理性能。 ## 5 在策略自我蒸馏 我们现在转向在策略自我蒸馏 (SDPO; zhao2026self; opcd),其中模型从由自教师(能访问正确答案)基于其自身响应提供的密集奖励信号中学习。我们在 DAPO-Math-17k 数据集 (dapo) 上比较 GRPO 和通过自我蒸馏进行强化学习(SDPO),使用 Qwen3-8B (qwen3) 和 DeepSeek-R1-Distill-Qwen-7B (deepseek-r1)。Qwen3-1.7B 和 Olmo-3-7B-Instruct (olmo) 的额外结果见附录F.3 (https://arxiv.org/html/2603.24472#A6.SS3)。对每个模型,我们跟踪训练得分、响应长度以及 AIME24 和 AMC23 上的 OOD 性能。我们固定教师为初始策略,这比移动目标表现更好(比较见第5.4节 (https://arxiv.org/html/2603.24472#S5.SS4))。 在策略自我蒸馏的行为取决于两个因素:(i) 基础模型中已存在的认知表达程度,和 (ii) 条件上下文 (c) 的丰富度。为了解耦这些因素,我们在两种设置下比较 GRPO 和 SDPO:(c=s) (完整解) 和 (c=s_{\setminus \text{think}}) (去掉内容的解)。 ### 5.1 DeepSeek-R1-Distill-Qwen-7B 参考标题a训练得分-长度比较 参考标题b AMC23 得分与响应长度 参考标题c AIME24 得分与响应长度 参考标题d AIME24 上认知标记使用的变化 图3:DeepSeek-R1-Distill-Qwen-7B 的在策略自我蒸馏结果。GRPO 带来了适度的 OOD 提升,并轻微增加了认知表达;而 SDPO 则降低了性能和认知标记的使用,尤其是在 (c=s) 的情况下。 DeepSeek-R1-Distill-Qwen-7B 是一个典型的高推理模型,在标记内生成丰富的认知表达,平均每个响应约180个认知标记,如第3节 (https://arxiv.org/html/2603.24472#S3) 所示,导致冗长但高性能的推理输出。 #### 训练性能 如图3a所示,GRPO 训练略微增加了 (\mathbb{E}[L(y)]),得分适度提升。相反,(c=s) 下的 SDPO 导致 (\mathbb{E}[L(y)]) 和得分均急剧下降。性能逐渐恢复,但整个训练过程中始终低于 GRPO。当条件减少到 (c=s_{\setminus \text{think}}) 时,(\mathbb{E}[L(y)]) 的下降得到缓解,得分轨迹接近 GRPO,这与第3节中讨论的 (I(y^*; c \mid x)) 与认知抑制之间的关系一致。 #### OOD 评估 - AIME24, AMC23 与训练趋势一致,GRPO 在两个 OOD 基准上均带来适度提升(AIME24: 54.7 → 56.0; AMC23: 89.3 → 91.1,见图3b 和 3c),(\mathbb{E}[L(y)]) 略有增加。(c=s) 下的 SDPO 导致性能大幅下降(AIME24 上约 (40%),AMC23 上约 (15%))。将条件减少到 (c=s_{\setminus \text{think}}) 缓解了下降,但性能仍低于基础模型。 #### 推理模式 图3d 展示了训练后模型的认知标记计数。GRPO 增加了 (\mathbb{E}[E(y)]),而 SDPO 则更积极地抑制它,一

相似文章

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Hugging Face Daily Papers

提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。

用于LLM推理的自适应教师暴露自蒸馏方法

Hugging Face Daily Papers

自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。