LLM蒸馏中的桥-园困境:混合硬标签与软标签为何有效

arXiv cs.LG 论文

摘要

本文提出了桥-园分解理论,用以解释LLM蒸馏中混合硬标签与软标签为何能减少暴露偏差,并开发了混合监督方法,在降低9.7倍训练成本的同时,优于现有基线。

arXiv:2605.26246v1 Announce Type: new 摘要:知识蒸馏(KD)将知识从大型教师模型迁移到较小的学生模型。在语言建模中,学生模型可以基于从教师模型中采样的令牌(硬标签)或教师模型的完整下一个令牌分布(软标签)进行训练。尽管软标签看似更丰富,但我们发现混合硬标签与软标签始终能取得更好的结果。关键的是,我们证明这种增益不能归因于训练过程中与教师模型更紧密的匹配,而是来自于减少暴露偏差,即训练分布与推理分布之间的不匹配。为了解释这一现象,我们引入了桥-园分解理论,该理论将生成步骤分为两类:桥(Bridge),其中下一个令牌必须精确;园(Garden),其中下一个令牌可以灵活选择。我们表明,纯硬标签KD在桥中通过避免风险偏差而表现出色,而纯软标签KD在园中保留了多样性。混合策略同时处理这两种情况,从而减少了整个序列中的暴露偏差。在此理论指导下,我们开发了一系列桥-园混合监督方法,能够自适应地平衡硬标签和软标签。在包含七组师生对(包括Qwen、Llama、Gemma和DeepSeek)以及推理和编码基准测试的主要实验套件中,我们的方法优于基于散度和基于策略的KD基线,同时将训练成本降低了9.7倍,实现了高效的模型压缩。代码可访问 https://github.com/ghwang-s/bridge_garden_hybrid_kd_release。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:06

# 大语言模型蒸馏中的桥园困境:混合硬标签与软标签为何有效

**来源:** https://arxiv.org/html/2605.26246  
**作者:** Kaiwen Lv, Zhiyong Yang, Zitai Wang, Jin-Wen Wu, Longtao Huang, Qianqian Xu, Qingming Huang

###### 摘要

知识蒸馏(KD)将大教师模型的知识迁移至较小的学生模型。在语言建模中,学生模型要么基于教师模型采样的token(硬标签)进行训练,要么基于教师模型的完整下一个token分布(软标签)进行训练。尽管软标签在信息上显然更丰富,但我们发现混合硬标签与软标签始终能获得更好的结果。关键在于,我们证明这一提升无法用训练期间更接近教师模型来解释。相反,它源于暴露偏差的减少——即训练分布与推理分布之间的不匹配。为解释这一现象,我们引入了桥园分解理论,将生成步骤分为两类:**桥**(必须精确匹配下一个token)和**园**(下一个token可以灵活选择)。我们证明纯硬标签蒸馏在桥区域中表现出色,因为它避免了高风险偏差;而纯软标签蒸馏在园区域中保留了多样性。混合策略能同时处理这两种情况,从而减少整个序列中的暴露偏差。基于这一理论,我们开发了一系列桥园混合监督方法,能够自适应地平衡硬标签与软标签。在包含七组师生模型对(包括Qwen、Llama、Gemma和DeepSeek)的主要实验套件以及推理和编程基准测试中,我们的方法优于基于散度的蒸馏基线和在策略蒸馏基线,同时将训练成本降低了9.7倍,实现了高效的模型压缩。代码已开源:https://github.com/ghwang-s/bridge_garden_hybrid_kd_release。

**关键词:** 知识蒸馏,暴露偏差,语言模型

### 1 引言

大型语言模型(LLM,Achiam 等,2023;Grattafiori 等,2024;Guo 等,2025;Yang 等,2025)的最新进展主要得益于模型规模的扩大(Hoffmann 等,2022),但这导致了部署推理成本过高。知识蒸馏(KD,Hinton 等,2015)通过将强大教师模型的能力迁移至紧凑学生模型,提供了一种缓解成本的实用方法。核心问题是如何设计蒸馏目标,使学生模型尽可能精确地匹配教师模型的生成行为。传统观点倾向于软标签蒸馏(Wen 等,2023;Gu 等,2024;Agarwal 等,2024;Xu 等,2025;Wang 等,2025b;Ko 等,2025),即训练学生模型匹配教师模型对下一个token的完整预测分布。这种方法直观上具有吸引力,因为它捕获了更丰富的信息,包括教师模型对其他token的置信度。相比之下,硬标签蒸馏(Kim 和 Rush,2016;Wang 等,2023;Taori 等,2023;Peng 等,2023;Guo 等,2025)则依赖于从教师分布中采样的单个token作为训练目标,这丢失了软标签中存在的许多分布信息。

图1:桥园困境。桥区域需要精确的token以防止错误级联,因此偏向硬标签蒸馏以抑制风险。园区域允许灵活选择,因此偏向软标签蒸馏以保留多样性。混合蒸馏平衡两者以获得更优的生成性能。

图2:Qwen2.5-7B→3B上混合蒸馏(λℓ_soft + (1-λ)ℓ_hard)与软蒸馏(ℓ_soft)的对比分析。(a)基准测试性能提升;(b)训练期间学生-教师模仿误差(前向KL量化);(c)推理时基于同度量的模仿误差分解。附录F中的实验进一步展示了硬-软悖论在不同架构、任务和蒸馏散度下的一致性。

令人惊讶的是,我们的实证研究发现了一个一致的反直觉趋势:简单线性组合硬损失和软损失始终优于纯软蒸馏(图2(a))。这就引出了一个谜题:**既然硬标签信息量更少,为什么它们还有帮助?** 乍一看,似乎使用硬标签可以使优化更容易,让学生模型在训练期间更接近教师模型。然而,我们发现性能提升并非来自更好的训练模仿。事实上,我们的实验表明添加硬标签甚至恶化了训练拟合,如图2(b)所示。相反,我们证明提升源于另一个来源:**暴露偏差的减少**。暴露偏差(Bengio 等,2015)指的是学生模型在依赖自身先前生成的token时,偏离教师生成轨迹所产生的性能差距。这种自回归分布偏移是序列级KD(Ko 等,2024;Gu 等,2024;Agarwal 等,2024)的核心挑战。我们的分析表明,添加硬标签在抑制这种偏差方面特别有效,尽管训练拟合更差,却带来了更好的最终性能(图2(c))。

为解释这一现象,我们引入了一个基于局部风险敏感性核心度量的新颖概念和理论框架。在此框架下,我们发现自回归生成过程可以分为两个不同区域:**桥**和**园**(见图1)。**桥区域**表现出**高局部风险敏感性**;这里下一个token必须**精确**,因为单个错误可能传播并破坏整个序列。相反,**园区域**表现出**低局部风险敏感性**,token选择更为灵活,多个备选都能保持语义和连贯性。在此基础上,我们推导出暴露偏差的上界,该上界分解为来自这些区域的贡献,从而揭示了**桥园困境**。我们的理论表明硬标签匹配在桥区域中表现出色,它通过将概率质量集中在教师所选token上,从而防止级联错误。相比之下,软标签匹配在园区域中表现出色,它忠实保留教师的完整分布,维护了输出的多样性。这样一来,两种纯策略都无法同时最优地处理两个区域。这一见解自然引出了基于前缀上下文选择性混合硬监督和软监督的混合蒸馏目标。

基于此分析,我们提出了一系列**桥园混合监督方法**,能够基于置信度、熵、课程和风险引导策略自适应地混合硬标签和软标签。我们在多个模型系列和规模上研究了七组师生模型对,包括Qwen(7B→3B)、Llama(8B→1B)、Gemma(4B→1B)和DeepSeek-Coder(6.7B→1.3B)。扩展评估还包括更大的Qwen2.5容量差距、额外的Qwen2.5-Coder模型对以及开放生成任务。在常识、数学和编程基准测试中,所提方法优于基于散度的基线和在策略基线,同时将训练成本降低了9.7倍,使我们的方法更适合工业应用。

### 2 预备知识

**自回归生成。** 我们考虑在词汇表 V 上的序列生成。在每个步骤 t,语言模型根据输入提示 x 和先前序列 y<t 预测下一个 token yt ∈ V。我们将前缀记为 s = (x, y<t)。教师模型 πT 和带有参数 θ 的学生模型 πθ 分别产生条件分布 πT(·|s) 和 πθ(·|s)。训练目标是让学生模型在这些步骤上匹配教师模型。

**蒸馏目标。** 标准硬标签蒸馏使用从教师分布中采样的单个 token 作为标签(Kim 和 Rush,2016):
ℓ_hard(θ) = -E_{s ∼ d_T} [log πθ(a_T(s) | s)],其中 a_T(s) ∼ πT(·|s)。 (2)

在基于似然的软标签蒸馏(Wen 等,2023)中,学生模型最小化教师与学生分布之间的差异 D:
ℓ_soft(θ) = E_{s ∼ d_T}[D(πT(·|s) ∥ πθ(·|s))]。 (3)

通常使用的散度 D 包括前向 KL 散度、反向 KL 散度、总变差距离(TV)等。为简单起见,以下我们将主要关注前向 KL 散度 D = KL_F,但我们的分析同样适用于其他散度(见附录 F 中的实验)。注意,在软蒸馏中用于计算损失的分布 d_T 是与教师模型在预测时使用的相同前缀分布。

**暴露偏差。** 暴露偏差量化了训练与推理之间的离线-在线不匹配。受文献(Ko 等,2024;Gu 等,2024)启发,我们将暴露偏差定义为在教师前缀分布 d_T 与由学生自身分布 πθ 诱导的前缀分布 d_θ 之间,使用给定散度 D 时的期望差异:

EB(πθ) := L_{d_θ}(πθ) - L_{d_T}(πθ),
其中 L_d(πθ) := E_{s ∼ d}[D(πT(·|s) ∥ πθ(·|s))]。 (4)

直观上,当训练期间使用的分布 d_T 与推理期间实际遇到的分布 d_θ 出现偏差时,暴露偏差就会出现。

[D(πT(·|s) ∥ πθ(·|s))] 的期望。暴露偏差是学生自我生成前缀分布与教师前缀分布之间差异的函数。由于教师分布 d_T 通常仅在大型训练语料库的有限提示上可用,因此 EB(πθ) 可能不是我们可以在训练期间直接优化的量。然而,我们能够为它导出一个依赖于学生模型和教师模型之间逐 token 差异的上界,这可以作为减少暴露偏差的指导。

### 3 蒸馏的硬-软悖论

教师对齐是一种普遍选择:用软标签匹配教师分布(Wen 等,2023;Gu 等,2024;Agarwal 等,2024;Xu 等,2025;Wang 等,2025b)。然而,我们观察到一种反复出现的现象:**最小化在策略硬标签的线性组合可以超越最优的软标签蒸馏。** 有趣的是,**这一现象无法用更好的训练拟合或更紧密的教师匹配来解释**,而是源于暴露偏差的关键减少。

我们使用前向 KL 散度在 Qwen2.5-7B 上蒸馏 Qwen2.5-3B,并研究了混合蒸馏 ℓ_mix = λℓ_soft + (1-λ)ℓ_hard。图 2 展示了三个关键发现:

- **(a) 反直觉的硬-软悖论**。随着混合比例 λ 从 0 增加到 1,性能在 ℓ_mix 附近达到峰值,而纯 ℓ_soft(λ=1)表现更差。
- **(b) 缺少训练拟合证据**。在训练期间,混合损失并未表现出更低的蒸馏损失——实际上它更高。这表明性能提升并非来自更好的训练拟合。
- **(c) 更低的暴露偏差**。但在推理期间,混合策略表现出更低的暴露偏差(EB)。实际上,暴露偏差与性能高度相关。这一悖论广泛存在(见附录 F 中的更多结果)。

立即有一个清楚的认识:硬标签对性能的帮助不是通过诱导更紧密的教师匹配,而是通过改变学生模型在自身生成过程中的行为。暴露偏差的减少揭示了这一差距的来源。

### 4 桥园分解理论

#### 4.1 概述:桥与园

受图 1 启发的分解:我们提出将生成步骤根据下一个 token 选择的风险分为两类:

- **桥**:这些步骤需要精确的 token 选择。一个错误会破坏整个序列。典型例子是结构化格式(例如,代码中的括号、if 语句的关键字、模板文档中的标记)或在数学推理中对关键实体的引用。
- **园**:这些步骤允许多种可行的选择。多个不同的 token 可以产生一致且连贯的文本。例如,在自由形式叙述中选择形容词或对前一从句的合理延续。

这一区分揭示了硬标签和软标签的优势互补性:

- **硬标签蒸馏**在**桥区域**中表现出色,它将概率质量集中在教师选择的确切 token 上,有效地抑制了可能导致级联错误的风险。
- **软标签蒸馏**在**园区域**中表现出色,它保留了教师分布的多样性,允许学生模型做出灵活选择。

因此,纯粹的硬或软策略都无法同时应对这两种情况——这就产生了必须用混合方法解决的**桥园困境**。

#### 4.2 局部风险敏感性

我们首先引入局部风险敏感性 κ(a|s) 的概念,该概念衡量在前缀 s 处强制选择 token a 而非跟随教师模型所导致的额外暴露偏差。设 d_T 是教师前缀分布。令 ∆πθ(a|s) := πθ(a|s) − πT(a|s)。

**定理 4.2(暴露偏差的局部敏感性界限)**。假设对于给定的散度 D,常数 C_1, C_2 > 0 存在,使得对于学生模型 πθ 和教师模型 πT,有 |D(πT(·|s) ∥ πθ(·|s)) − D(πT(·|s) ∥ πT(·|s))| ≤ C_1|πθ(·|s) − πT(·|s)| 且 D(πT(·|s) ∥ πθ(·|s)) ≤ C_2∥πθ(·|s) − πT(·|s)∥_1^2。那么暴露偏差由以下界限控制:
EB(πθ) ≤ F(πθ) := E_{s ∼ d_T}[F(s, πθ)],
其中 F(s, πθ) := ∑_a κ(a|s) · |∆πθ(a|s)| + C_2 ∥∆πθ(·|s)∥_1^2 这里的 κ(a|s) 定义了局部风险敏感性。

定理 4.2 的证明见附录 B。为了解释 κ(a|s),我们首先引入**单覆盖策略**的概念。

**定义 4.1(单覆盖策略)**。固定前缀 s ∈ S 和 token a ∈ V。定义覆盖策略 π^{(s,a)} 如下:
π^{(s,a)}(·|s') := { δ_a(·), 若 s' = s; πT(·|s'), 若 s' ≠ s },
其中 δ_a 是集中在 a 上的狄拉克分布。令 d^{(s,a)} ≔ d_{π^{(s,a)}} 为 π^{(s,a)} 诱导的前缀分布。

**定义 4.2(局部风险敏感性)**。对于访问概率 d_T(s) > 0 的前缀 s,敏感性 κ(a|s) 衡量在 s 处选择 a 而非跟随教师模型所导致的每次访问额外损失:
κ(a|s) := EB(π^{(s,a)}) / d_T(s) = (L_{d^{(s,a)}}(πθ) − L_{d_T}(πθ)) / d_T(s),
其中 L_d(πθ) ≔ E_{s' ∼ d}[D(πT(·|s') ∥ πθ(·|s'))]。

在上述界限中,局部偏差 (s,a) 的贡献是乘积 κ(a|s)|∆πθ(a|s)|。这里 |∆πθ(a|s)| 衡量学生对 token a 在给定 s 下与教师的概率差异,而 κ(a|s) 对该差异在界限中进行加权。覆盖策略 π^{(s,a)} 充当教师模型的基于前缀条件的 token 干预:在前缀 s 处,它以概率 1 输出 token a,而在其他地方则跟随教师。差值 L_{d^{(s,a)}}(πθ) − L_{d_T}(πθ) 正是由于在 s 处将当前 token 改为 a 所导致的损失增加。κ(a|s) 通过折扣访问概率 d_T(s) 来量化这一增加。因此,小的 κ(a|s) 意味着在 s 处偏离到 a 对暴露偏差影响极小;大的 κ(a|s) 则表明这一单 token 变化可能强烈影响偏差。

有趣的是,这一构造与经典的算法稳定性理论(Bousquet 和 Elisseeff,2002)一致,该理论衡量单个训练样本被扰动时损失如何变化。这里的“样本”是前缀 s,扰动是在生成过程中每当到达 s 时强制使用 token a。κ(a|s) 的值量化了损失对这一 token 级变化的敏感性。由于 κ 是用当前学生策略评估的,它的值可以在训练期间随着学生分布的变化而变化。

到目前为止,我们分析了单个步骤中一次偏差的影响。但当我们考虑该步骤中所有可能的偏差时,会发生什么?

#### 4.3 暴露偏差的桥园界限

为了捕获给定步骤 s 对**所有可能 token 偏差**的敏感性,我们通过对词汇表求和来聚合局部敏感性:
κ(s) := ∑_{a ∈ V} κ(a|s)。
该指标总结了步骤 s 处的 token 级风险。当 κ(s) 大时,许多 token 具有大的 κ(a|s);将教师 token 改为这些 token 之一会显著增加损失。当 κ(s) 小时,大多数 κ(a|s) 很小,因此在 s 处对大多数 token 的偏差影响轻微。相应地,高敏感性和低敏感性区域自然地对应于前面介绍的桥和园的概念(第 4.1 节)。

**定义 4.3(桥园划分)**。给定任务和模型相关的阈值 τ,将前缀空间 S 划分为:
**桥:** B := {s ∈ S : κ(s) > τ},
**园:** G := {s ∈ S : κ(s) ≤ τ}。

这一划分为分析定理 4.2 的界限提供了结构化视角,如下形式化所述(证明见附录 C)。

**命题 4.1(暴露偏差的桥园上界)**。使用定义 4.3 的划分,定理 4.2 的界限分解如下:
F(πθ) := F_B(πθ) + F_G(πθ),
其中 F_X(πθ) := E_{s ∼ d_T}[1_X(s) F(s, πθ)],X ∈ {B, G},而 F(s, πθ) 定义在定理 4.2 中。

该分解揭示了学生模型应从教师模型学习的非对称性:在**桥**区域 B 中,只有少数 token 是安全的;大多数替代 token 带有高风险。因此 F_B 主要由在具有大 κ(a|s) 的 token 上的偏差主导。为最小化 F_B,学生模型必须避免这些高风险 token,并将概率集中在教师支持的少数安全选项上。在**园**区域 G 中,许多下一个 token 选择是可接受的,且它们的 κ(a|s) 一致很小。由于没有单个偏差会引起大的惩罚,界限表现得像标准的分布匹配距离。最小化 F_G 鼓励学生模型匹配教师模型的宽分布,保留园中固有的多样性。

#### 4.4 混合改进的机制

注:硬标签蒸馏和软标签蒸馏分别指公式 (3) 和公式 (2)。混合蒸馏定义在观察 3.1 中。

相似文章

面向Lean定理证明的LLM反馈蒸馏

arXiv cs.AI

提出反馈蒸馏(Feedback Distillation),一种利用来自LLM的token级监督来改进复杂推理的训练方法,在Lean 4定理证明上进行了评估。该方法比GRPO更好地保持了多样性,且两种方法互补。

黑盒LLM蒸馏的有界行为不可区分性

arXiv cs.LG

本文提出有界行为不可区分性,一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明,蒸馏降低了但并未消除对抗性可区分性,凸显了类别感知评估的必要性。