重新思考温度在大语言模型蒸馏中的作用
摘要
本文重新审视了温度在大语言模型蒸馏中的作用,揭示出温度不对称地更有利于正向KL散度而非反向KL,使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。
arXiv:2606.00306v1 公告类型:新发布
摘要:反向Kullback-Leibler(RKL)散度在大语言模型(LLM)蒸馏中通常比正向KL(FKL)更受青睐,然而这种偏好很大程度上基于忽略了温度 $\tau$ 的比较,忽视了它在软化教师分布和改善知识迁移中的核心作用。在这项工作中,我们重新审视了LLM蒸馏中的温度,并表明它从根本上改变了FKL与RKL之间的比较。我们的分析揭示了一种不对称效应:温度显著丰富了FKL中的非主导令牌信号,而它主要重新缩放RKL的梯度,导致FKL从 $\tau$ 缩放中获益远多于RKL。这种不对称性颠覆了标准的实证结论:尽管在 $\tau=1$ 时RKL优于FKL,但在较高温度下,FKL在指令遵循基准测试中持续超越RKL。此外,温度的影响不仅限于FKL;它改进了更广泛的蒸馏目标族,使得简单的基于KL的方法能够与近期最先进的LLM蒸馏方法竞争性能。
查看缓存全文
缓存时间: 2026/06/02 15:40
# 重新思考大语言模型蒸馏中温度的作用
来源:https://arxiv.org/html/2606.00306
Hoang\-Chau Luong Lingwei Chen 戈利萨诺计算与信息科学学院 罗彻斯特理工学院 美国纽约州罗彻斯特 cl6300@rit\.edu, lwcics@rit\.edu
###### 摘要
反向 Kullback–Leibler \(RKL\) 散度在大语言模型 \(LLM\) 蒸馏中比前向 KL \(FKL\) 更受欢迎,然而这一偏好主要基于忽略了温度τ\\tau 的比较,从而忽视了它在软化教师分布和改善知识迁移中的核心作用。在本工作中,我们重新审视了 LLM 蒸馏中的温度,并表明它从根本上改变了 FKL 与 RKL 之间的比较。我们的分析揭示了一种非对称效应:温度显著丰富了 FKL 的非主导 token 信号,而主要对 RKL 梯度进行重缩放,导致 FKL 从 τ\\tau 缩放中受益远大于 RKL。这种非对称性推翻了标准的经验结论:尽管在 τ=1\\tau=1 时 RKL 优于 FKL,但在更高的温度下,FKL 在指令跟随基准测试中持续超越 RKL。此外,温度的影响并不限于 FKL;它改进了更广泛的蒸馏目标族,使简单的基于 KL 的方法能够与近期最先进的 LLM 蒸馏方法取得竞争性表现。
重新思考大语言模型蒸馏中温度的作用
Hoang\-Chau Luong Lingwei Chen
戈利萨诺计算与信息科学学院
罗彻斯特理工学院
美国纽约州罗彻斯特
cl6300@rit\.edu, lwcics@rit\.edu
## 1 引言
知识蒸馏 \(KD\) \(Hinton 等人,2015 (https://arxiv.org/html/2606.00306#bib.bib9)\) 是一种广泛使用的模型压缩范式,它将知识从大型教师模型迁移到较小的学生模型 \(Romero 等人,2015 (https://arxiv.org/html/2606.00306#bib.bib48); Cho 和 Hariharan,2019 (https://arxiv.org/html/2606.00306#bib.bib34); Gou 等人,2021 (https://arxiv.org/html/2606.00306#bib.bib49)\)。经典 KD 的核心组成部分是蒸馏温度 τ\\tau,它软化教师分布并揭示出超出顶部预测的、信息丰富的“暗知识” \(Hinton 等人,2015 (https://arxiv.org/html/2606.00306#bib.bib9); Tang 等人,2020 (https://arxiv.org/html/2606.00306#bib.bib47); Zhao 等人,2022 (https://arxiv.org/html/2606.00306#bib.bib13)\)。通过将概率质量从主导类重新分配给低概率备选类,KD 温度防止蒸馏信号坍缩到教师的顶部预测,并为学生提供更丰富的类间关系信息。
尽管温度在基于视觉的 KD 中已被广泛研究 \(Beyer 等人 (2022 (https://arxiv.org/html/2606.00306#bib.bib50)); Li 等人 (2023 (https://arxiv.org/html/2606.00306#bib.bib39)); Sun 等人 (2024 (https://arxiv.org/html/2606.00306#bib.bib37), 2025 (https://arxiv.org/html/2606.00306#bib.bib51)),但在 LLM 蒸馏中却常常被忽略。早期的面向语言任务的序列级 KD 工作 \(Kim 和 Rush,2016 (https://arxiv.org/html/2606.00306#bib.bib4)\) 报告称 τ=1\\tau=1 取得了最佳经验表现,因此采用了默认的 softmax 分布,而没有进一步分析温度的作用。后续的 LLM 蒸馏方法同样在默认的 τ=1\\tau=1 设置下制定和评估其蒸馏框架 \(Gu 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib8); Agarwal 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib7); Ko 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib17); Wang 等人,2025 (https://arxiv.org/html/2606.00306#bib.bib18); Song 和 Zheng,2026 (https://arxiv.org/html/2606.00306#bib.bib42)\),实际上将温度从基于 KL 的蒸馏目标设计空间中移除了。
这一惯例直接影响近期工作中如何比较前向 KL \(FKL\) 和反向 KL \(RKL\) 目标,其中普遍报道的 RKL 优越性主要是通过在 τ=1\\tau=1 下进行的评估建立起来的 \(Gu 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib8); Ko 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib17); Wu 等人,2025 (https://arxiv.org/html/2606.00306#bib.bib1)\)。与 RKL 不同,其优化由学生分布加权,而 FKL 直接使用教师概率对每个样本损失进行加权。因此,低熵的教师软目标抑制了 FKL 所依赖的非目标概率质量,使得 FKL 表现不佳并非由于目标本身的内在局限性,而是因为它在未充分软化的教师分布下被评估。这引出了一个重要问题:*RKL 在 LLM 蒸馏中是否本质上更优,还是 FKL 被系统性地低估了?*
### 1\.1 相关工作
KD 中的温度。给定教师 logits ztz^\{t\} 和学生 logits zsz^\{s\},温度缩放分布定义为
pτ=softmax\(zt/τ\),qτ=softmax\(zs/τ\),p^\{\\tau\}=\\mathrm\{softmax\}\(z^\{t\}/\\tau\),\\ q^\{\\tau\}=\\mathrm\{softmax\}\(z^\{s\}/\\tau\),\(1\)其中 τ≥1\\tau\\geq 1。增大 τ\\tau 通过减少主导 token 上的概率质量并放大低概率备选 token,从而使分布变得平滑。这种平滑化已广泛应用于基于视觉的蒸馏 \(Hinton 等人,2015 (https://arxiv.org/html/2606.00306#bib.bib9); Zhao 等人,2022 (https://arxiv.org/html/2606.00306#bib.bib13); Li 等人,2023 (https://arxiv.org/html/2606.00306#bib.bib39); Jin 等人,2023 (https://arxiv.org/html/2606.00306#bib.bib36); Sun 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib37); Cui 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib25); Wei 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib24)\),以及早期的 NLP 蒸馏方法如 Seq\-KD \(Kim 和 Rush,2016 (https://arxiv.org/html/2606.00306#bib.bib4)\)、DistilBERT \(Sanh 等人,2020 (https://arxiv.org/html/2606.00306#bib.bib40)\) 和 TinyBERT \(Jiao 等人,2020 (https://arxiv.org/html/2606.00306#bib.bib41)\)。然而,在 LLM 蒸馏中,大多数方法省略了 KD 温度,并在 τ=1\\tau=1 下评估目标 \(Gu 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib8); Ko 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib17); Wu 等人,2025 (https://arxiv.org/html/2606.00306#bib.bib1); Song 和 Zheng,2026 (https://arxiv.org/html/2606.00306#bib.bib42)\)。尽管近期工作重新审视了 FKL 的温度 \(Song 和 Zheng,2026 (https://arxiv.org/html/2606.00306#bib.bib42)\) 或提出了自适应温度策略 \(Xie 等人,2026 (https://arxiv.org/html/2606.00306#bib.bib44); Luong 等人,2026b (https://arxiv.org/html/2606.00306#bib.bib52)\),但其对 FKL 和 RKL 的目标依赖性影响仍鲜为人知。
LLM 蒸馏中的 KL 目标。FKL 和 RKL 是两种标准的分布匹配目标。FKL 最小化 DKL\(pτ∥qτ\)D\_\{\\mathrm\{KL\}\}\(p^\{\\tau\}\\\|q^\{\\tau\}\),鼓励学生覆盖教师分布,而 RKL 最小化 DKL\(qτ∥pτ\)D\_\{\\mathrm\{KL\}\}\(q^\{\\tau\}\\\|p^\{\\tau\}\),与模式寻找行为相关。近期 LLM 蒸馏方法因 RKL 强大的经验表现而偏爱它 \(Gu 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib8); Ko 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib17)\),从而产生了诸如 AKL \(Wu 等人,2025 (https://arxiv.org/html/2606.00306#bib.bib1)\)、AB\-KD \(Wang 等人,2025 (https://arxiv.org/html/2606.00306#bib.bib18)\)、SFKL/SRKL \(Ko 等人,2024 (https://arxiv.org/html/2606.00306#bib.bib17)\) 和 DRKL \(Luong 等人,2026a (https://arxiv.org/html/2606.00306#bib.bib45)\) 等变体。然而,这些比较通常是在 τ=1\\tau=1 设置下进行的,导致温度与 KL 目标设计之间的相互作用仍未得到充分探索。
### 1\.2 贡献
我们重新审视了温度在 LLM 蒸馏中的作用,并解决了三个关键问题:
RQ1:温度如何区分 FKL 与 RKL?我们从理论上表明,在高温机制下,FKL 和 RKL 都收敛到相同的 logit 匹配行为。在实际温度下,KD 温度重塑了教师软目标,并丰富了 FKL 的非目标知识迁移,而主要对 RKL 梯度进行重缩放。因此,KD 温度改变了 FKL *学习什么*,但主要改变了 RKL *如何学习*。
RQ2:FKL 何时优于 RKL?我们证明 FKL–RKL 的比较高度依赖于温度。尽管 RKL 在 τ=1\\tau=1 时通常表现更好,但 FKL 从软化的教师目标中获益显著更多,并在更高的 KD 温度下持续超越 RKL。这一发现挑战了 RKL 在 LLM 蒸馏中本质上更优的普遍观点。
RQ3:温度是否能广泛改善基于 KL 的蒸馏目标?我们进一步表明,KD 温度不仅改善了 FKL,还改善了更广泛的基于 KL 的目标族,包括 Sym\-KL、JS、SFKL 和 AKL。通过适当的 KD 温度,这些简单的目标取得了与现有 LLM 蒸馏方法竞争性的表现。这表明 KD 温度不仅仅是对 FKL 的修正,而是一个通用且依赖目标的因素,用于设计和公平比较 LLM 蒸馏方法。
参见图注 \(a\) GPT\-2 XL→\\to GPT\-2 Base
参见图注 \(b\) GPT\-2 XL→\\to GPT\-2 Medium
参见图注 \(c\) OPT 6\.7B→\\to OPT 1\.3B
图 1:温度对不同模型规模下 FKL 和 RKL 的影响。温度持续改善 FKL,同时为 RKL 带来有限的益处,导致在更高温度下它们的表现发生逆转。
## 2 温度如何区分 FKL 与 RKL?
本节从理论上分析了 FKL 和 RKL 在 KD 温度下的行为,表明这两个目标在高温机制下等价,但在低温下显著分化,从而解释了为什么 FKL 能在 LLM 蒸馏中优于 RKL。
令 zt,zs∈RVz^\{t\},z^\{s\}\\in\\mathbb\{R\}^\{V\} 表示词汇表大小 VV 上的教师和学生 logits。温度缩放的教师分布和学生分布,分别记为 pτp^\{\\tau\} 和 qτq^\{\\tau\},定义于方程 (1 (https://arxiv.org/html/2606.00306#S1.E1))。我们研究 LFKL=DKL\(pτ∥qτ\)=∑i=1Vpiτlog\(piτ/qiτ\)\\mathcal\{L\}\_\{\\mathrm\{FKL\}\}=D\_\{\\mathrm\{KL\}\}\(p^\{\\tau\}\\\|q^\{\\tau\}\)=\\sum\_\{i=1\}^\{V\}p\_\{i\}^\{\\tau\}\\log\(p\_\{i\}^\{\\tau\}/q\_\{i\}^\{\\tau\}\) 和 LRKL=DKL\(qτ∥pτ\)\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=D\_\{\\mathrm\{KL\}\}\(q^\{\\tau\}\\\|p^\{\\tau\}\)。它们关于学生 logit zisz\_\{i\}^\{s\} 的梯度为
∇zisLFKL\\displaystyle\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{FKL\}\}=1τ\(qiτ−piτ\),\\displaystyle=\\frac\{1\}\{\\tau\}\(q\_\{i\}^\{\\tau\}\-p\_\{i\}^\{\\tau\}\),\(2\)∇zisLRKL\\displaystyle\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=1τqiτ\(logqiτpiτ−LRKL\)。\\displaystyle=\\frac\{1\}\{\\tau\}q\_\{i\}^\{\\tau\}\\left\(\\log\\frac\{q\_\{i\}^\{\\tau\}\}\{p\_\{i\}^\{\\tau\}\}\-\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}\\right\)。\(3\)
###### 命题 2\.1。
假设教师和学生的 logits 是居中的,即 ∑izit=∑izis=0\\sum\_\{i\}z\_\{i\}^\{t\}=\\sum\_\{i\}z\_\{i\}^\{s\}=0。当 τ→∞\\tau\\to\\infty 时,FKL 和 RKL 梯度满足
∇zisLFKL=∇zisLRKL=1Vτ2\(zis−zit\)+O\(τ−3\)。\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{FKL\}\}=\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=\\frac\{1\}\{V\\tau^\{2\}\}\(z\_\{i\}^\{s\}\-z\_\{i\}^\{t\}\)+O\(\\tau^\{\-3\}\)。
高温机制:FKL 和 RKL 变为 logit 匹配。近期研究 \(Wu 等人,2025 (https://arxiv.org/html/2606.00306#bib.bib1); Luong 等人,2026a (https://arxiv.org/html/2606.00306#bib.bib45)\) 表明,在理想化假设下,例如足够的学生容量和精确的全局优化,FKL 和 RKL 会达到相同解。命题 2\.1 (https://arxiv.org/html/2606.00306#S2.Thmtheorem1)(证明见附录 B (https://arxiv.org/html/2606.00306#A2))表明,仅凭温度就足以恢复这种等价性:当 τ→∞\\tau\\to\\infty 时,两个目标共享相同的梯度并简化为师生 logit 匹配。因此,FKL 和 RKL 的实际区别必然来自它们的低温机制。
低温机制:温度将 FKL 与 RKL 分开。在实际温度下,FKL 直接将学生分布与软化的教师分布匹配,而 RKL 仍然通过学生加权的师生 logit 差距进行操作。对于 FKL,pτp^\{\\tau\} 作为概率目标,改变 τ\\tau 会改变监督本身:∂piτ∂τ=piττ2\(Ej∼pτ\[zjt\]−zit\)。\\frac\{\\partial p\_\{i\}^\{\\tau\}\}\{\\partial\\tau\}=\\frac\{p\_\{i\}^\{\\tau\}\}\{\\tau^\{2\}\}\(\\mathbb\{E\}\_\{j\\sim p^\{\\tau\}\}\[z\_\{j\}^\{t\}\]\-z\_\{i\}^\{t\}\)。增大温度会减少高 logit token 的主导地位,并将概率质量重新分配给低 logit token。结合方程 (2 (https://arxiv.org/html/2606.00306#S2.E2)),这表明温度改变了 FKL 更新的强度,以及学生被训练去匹配的教师分布。
###### 命题 2\.2。
令 Δi=zis−zit\\Delta\_\{i\}=z\_\{i\}^\{s\}\-z\_\{i\}^\{t\},RKL 梯度可以重写为
∇zisLRKL=qiττ2\(Δi−Ej∼qτ\[Δj\]\),\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=\\frac\{q\_\{i\}^\{\\tau\}\}\{\\tau^\{2\}\}\\left\(\\Delta\_\{i\}\-\\mathbb\{E\}\_\{j\\sim q^\{\\tau\}\}\[\\Delta\_\{j\}\]\\right\),\(4\)
对于 RKL,温度扮演了不同的角色。命题 2\.2 (https://arxiv.org/html/2606.00306#S2.Thmtheorem2)(证明见附录 C (https://arxiv.org/html/2606.00306#A3))表明,RKL 梯度由师生 logit 差距驱动,而不是像 FKL 那样直接匹配学生与软化教师分布的概率。因此,温度主要通过用 1/τ21/\\tau^\{2\} 重缩放梯度以及平滑学生侧权重 qiτq\_\{i\}^\{\\tau\} 来调节 RKL 的优化。
洞察。温度改变了 FKL *学习什么*,但主要改变了 RKL *如何学习*。在低温机制下,FKL 从软化的教师分布中获得更丰富的非目标监督,而 RKL 获得梯度重缩放。
## 3 FKL 何时优于 RKL?
我们的分析引出了一个自然的问题:*温度能否改变哪个 KL 目标更好?*我们在五个指令遵循基准测试上对这个问题进行了实证回答,包括 Dolly Eval、Self\-Instruct \(Wang 等人,2023 (https://arxiv.org/html/2606.00306#bib.bib27)\)、Vicuna Eval \(Chiang 等人,2023 (https://arxiv.org/html/2606.00306#bib.bib28)\)、Super\-Natural Instructions \(Super\-NI\) \(Wang 等人,2022 (https://arxiv.org/html/2606.00306#bib.bib29)\) 和 Unnatural Instructions \(UnNI\) \(Honovich 等人,2023 (https://arxiv.org/html/2606.00306#bib.bib30)\),使用了 GPT\-2 \(Radford 等人,2019 (https://arxiv.org/html/2606.00306#bib.bib14)\) 和 OPT 模型 \(Zhang 等人,2022 (https://arxiv.org/html/2606.00306#bib.bib19)\),实现细节见附录 A (https://arxiv.org/html/2606.00306#A1)。图 1 (https://arxiv.org/html/2606.00306#S1.F1) 展示了五个数据集上的平均 ROUGE\-L 比较,并揭示了明显的逆转。在 τ=1\\tau=1 下,RKL 优于 FKL,这与先前的 LLM 蒸馏结果一致。然而,一旦引入温度,FKL 就持续超越 RKL,表明其在 τ=1\\tau=1 下的明显弱点源于缺乏对软化的非目标教师信号的访问。我们特别得出以下见解。
温度使 FKL 从弱变为优于 RKL。增大温度会软化分布,暴露更丰富的教师信息,并带来显著的增益。对于 GPT\-2 B相似文章
大语言模型预训练中隐藏层蒸馏的研究
本文探讨了大语言模型预训练中的隐藏层蒸馏(HLD),并基于 Gemma3 将其与标准的基于 logits 的知识蒸馏进行了比较。研究发现,尽管 HLD 在下游任务中并未始终优于标准方法,但能带来系统的困惑度降低,这表明在预训练期间提取潜在信号方面具有改进潜力。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
基于熵-KL散度的令牌掩码:一种用于大型语言模型选择性微调的新方法
提出了 EKSFT,一种面向大型语言模型的选择性微调方法,该方法掩码具有高熵或与参考模型高KL散度的令牌,在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明,它优于标准SFT,并改进了后续的RL微调。
知识蒸馏中一致性信息丰富的软标签温度
提出CIST方法,在知识蒸馏中为教师和学生分配独立的样本自适应温度,生成一致性信息丰富的软标签,并放宽严格的logit尺度匹配。在视觉和语言任务上的实验表明,相比标准KD具有一致的改进。