重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG 2026/06/02 04:00 论文

摘要

本文重新审视了温度在大语言模型蒸馏中的作用，揭示出温度不对称地更有利于正向KL散度而非反向KL，使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

arXiv:2606.00306v1 公告类型：新发布摘要：反向Kullback-Leibler（RKL）散度在大语言模型（LLM）蒸馏中通常比正向KL（FKL）更受青睐，然而这种偏好很大程度上基于忽略了温度 $\tau$ 的比较，忽视了它在软化教师分布和改善知识迁移中的核心作用。在这项工作中，我们重新审视了LLM蒸馏中的温度，并表明它从根本上改变了FKL与RKL之间的比较。我们的分析揭示了一种不对称效应：温度显著丰富了FKL中的非主导令牌信号，而它主要重新缩放RKL的梯度，导致FKL从 $\tau$ 缩放中获益远多于RKL。这种不对称性颠覆了标准的实证结论：尽管在 $\tau=1$ 时RKL优于FKL，但在较高温度下，FKL在指令遵循基准测试中持续超越RKL。此外，温度的影响不仅限于FKL；它改进了更广泛的蒸馏目标族，使得简单的基于KL的方法能够与近期最先进的LLM蒸馏方法竞争性能。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:40

# 重新思考大语言模型蒸馏中温度的作用

来源：https://arxiv.org/html/2606.00306
Hoang\-Chau Luong Lingwei Chen 戈利萨诺计算与信息科学学院 罗彻斯特理工学院 美国纽约州罗彻斯特 cl6300@rit\.edu, lwcics@rit\.edu

###### 摘要

反向 Kullback–Leibler \(RKL\) 散度在大语言模型 \(LLM\) 蒸馏中比前向 KL \(FKL\) 更受欢迎，然而这一偏好主要基于忽略了温度τ\\tau 的比较，从而忽视了它在软化教师分布和改善知识迁移中的核心作用。在本工作中，我们重新审视了 LLM 蒸馏中的温度，并表明它从根本上改变了 FKL 与 RKL 之间的比较。我们的分析揭示了一种非对称效应：温度显著丰富了 FKL 的非主导 token 信号，而主要对 RKL 梯度进行重缩放，导致 FKL 从 τ\\tau 缩放中受益远大于 RKL。这种非对称性推翻了标准的经验结论：尽管在 τ=1\\tau=1 时 RKL 优于 FKL，但在更高的温度下，FKL 在指令跟随基准测试中持续超越 RKL。此外，温度的影响并不限于 FKL；它改进了更广泛的蒸馏目标族，使简单的基于 KL 的方法能够与近期最先进的 LLM 蒸馏方法取得竞争性表现。

重新思考大语言模型蒸馏中温度的作用

Hoang\-Chau Luong Lingwei Chen
戈利萨诺计算与信息科学学院
罗彻斯特理工学院
美国纽约州罗彻斯特
cl6300@rit\.edu, lwcics@rit\.edu

## 1 引言

知识蒸馏 \(KD\) \(Hinton 等人，2015 (https://arxiv.org/html/2606.00306#bib.bib9)\) 是一种广泛使用的模型压缩范式，它将知识从大型教师模型迁移到较小的学生模型 \(Romero 等人，2015 (https://arxiv.org/html/2606.00306#bib.bib48); Cho 和 Hariharan，2019 (https://arxiv.org/html/2606.00306#bib.bib34); Gou 等人，2021 (https://arxiv.org/html/2606.00306#bib.bib49)\)。经典 KD 的核心组成部分是蒸馏温度 τ\\tau，它软化教师分布并揭示出超出顶部预测的、信息丰富的“暗知识” \(Hinton 等人，2015 (https://arxiv.org/html/2606.00306#bib.bib9); Tang 等人，2020 (https://arxiv.org/html/2606.00306#bib.bib47); Zhao 等人，2022 (https://arxiv.org/html/2606.00306#bib.bib13)\)。通过将概率质量从主导类重新分配给低概率备选类，KD 温度防止蒸馏信号坍缩到教师的顶部预测，并为学生提供更丰富的类间关系信息。

尽管温度在基于视觉的 KD 中已被广泛研究 \(Beyer 等人 (2022 (https://arxiv.org/html/2606.00306#bib.bib50)); Li 等人 (2023 (https://arxiv.org/html/2606.00306#bib.bib39)); Sun 等人 (2024 (https://arxiv.org/html/2606.00306#bib.bib37), 2025 (https://arxiv.org/html/2606.00306#bib.bib51))，但在 LLM 蒸馏中却常常被忽略。早期的面向语言任务的序列级 KD 工作 \(Kim 和 Rush，2016 (https://arxiv.org/html/2606.00306#bib.bib4)\) 报告称 τ=1\\tau=1 取得了最佳经验表现，因此采用了默认的 softmax 分布，而没有进一步分析温度的作用。后续的 LLM 蒸馏方法同样在默认的 τ=1\\tau=1 设置下制定和评估其蒸馏框架 \(Gu 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib8); Agarwal 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib7); Ko 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib17); Wang 等人，2025 (https://arxiv.org/html/2606.00306#bib.bib18); Song 和 Zheng，2026 (https://arxiv.org/html/2606.00306#bib.bib42)\)，实际上将温度从基于 KL 的蒸馏目标设计空间中移除了。

这一惯例直接影响近期工作中如何比较前向 KL \(FKL\) 和反向 KL \(RKL\) 目标，其中普遍报道的 RKL 优越性主要是通过在 τ=1\\tau=1 下进行的评估建立起来的 \(Gu 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib8); Ko 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib17); Wu 等人，2025 (https://arxiv.org/html/2606.00306#bib.bib1)\)。与 RKL 不同，其优化由学生分布加权，而 FKL 直接使用教师概率对每个样本损失进行加权。因此，低熵的教师软目标抑制了 FKL 所依赖的非目标概率质量，使得 FKL 表现不佳并非由于目标本身的内在局限性，而是因为它在未充分软化的教师分布下被评估。这引出了一个重要问题：*RKL 在 LLM 蒸馏中是否本质上更优，还是 FKL 被系统性地低估了？*

### 1\.1 相关工作

KD 中的温度。给定教师 logits ztz^\{t\} 和学生 logits zsz^\{s\}，温度缩放分布定义为

pτ=softmax\(zt/τ\),qτ=softmax\(zs/τ\),p^\{\\tau\}=\\mathrm\{softmax\}\(z^\{t\}/\\tau\),\\ q^\{\\tau\}=\\mathrm\{softmax\}\(z^\{s\}/\\tau\),\(1\)其中 τ≥1\\tau\\geq 1。增大 τ\\tau 通过减少主导 token 上的概率质量并放大低概率备选 token，从而使分布变得平滑。这种平滑化已广泛应用于基于视觉的蒸馏 \(Hinton 等人，2015 (https://arxiv.org/html/2606.00306#bib.bib9); Zhao 等人，2022 (https://arxiv.org/html/2606.00306#bib.bib13); Li 等人，2023 (https://arxiv.org/html/2606.00306#bib.bib39); Jin 等人，2023 (https://arxiv.org/html/2606.00306#bib.bib36); Sun 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib37); Cui 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib25); Wei 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib24)\)，以及早期的 NLP 蒸馏方法如 Seq\-KD \(Kim 和 Rush，2016 (https://arxiv.org/html/2606.00306#bib.bib4)\)、DistilBERT \(Sanh 等人，2020 (https://arxiv.org/html/2606.00306#bib.bib40)\) 和 TinyBERT \(Jiao 等人，2020 (https://arxiv.org/html/2606.00306#bib.bib41)\)。然而，在 LLM 蒸馏中，大多数方法省略了 KD 温度，并在 τ=1\\tau=1 下评估目标 \(Gu 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib8); Ko 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib17); Wu 等人，2025 (https://arxiv.org/html/2606.00306#bib.bib1); Song 和 Zheng，2026 (https://arxiv.org/html/2606.00306#bib.bib42)\)。尽管近期工作重新审视了 FKL 的温度 \(Song 和 Zheng，2026 (https://arxiv.org/html/2606.00306#bib.bib42)\) 或提出了自适应温度策略 \(Xie 等人，2026 (https://arxiv.org/html/2606.00306#bib.bib44); Luong 等人，2026b (https://arxiv.org/html/2606.00306#bib.bib52)\)，但其对 FKL 和 RKL 的目标依赖性影响仍鲜为人知。

LLM 蒸馏中的 KL 目标。FKL 和 RKL 是两种标准的分布匹配目标。FKL 最小化 DKL\(pτ∥qτ\)D\_\{\\mathrm\{KL\}\}\(p^\{\\tau\}\\\|q^\{\\tau\}\)，鼓励学生覆盖教师分布，而 RKL 最小化 DKL\(qτ∥pτ\)D\_\{\\mathrm\{KL\}\}\(q^\{\\tau\}\\\|p^\{\\tau\}\)，与模式寻找行为相关。近期 LLM 蒸馏方法因 RKL 强大的经验表现而偏爱它 \(Gu 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib8); Ko 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib17)\)，从而产生了诸如 AKL \(Wu 等人，2025 (https://arxiv.org/html/2606.00306#bib.bib1)\)、AB\-KD \(Wang 等人，2025 (https://arxiv.org/html/2606.00306#bib.bib18)\)、SFKL/SRKL \(Ko 等人，2024 (https://arxiv.org/html/2606.00306#bib.bib17)\) 和 DRKL \(Luong 等人，2026a (https://arxiv.org/html/2606.00306#bib.bib45)\) 等变体。然而，这些比较通常是在 τ=1\\tau=1 设置下进行的，导致温度与 KL 目标设计之间的相互作用仍未得到充分探索。

### 1\.2 贡献

我们重新审视了温度在 LLM 蒸馏中的作用，并解决了三个关键问题：

RQ1：温度如何区分 FKL 与 RKL？我们从理论上表明，在高温机制下，FKL 和 RKL 都收敛到相同的 logit 匹配行为。在实际温度下，KD 温度重塑了教师软目标，并丰富了 FKL 的非目标知识迁移，而主要对 RKL 梯度进行重缩放。因此，KD 温度改变了 FKL *学习什么*，但主要改变了 RKL *如何学习*。

RQ2：FKL 何时优于 RKL？我们证明 FKL–RKL 的比较高度依赖于温度。尽管 RKL 在 τ=1\\tau=1 时通常表现更好，但 FKL 从软化的教师目标中获益显著更多，并在更高的 KD 温度下持续超越 RKL。这一发现挑战了 RKL 在 LLM 蒸馏中本质上更优的普遍观点。

RQ3：温度是否能广泛改善基于 KL 的蒸馏目标？我们进一步表明，KD 温度不仅改善了 FKL，还改善了更广泛的基于 KL 的目标族，包括 Sym\-KL、JS、SFKL 和 AKL。通过适当的 KD 温度，这些简单的目标取得了与现有 LLM 蒸馏方法竞争性的表现。这表明 KD 温度不仅仅是对 FKL 的修正，而是一个通用且依赖目标的因素，用于设计和公平比较 LLM 蒸馏方法。

参见图注 \(a\) GPT\-2 XL→\\to GPT\-2 Base
参见图注 \(b\) GPT\-2 XL→\\to GPT\-2 Medium
参见图注 \(c\) OPT 6\.7B→\\to OPT 1\.3B

图 1：温度对不同模型规模下 FKL 和 RKL 的影响。温度持续改善 FKL，同时为 RKL 带来有限的益处，导致在更高温度下它们的表现发生逆转。

## 2 温度如何区分 FKL 与 RKL？

本节从理论上分析了 FKL 和 RKL 在 KD 温度下的行为，表明这两个目标在高温机制下等价，但在低温下显著分化，从而解释了为什么 FKL 能在 LLM 蒸馏中优于 RKL。

令 zt,zs∈RVz^\{t\},z^\{s\}\\in\\mathbb\{R\}^\{V\} 表示词汇表大小 VV 上的教师和学生 logits。温度缩放的教师分布和学生分布，分别记为 pτp^\{\\tau\} 和 qτq^\{\\tau\}，定义于方程 (1 (https://arxiv.org/html/2606.00306#S1.E1))。我们研究 LFKL=DKL\(pτ∥qτ\)=∑i=1Vpiτlog\(piτ/qiτ\)\\mathcal\{L\}\_\{\\mathrm\{FKL\}\}=D\_\{\\mathrm\{KL\}\}\(p^\{\\tau\}\\\|q^\{\\tau\}\)=\\sum\_\{i=1\}^\{V\}p\_\{i\}^\{\\tau\}\\log\(p\_\{i\}^\{\\tau\}/q\_\{i\}^\{\\tau\}\) 和 LRKL=DKL\(qτ∥pτ\)\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=D\_\{\\mathrm\{KL\}\}\(q^\{\\tau\}\\\|p^\{\\tau\}\)。它们关于学生 logit zisz\_\{i\}^\{s\} 的梯度为

∇zisLFKL\\displaystyle\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{FKL\}\}=1τ\(qiτ−piτ\),\\displaystyle=\\frac\{1\}\{\\tau\}\(q\_\{i\}^\{\\tau\}\-p\_\{i\}^\{\\tau\}\)，\(2\)∇zisLRKL\\displaystyle\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=1τqiτ\(logqiτpiτ−LRKL\)。\\displaystyle=\\frac\{1\}\{\\tau\}q\_\{i\}^\{\\tau\}\\left\(\\log\\frac\{q\_\{i\}^\{\\tau\}\}\{p\_\{i\}^\{\\tau\}\}\-\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}\\right\)。\(3\)
###### 命题 2\.1。

假设教师和学生的 logits 是居中的，即 ∑izit=∑izis=0\\sum\_\{i\}z\_\{i\}^\{t\}=\\sum\_\{i\}z\_\{i\}^\{s\}=0。当 τ→∞\\tau\\to\\infty 时，FKL 和 RKL 梯度满足

∇zisLFKL=∇zisLRKL=1Vτ2\(zis−zit\)+O\(τ−3\)。\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{FKL\}\}=\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=\\frac\{1\}\{V\\tau^\{2\}\}\(z\_\{i\}^\{s\}\-z\_\{i\}^\{t\}\)+O\(\\tau^\{\-3\}\)。

高温机制：FKL 和 RKL 变为 logit 匹配。近期研究 \(Wu 等人，2025 (https://arxiv.org/html/2606.00306#bib.bib1); Luong 等人，2026a (https://arxiv.org/html/2606.00306#bib.bib45)\) 表明，在理想化假设下，例如足够的学生容量和精确的全局优化，FKL 和 RKL 会达到相同解。命题 2\.1 (https://arxiv.org/html/2606.00306#S2.Thmtheorem1)（证明见附录 B (https://arxiv.org/html/2606.00306#A2)）表明，仅凭温度就足以恢复这种等价性：当 τ→∞\\tau\\to\\infty 时，两个目标共享相同的梯度并简化为师生 logit 匹配。因此，FKL 和 RKL 的实际区别必然来自它们的低温机制。

低温机制：温度将 FKL 与 RKL 分开。在实际温度下，FKL 直接将学生分布与软化的教师分布匹配，而 RKL 仍然通过学生加权的师生 logit 差距进行操作。对于 FKL，pτp^\{\\tau\} 作为概率目标，改变 τ\\tau 会改变监督本身：∂piτ∂τ=piττ2\(Ej∼pτ\[zjt\]−zit\)。\\frac\{\\partial p\_\{i\}^\{\\tau\}\}\{\\partial\\tau\}=\\frac\{p\_\{i\}^\{\\tau\}\}\{\\tau^\{2\}\}\(\\mathbb\{E\}\_\{j\\sim p^\{\\tau\}\}\[z\_\{j\}^\{t\}\]\-z\_\{i\}^\{t\}\)。增大温度会减少高 logit token 的主导地位，并将概率质量重新分配给低 logit token。结合方程 (2 (https://arxiv.org/html/2606.00306#S2.E2))，这表明温度改变了 FKL 更新的强度，以及学生被训练去匹配的教师分布。

###### 命题 2\.2。

令 Δi=zis−zit\\Delta\_\{i\}=z\_\{i\}^\{s\}\-z\_\{i\}^\{t\}，RKL 梯度可以重写为

∇zisLRKL=qiττ2\(Δi−Ej∼qτ\[Δj\]\)，\\nabla\_\{z\_\{i\}^\{s\}\}\\mathcal\{L\}\_\{\\mathrm\{RKL\}\}=\\frac\{q\_\{i\}^\{\\tau\}\}\{\\tau^\{2\}\}\\left\(\\Delta\_\{i\}\-\\mathbb\{E\}\_\{j\\sim q^\{\\tau\}\}\[\\Delta\_\{j\}\]\\right\)，\(4\)

对于 RKL，温度扮演了不同的角色。命题 2\.2 (https://arxiv.org/html/2606.00306#S2.Thmtheorem2)（证明见附录 C (https://arxiv.org/html/2606.00306#A3)）表明，RKL 梯度由师生 logit 差距驱动，而不是像 FKL 那样直接匹配学生与软化教师分布的概率。因此，温度主要通过用 1/τ21/\\tau^\{2\} 重缩放梯度以及平滑学生侧权重 qiτq\_\{i\}^\{\\tau\} 来调节 RKL 的优化。

洞察。温度改变了 FKL *学习什么*，但主要改变了 RKL *如何学习*。在低温机制下，FKL 从软化的教师分布中获得更丰富的非目标监督，而 RKL 获得梯度重缩放。

## 3 FKL 何时优于 RKL？

我们的分析引出了一个自然的问题：*温度能否改变哪个 KL 目标更好？*我们在五个指令遵循基准测试上对这个问题进行了实证回答，包括 Dolly Eval、Self\-Instruct \(Wang 等人，2023 (https://arxiv.org/html/2606.00306#bib.bib27)\)、Vicuna Eval \(Chiang 等人，2023 (https://arxiv.org/html/2606.00306#bib.bib28)\)、Super\-Natural Instructions \(Super\-NI\) \(Wang 等人，2022 (https://arxiv.org/html/2606.00306#bib.bib29)\) 和 Unnatural Instructions \(UnNI\) \(Honovich 等人，2023 (https://arxiv.org/html/2606.00306#bib.bib30)\)，使用了 GPT\-2 \(Radford 等人，2019 (https://arxiv.org/html/2606.00306#bib.bib14)\) 和 OPT 模型 \(Zhang 等人，2022 (https://arxiv.org/html/2606.00306#bib.bib19)\)，实现细节见附录 A (https://arxiv.org/html/2606.00306#A1)。图 1 (https://arxiv.org/html/2606.00306#S1.F1) 展示了五个数据集上的平均 ROUGE\-L 比较，并揭示了明显的逆转。在 τ=1\\tau=1 下，RKL 优于 FKL，这与先前的 LLM 蒸馏结果一致。然而，一旦引入温度，FKL 就持续超越 RKL，表明其在 τ=1\\tau=1 下的明显弱点源于缺乏对软化的非目标教师信号的访问。我们特别得出以下见解。

温度使 FKL 从弱变为优于 RKL。增大温度会软化分布，暴露更丰富的教师信息，并带来显著的增益。对于 GPT\-2 B

重新思考温度在大语言模型蒸馏中的作用

相似文章

大语言模型预训练中隐藏层蒸馏的研究

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

同策略蒸馏（5分钟阅读）

基于熵-KL散度的令牌掩码：一种用于大型语言模型选择性微调的新方法

知识蒸馏中一致性信息丰富的软标签温度

提交意见反馈