知识蒸馏中一致性信息丰富的软标签温度

arXiv cs.LG 论文

摘要

提出CIST方法,在知识蒸馏中为教师和学生分配独立的样本自适应温度,生成一致性信息丰富的软标签,并放宽严格的logit尺度匹配。在视觉和语言任务上的实验表明,相比标准KD具有一致的改进。

arXiv:2605.20357v1 公告类型:新 摘要:知识蒸馏(KD)通过匹配教师模型和学生模型的预测分布,将高容量教师的知识迁移到紧凑的学生模型中,其中温度缩放作为核心机制,用于平滑教师预测并暴露硬标签之外的信息性“暗知识”。然而,标准的固定温度设计本质上是样本无关的。由于样本在logit尺度和学习难度上存在差异,单一的全局温度会产生熵高度不一致的教师软标签:某些预测过于尖锐,提供的类间信息有限;而另一些则过度平滑,丢失了类别判别性信息。此外,教师和学生共享相同温度,尽管两者容量不匹配,却进一步施加了严格的logit尺度对齐。为了解决这些局限性,我们提出了CIST(Consistently Informative Soft-label Temperature),为教师和学生分配独立的样本自适应温度。该设计在生成一致性信息丰富的教师软标签的同时,放宽了严格的教师-学生logit尺度匹配,并根据教师置信度和学生学习难度重新加权蒸馏目标。理论上,我们证明教师标签熵主要由最大教师logit与温度的比值决定,为自适应平滑提供了原则性基础。实验上,CIST缓解了固定温度带来的不一致性,在视觉和语言蒸馏任务上的实验表明,相比标准KD和强基线方法,CIST以可忽略的计算开销实现了一致的改进。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:23

# 知识蒸馏中一致性信息软标签温度
来源:https://arxiv.org/html/2605.20357
Hoang\-Chau Luong¹,† Nghia Van Vo²,† Kaiqi Zhao² Lingwei Chen¹  
¹罗切斯特理工学院,纽约州罗切斯特,美国  
²奥克兰大学,密歇根州罗切斯特,美国  
†同等贡献  
cl6300@rit\.edu, \{nghiavo, kaiqizhao\}@oakland\.edu, lwcics@rit\.edu

###### 摘要

知识蒸馏(KD)通过匹配教师网络与学生网络的预测分布,将高容量教师网络的知识迁移至紧凑的学生网络。其中,温度缩放τ起到核心作用,用于平滑教师预测并暴露硬标签之外的“暗知识”。然而,标准的固定温度设计本质上是样本无关的。由于样本在logit尺度和学习难度上存在差异,单一的全局温度会导致教师软标签的熵高度不一致:部分预测仍过于尖锐,仅提供有限的类间信息;另一些则被过度平滑,丢失类区分信息。此外,教师与学生共享相同的温度,尽管存在容量不匹配,却强制了刚性的logit尺度对齐。为解决这些问题,我们提出CIST(Consistently Informative Soft-label Temperature),为教师和学生分别分配样本自适应的温度。该设计能产生一致信息性的教师软标签,同时放松了教师与学生间刚性的logit尺度匹配。它还根据教师置信度和学生学习难度重新加权蒸馏目标。理论上,我们证明教师标签熵主要由最大教师logit与温度之比决定,为自适应平滑提供了理论依据。实验中,CIST缓解了固定温度引起的不一致性,在视觉和语言蒸馏任务上的实验表明,与标准KD及强基线相比,CIST在计算开销可忽略的前提下实现了持续改进。

## 1 引言

深度神经网络(DNNs)已在广泛任务中取得最先进性能,这主要得益于模型容量的不断扩展。然而,这种提升通常伴随着巨大的计算和内存成本,使得大模型难以部署在移动设备和边缘设备等资源受限环境中。为应对这一挑战,模型压缩得到了广泛研究。在现有压缩技术中,知识蒸馏(KD)[Hinton et al., 2015]已成为一种简单有效的方法,其中紧凑的学生模型通过模仿高容量教师的预测行为进行学习[Romero et al., 2015; Cho and Hariharan, 2019; Gou et al., 2021]。

KD的核心机制是温度τ,它在softmax操作之前将教师和学生的logit除以该温度超参数。通过增大τ,教师分布变得不那么尖锐,从而暴露类间关系,即通常所说的“暗知识”[Hinton et al., 2015; Tang et al., 2020; Zhao et al., 2022; Wei and Bai, 2024]。然而,在标准KD中,τ被选为单一的全局常数。这一选择隐含地假设所有教师预测需要相同程度的平滑,尽管不同样本的logit尺度可能差异巨大。我们认为这一假设存在问题,因为软化后的教师分布熵对主导logit与温度的比值高度敏感。当主导logit相对于τ较大时,软化后的标签仍然尖锐集中,提供的非目标信息很少。反之,当logit间隔相对于τ较小时,分布可能变得过分平坦,削弱了类区分信号。图1说明了这一问题:在相同的固定温度下,教师软标签的熵在不同样本间变化很大。

![参见图注](图1:KD中教师软标签生成。使用固定温度时,部分样本仍过于自信且信息不足(低熵),而另一些则被过度平滑(高熵)。这些不恰当平滑的样本会降低知识迁移效果。)

这种熵的不一致性表明,样本对蒸馏的贡献并不均匀:有些提供信息丰富的软监督,有些则提供不可靠的训练信号。标准KD对所有样本赋予相同的损失权重,尽管教师预测的置信度不同,且学生可能以不同速率从不同样本中学习。低置信度的教师预测可能提供不可靠的软目标,而当前学生感觉困难的样本可能导致噪声或不稳定的梯度。这启发了一种基于课程学习的蒸馏策略,其中训练强调那些提供可靠且信息丰富监督的样本[Bengio et al., 2009; Li et al., 2023]。尽管先前工作探索了课程温度[Li et al., 2023]、softmax前的logit标准化[Sun et al., 2024]以及基于熵的损失加权[Su et al., 2025],但它们并未直接解决固定温度下教师软标签的熵不一致性问题。此外,标准KD通常让教师与学生共享相同温度,这可能隐含地强制刚性的logit尺度匹配,尽管两者存在容量不匹配[Sun et al., 2024]。

为解决这些局限,我们提出CIST(Consistently Informative Soft-label Temperature),一个有效的蒸馏框架,将一致信息软标签与置信度感知的课程正则化相结合。它首先根据主导教师logit为教师分配样本自适应温度,稳定教师标签熵并产生一致信息性的软监督。然后,它对教师和学生应用独立的自适应温度,放松共享温度KD所施加的刚性logit尺度匹配。最后,CIST根据教师置信度和学生学习难度重新加权蒸馏损失,强调可靠且可学习的软目标,同时降低不确定或学习不佳样本的权重。理论上,我们证明教师标签熵主要由最大教师logit与温度之比决定,为自适应设计提供了理论依据。我们在视觉和语言蒸馏任务上验证了CIST。在CIFAR-100和ImageNet上,CIST在多种教师-学生架构下持续改进标准KD。在指令遵循语言蒸馏中,CIST在多个教师-学生对和评估基准上也优于其他蒸馏基线。总体而言,与有竞争力的蒸馏基线相比,CIST在引入可忽略的计算开销的同时取得了强劲性能。

总之,我们的贡献有三点:

- • 我们展示了固定温度KD的一个关键局限性:单一的全局温度导致样本间教师标签熵不一致,从而产生信息不足的软标签。
- • 我们提出CIST,一种基于教师软标签熵分析的logit蒸馏框架。通过结合样本自适应温度、独立的教师-学生温度以及置信度感知的课程正则化,CIST产生信息丰富的软目标,放松刚性logit尺度对齐,并强调可靠的蒸馏信号。
- • 我们在视觉和语言蒸馏任务上验证了CIST,其在CIFAR-100、ImageNet和指令遵循语言蒸馏上持续优于强基线。

## 2 相关工作

**知识蒸馏**旨在将高容量教师模型的暗知识迁移至轻量级学生模型。通过学习教师产生的软标签,学生通常比仅用硬标签训练时获得更好的泛化能力。传统上,KD通过最小化教师与学生预测概率分布之间的Kullback–Leibler (KL) 散度来训练学生。这些概率通过对模型各自的logit应用softmax函数得到。KD方法大致可分为三类:基于logit的方法[Hinton et al., 2015; Zhao et al., 2022; Jin et al., 2023; Sun et al., 2024; Zheng and Yang, 2024],它们直接匹配输出分布;基于特征的方法[Romero et al., 2015; Zagoruyko and Komodakis, 2017; Park et al., 2019; Tian et al., 2020; Heo et al., 2019; Chen et al., 2021],它们对齐中间表示;以及基于关系的方法[Tung and Mori, 2019; Huang et al., 2022; Li et al., 2022],它们迁移样本或特征之间的结构关系。我们提出的方法属于基于logit的类别,因为它通过为教师和学生应用自适应温度机制来扩展标准KD[Hinton et al., 2015]。

**KD中的温度缩放**。温度τ是基于logit的KD的核心机制。通过在softmax前将logit除以温度τ,KD平滑教师分布并揭示硬标签中不存在的非目标类信息[Hinton et al., 2015; Tang et al., 2020; Liu et al., 2022; Zhao et al., 2022]。然而,现有大多数方法对所有样本使用固定温度,并且通常让教师和学生共享相同温度。这种设计虽然方便,但却是样本无关的:它假设单一平滑强度适用于所有教师预测,尽管logit尺度和样本难度存在很大差异。

最近有研究开始重新审视温度在KD中的作用,但针对的是问题的不同方面。CTKD [Li et al., 2023]学习基于课程的温度以控制蒸馏难度,但仍使用共享的教师-学生温度。Chandrasegaran等人[2022]研究了平滑如何与教师质量和标签平滑相互作用,表明不恰当的平滑会削弱蒸馏。Logit标准化[Sun et al., 2024]对logit进行归一化以减少对温度选择的敏感性,但保留了固定的共享基础温度以保证稳定性。Su等人[2025]使用熵进行样本级损失重新加权,但仍依赖标准KD的单一全局温度;而我们的工作则利用熵来调节教师软标签的信息性。相比之下,我们解决了固定教师温度的一个独特局限性:其导致的样本间软标签熵不一致,从而产生不均匀且有时信息不足的蒸馏监督。

## 3 固定与共享温度的局限性

**预备知识**。温度在KD中用于软化教师和学生的输出分布,揭示类间关系。设C∈ℕ为类别数,τ>0为温度。对于第i个样本,令教师logit vi∈ℝ^C,学生logit zi∈ℝ^C,它们的软化分布为

pi^τ = softmax(vi/τ),   qi^τ = softmax(zi/τ).   (1)

softmax函数对第j类定义为:softmax(v_{i,j}) = exp(v_{i,j}) / ∑_{c=1}^C exp(v_{i,c})。为了量化教师软输出的平滑性和信息性,我们计算第i个训练样本的软化分布熵如下:

H(pi^τ) = -∑_{c=1}^C p_{i,c}^τ log p_{i,c}^τ.   (2)

KD中一个有效的温度应产生具有适中熵的输出分布,即足够软以揭示类间关系,但又不过分不确定以免信息变得噪声化。先前的工作[Hinton et al., 2015; Tang et al., 2020; Chandrasegaran et al., 2022]支持这一观点,表明调整良好的温度有助于教师揭示有意义的类间关系并提升学生性能。这凸显了温度选择在KD中的关键作用。

![参见图注] (a) CIFAR-100.
![参见图注] (b) ImageNet.
![参见图注] (c) Dolly.

图2:标准KD与CIST下,不同架构和数据集上教师软标签的熵分布。固定温度KD产生的软标签熵方差大且存在许多异常值,表明平滑效果不佳。相比之下,CIST实现了平滑的一致性。

**固定温度下的熵不一致性**。在现实场景中,教师logit的幅度因样本复杂度、教师置信度和模型归纳偏置等因素而差异很大。因此,应用单一固定温度会产生熵高度不一致的软化教师分布。

我们在图2中展示了这一现象,该图展示了来自CIFAR-100 [Krizhevsky et al., 2009]、ImageNet [Russakovsky et al., 2015]和Dolly [Conover et al., 2023]的教师软标签熵分布,使用了视觉和语言模型中各种教师架构。结果表明不同样本的熵存在显著差异:有些熵较低(对于CIFAR-100接近甚至低于2.0),而另一些则高达CIFAR-100的4.5和ImageNet的6.8,这与100类均匀分布(log(100)≈4.6)和1000类均匀分布(log(100)≈...

相似文章

重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG

本文重新审视了温度在大语言模型蒸馏中的作用,揭示出温度不对称地更有利于正向KL散度而非反向KL,使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

Switch-KD:面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。

MixSD:混合上下文自蒸馏知识注入

Hugging Face Daily Papers

MixSD 提出了一种面向语言模型知识注入的自蒸馏方法,该方法将监督信号与模型自身的原生分布对齐,从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆,同时保留高达 100% 的基础能力,远超标准 SFT。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。