自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文介绍了自蒸馏微调（SDFT）作为大语言模型性能恢复机制，用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐（CKA）提供了理论证明，表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐，从而有效恢复丧失的能力。

arXiv:2604.15794v1 公告类型：交叉摘要：大语言模型（LLMs）取得了显著成功，为各种AI应用奠定了基础。然而，它们往往因监督微调（SFT）过程中的灾难性遗忘、量化和剪枝等因素而面临性能下降。在这项工作中，我们引入了基于自蒸馏微调（SDFT）的性能恢复框架，能够有效地恢复模型能力。除了实际贡献外，我们还为潜在的恢复机制提供了严格的理论解释。我们认为大语言模型的生成能力根本上依赖于其隐藏层构建的高维流形。为了研究这一点，我们采用中心核对齐（CKA）来量化学生和教师激活轨迹之间的对齐程度，利用其对正交变换和缩放的不变性。我们的实验证明了性能恢复与流形对齐之间存在强相关性，证实了自蒸馏能够有效将学生的高维流形与教师所代表的最优结构对齐的说法。本研究弥合了实用恢复框架与几何表示论之间的差距，为自蒸馏的内部机制提供了新的见解。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:30

# 大语言模型自蒸馏作为性能恢复机制：对抗压缩和灾难性遗忘
来源：https://arxiv.org/html/2604.15794
###### 摘要

大语言模型 (LLMs) 取得了显著成就，为多种人工智能应用奠定了基础。然而，它们经常因监督微调 (SFT)、量化和剪枝过程中的灾难性遗忘等因素而面临性能下降。在本工作中，我们引入了基于自蒸馏微调 (SDFT) 的性能恢复框架，能有效恢复模型能力。除此之外，我们还提供了严格的理论解释来说明基本恢复机制。我们主张 LLM 的生成能力从根本上依赖于隐层构造的高维流形。为了调查这一点，我们采用居中核对齐 (CKA) 来量化学生和教师激活轨迹之间的对齐度，利用其对正交变换和缩放的不变性。我们的实验表明性能恢复与流形对齐之间存在强相关性，证实了自蒸馏能有效将学生的高维流形与教师所代表的最优结构对齐。本研究在实用恢复框架和几何表示理论之间架起了桥梁，为自蒸馏的内部机制提供了新的见解。

## 1 引言

大语言模型 (LLMs) 彻底改变了自然语言理解、推理和生成。然而，将通用基础模型部署到实际应用中需要进一步适配。为了与特定下游任务对齐，模型通常需要经历监督微调 (SFT)；同时，为了满足资源约束，剪枝和量化等技术变得不可或缺。

然而，这些操作往往会导致显著的性能下降。在持续学习中，多轮 SFT 经常触发灾难性遗忘，即模型在获取新的领域特定知识和任务能力的同时，会丧失原有的通用知识和技能。类似地，激进的压缩会破坏内部参数分布，导致准确性和逻辑一致性下降。这种"能力权衡"强迫在专业化和泛化之间做出艰难选择。一旦模型退化，传统的修复方法通常计算成本高昂，有时需要从零开始重新训练，在计算资源稀缺的背景下这是一个非常低效的方案。

在本文中，我们提出了一个有效的模型退化"恢复机制"，利用自蒸馏微调 (SDFT)（Shenfeld 等，2026），这是自蒸馏 (SD)（Hinton 等，2015）的一个专门范式。虽然传统 SD 侧重于通过自我模仿改进泛化界，但我们认为当模型因 SFT 或压缩而遭受分布偏移时，SDFT 的正则化效应充当了一个"锚点"。这个机制将退化的参数拉回到原始高性能流形。至关重要的是，我们的方法仅依赖于模型自身的历史状态，无需依赖外部教师，从而促进了高效的性能恢复。

基于这一洞察，我们建立了一个统一的恢复框架，并在多种退化场景中验证了它。在主要强调多轮 SFT 中的灾难性遗忘的同时，我们进一步演示了框架对压缩缺陷的有效性。实验结果表明，SDFT 在多个评估基准上有效恢复了模型性能，验证了其实用效果和理论基础。

## 2 相关工作

#### LLMs 中的灾难性遗忘

灾难性遗忘 (CF) 是指神经网络在对新数据进行训练时突然显著丧失先前学习知识的现象（De Lange 等，2021）。在 LLMs 的背景下，这一现象在多轮监督微调 (SFT) 覆盖先前训练中获得的知识和技能时表现出来（Li 和 Hoiem，2017）。现有的缓解策略通常分为三类：(1) 基于重放的方法，存储旧数据的子集与新训练交织（De Lange 等，2021）；(2) 基于正则化的方法，如弹性权重整合 (EWC)，对重要参数的改变进行惩罚（Kirkpatrick 等，2017）；以及 (3) 参数隔离方法，为不同任务分配单独的参数（Rusu 等，2016）。虽然在某种程度上有效，这些方法往往需要很高的计算成本、需要访问历史数据或使模型架构复杂化。至关重要的是，大多数现有工作侧重于在新训练期间防止遗忘，而不是在退化发生后恢复性能。

#### 模型压缩和性能下降

为了高效部署 LLMs，剪枝（Ma 等，2024）和量化（Dettmers 等，2023）等技术被广泛采用。然而，这些操作不可避免地引入了性能下降。激进剪枝移除冗余神经元但可能中断关键知识路径，而低位量化引入噪声，影响逻辑一致性和事实准确性（Frantar 等，2023）。传统的补救措施通常依赖于知识蒸馏 (KD)，其中压缩的学生模型被训练以模仿更大的教师（Hinton 等，2015）。虽然外部强大的教师（例如，更大的 LLMs 或基于 API 的模型）理论上是适用的，但它们经常引入分布偏移、高计算开销或隐私限制，限制了其在退化后恢复中的实用性。相比之下，自蒸馏提供了一个自包含的替代方案，利用模型自身的历史状态，避免外部依赖同时保持任务对齐。这使 SD 特别适合轻量级、隐私敏感或分布一致的恢复场景。

#### 自蒸馏微调

自蒸馏 (SD) 已成为在不依赖外部教师的情况下增强模型泛化的强大技术。早期工作证明，训练一个模型来模仿其自身的更深层或早期检查点充当有效的正则化器，减少过拟合并改进准确性（Furlanello 等，2018）。最近，研究将 SD 扩展到自蒸馏微调 (SDFT)，实现直接从演示的在策略学习。通过利用上下文学习，SDFT 使用模型本身作为教师来生成保持先前能力同时获取新技能的训练信号。在各种任务中，SDFT 持续胜过常规 SFT，在提高新任务准确性的同时缓解灾难性遗忘。然而，现有的 SDFT 方法主要侧重于在训练过程中防止遗忘，通常假设教师和学生是同步的。在本文中，我们将 SDFT 扩展到更一般的框架，其中教师可以是模型的任何历史状态，而不仅仅是当前迭代。至关重要的是，我们将这种通用化 SDFT 重新定位为事后恢复机制，旨在在退化发生后恢复性能，而不是仅在训练期间防止它。

## 3 恢复框架

### 3.1 问题表述

设 LLMθ 表示参数为 θ 的原始基础模型。在经历多轮 SFT 或压缩等退化过程后，模型变为参数为 θ₁ 的 LLMθ₁，在通用知识和技能上表现出性能下降。我们的目标是获得恢复后的模型 LLMθ₂，参数为 θ₂，在原始能力和新任务上都最大化性能。

### 3.2 恢复方案

见图 1：灾难性遗忘的自蒸馏恢复框架

图 1 展示了我们提议的自蒸馏恢复框架在灾难性遗忘场景中的总体架构。与仅优化新任务性能的传统微调管道不同，我们的框架引入了双目标优化过程，同时针对能力恢复和任务适配。该框架由三个主要组件组成：(1) 教师 LLMθ，由模型自身的历史检查点或早期训练状态构造；(2) 退化模型 θ₁，作为初始学生状态，因先前多轮 SFTs 而遭受性能丧失；以及 (3) SDFT 恢复过程，其中学生学习模仿教师的输出分布，同时适配先前多轮 SFTs 中使用的数据集。这个自包含过程确保性能恢复无需依赖外部高性能模型或任何外部数据集。

见图 2：压缩的自蒸馏恢复框架

图 2 将提议的恢复框架扩展到压缩场景。当 LLM 受到剪枝或量化时，它不可避免地产生不同程度的性能下降。为了便于恢复，框架需要精心整理与退化能力相符的专家演示数据集。例如，如果工具调用任务显示性能下降，则需要相关数据集进行恢复；如果通用知识显示下降，则需要后训练中使用的 SFT 数据集。值得注意的是，除了这个数据选择策略外，基本恢复机制与灾难性遗忘场景相同，展示了我们方法在不同退化类型中的统一性质。

见图 3：小规模 LLM 的自蒸馏恢复框架

然而，原始 SDFT 表述在较小规模（例如，3B 变体）上表现出显著限制，其中不足的上下文学习 (ICL) 能力无法提供有意义的自我指导，导致性能不如标准 SFT。为了解决这个问题，我们提议一个扩展的恢复策略，在保持框架统一性质的同时引入单个初步步骤。

图 3 展示了这个增强的工作流。SDFT 在小规模模型中的低效源于其对强大 ICL 的重度依赖，这在较小架构中通常不发达。因此，我们首先采用离策略蒸馏，使用大规模 LLM 作为教师来引导小模型的 ICL 能力。虽然这一步增强了 ICL，但不可避免地导致通用和领域特定能力的降低。随后，我们应用我们的 SDFT 恢复机制来恢复这些降低的能力。最终，这个两阶段过程使小规模模型能够保留其原始能力，同时实现改进的 ICL 性能，有效地扩展了我们恢复框架对资源受限场景的适用性。

外部教师仅用一次来引导 ICL 能力（启用 SDFT），而核心恢复过程通过 SDFT 保持自包含。这种混合方法在实用性和自蒸馏效率之间取得平衡。

## 4 通过高维流形对齐的自蒸馏理论分析

### 4.1 引言

前面的章节主要关注恢复框架的实证分析，而基本理论机制仍未被探索。为什么自蒸馏能有效恢复模型性能，是否存在与这一现象对齐的几何度量？

在本章中，我们通过将焦点从输出分布转向内部表示来回答这些问题。我们主张 LLM 的生成能力从根本上依赖于隐层构造的高维流形，因此自蒸馏的核心功能不仅仅是优化输出概率，而是正则化隐状态的空间结构，使学生的流形与教师的对齐。基于这一前提，我们提出了一个基于高维流形几何的理论框架。

为了验证这个理论框架，我们采用居中核对齐 (CKA)（Kornblith 等，2019）作为度量来量化学生和教师之间的流形结构对齐，利用其相对于 MSE（均方误差）等度量的关键优势——即对正交变换和缩放的不变性。

### 4.2 问题表述和流形定义

给定输入序列 X=(x₁,x₂,...,xₗ)，其中 L 表示序列长度。对于 LLM 的某个隐层（例如，最后一个隐层），每个标记 xₜ 对应一个 d 维激活向量 hₜ ∈ ℝᵈ。我们堆叠完整前向传播中所有标记的激活向量来形成激活矩阵 H ∈ ℝᴸˣᵈ：

H = [h₁ᵀ h₂ᵀ ⋮ hₗᵀ]

从流形学习的角度，H 中的每一行代表高维语义流形 ℳ 上的一个样本点，整个矩阵 H 构成序列在该流形上的离散轨迹。学生模型 S 和教师模型 T 分别生成激活矩阵 Hₛ 和 Hₜ。我们的目标是测量这两个轨迹之间的几何对齐度。重要的是澄清，我们不直接比较学生和教师模型的完整底层流形。相反，我们利用激活轨迹，它作为这些流形的离散样本。这种方法在理论上是代表性的，计算上也是可行的。

直接比较激活矩阵 Hₛ 和 Hₜ 的元素值（例如，使用 MSE）是不恰当的，因为神经网络表示具有旋转不变性。语义相同的特征可能沿隐空间中的不同坐标轴存在。为了捕捉流形的内在结构，我们必须测量标记之间的相对关系，而不是它们的绝对坐标。

我们计算线性核矩阵 K ∈ ℝᴸˣᴸ：

其中元素 Kᵢⱼ = hᵢ · hⱼ 代表隐空间中第 i 个和第 j 个标记之间的相似性。矩阵 K 编码了序列内的语义依赖结构，并充当流形几何属性的表示。

### 4.3 计算过程

我们遵循以下六个步骤来计算 Hₛ 和 Hₜ 之间的流形对齐度：

1. 输入一致性：将相同的序列（提示 + 真实答案）输入到

相似文章

为什么微调会导致幻觉及其解决方案

arXiv cs.CL

本论文研究了监督微调（SFT）如何通过导致知识退化而增加大语言模型的幻觉问题，并提出了一种基于自蒸馏的方法来缓解这一问题，同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制，并演示了包括参数冻结和自蒸馏在内的解决方案。

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

arXiv cs.CL

本文提出了一种分布对齐对抗性蒸馏（DisAAD）方法，该方法使用一个轻量级代理模型，仅以原始模型1%的规模来估计黑盒大语言模型的不确定性，实现了无需内部参数或多次采样的可靠量化。

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

Hugging Face Daily Papers

本文介绍了 D-OPSD，一种用于步骤蒸馏扩散模型的新型训练范式，能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下，学习新概念或新风格。

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

arXiv cs.AI

本文介绍了 HyperLens，一种高分辨率探针，可通过追踪层间的细粒度置信度轨迹来量化大型语言模型（LLMs）的认知努力。研究表明，复杂任务需要更高的认知努力，并展示了监督微调（SFT）如何降低这种努力，从而可能导致性能下降。

相似文章

为什么微调会导致幻觉及其解决方案

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

提交意见反馈