从权重到特征：SAE引导的激活正则化用于LLM持续学习

arXiv cs.LG 2026/06/26 04:00 论文

continual-learning large-language-models sparse-autoencoders catastrophic-forgetting activation-regularization weight-regularization

摘要

本文提出了一种用于大语言模型的持续学习方法，该方法使用预训练的稀疏自编码器（SAEs）在激活空间而非权重空间中进行正则化，从而在无需存储先前数据的同时避免灾难性遗忘，并实现了更好的内存效率和更强的基准性能。

arXiv:2606.26629v1 公告类型：新摘要：权重空间正则化方法，如弹性权重合并（EWC），是持续学习中防止灾难性遗忘的标准方法。然而，这些方法在大语言模型上往往表现不佳。我们认为，这种性能不足可部分归因于大语言模型的``多语义''本质：EWC风格正则化所使用的每个权重重要性估计过于粗糙，无法隔离需要保护的知识。在本文中，我们提出转而使用预训练的稀疏自编码器（SAEs）作为单语义特征字典，在模型的激活空间中进行正则化。从约束优化的角度，我们推导出一个新的损失函数，利用SAE特征字典显式地平衡稳定性和可塑性，并证明EWC是单侧权重空间惩罚设置中的一个特例。与那些存储或重放先前任务示例的回放方法不同，我们的方法在掩码构建后不需要任何先前任务的数据：当前任务的数据用于计算一个紧凑的SAE特征掩码，并且仅保留该掩码用于后续训练。此外，由于特征空间的维度远低于参数空间，所提出的方法具有更高的内存效率。在TRACE和MedCL持续学习基准上，该方法在不引入任务特定架构组件的方法中取得了最强结果，也超越了像EWC这样的传统权重空间正则化方法。除了性能比较，我们还为多语义性论点提供了经验证据：任务相关表示在SAE特征基上是线性可分的，但在权重基上与随机无异，并且权重空间保护在概念层面几乎是非选择性的。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:21

# 从权重到特征：基于SAE的激活空间正则化用于大语言模型持续学习  
来源：https://arxiv.org/html/2606.26629  

Evan Ning¹，Wei Xue¹，Dong Lou¹，Yike Guo¹  
¹香港科技大学  

###### 摘要  

权重空间正则化方法（如弹性权重巩固，EWC）是持续学习中应对灾难性遗忘的标准方法。然而，当应用于大语言模型时，这些方法往往表现不佳。我们认为，这种不佳表现可部分归因于大语言模型的“多语义”特性：EWC风格正则化所采用的逐权重重要性估计过于粗糙，无法隔离需要保护的知识。本文提出在模型的激活空间中进行正则化，使用预训练的稀疏自编码器（SAE）作为单语义特征字典。从约束优化的角度，我们推导出一个新的损失函数，利用SAE特征字典显式地平衡稳定性和可塑性，并证明EWC是单侧权重空间惩罚设置下的一个特例。与需要存储或重放先前任务示例的基于重放的方法不同，我们的方法在掩码构建后无需任何先前任务数据：当前任务数据用于计算一个紧凑的SAE特征掩码，仅保留此掩码用于后续训练。此外，由于特征空间的维度远低于参数空间，所提方法在内存效率上更优。在TRACE和MedCL持续学习基准上，该方法在不引入任务特定架构组件的方法中取得了最强结果，并超越了EWC等传统权重空间正则化方法。除性能比较外，我们为多语义性论点提供了经验证据：任务相关表示在SAE特征基上是线性可分的，而在权重基上与随机无异；权重空间保护在概念层面上几乎是非选择性的。  

## 1 引言  

大语言模型（LLM）在部署后越来越需要持续适应新的领域、任务和交互格式。然而，顺序微调可能会覆盖先前学习能力所需的表示，导致灾难性遗忘（McCloskey和Cohen，1989；Ratcliff，1990）。持续学习方法通过重放、架构扩展/隔离和正则化来应对这一问题。其中，正则化对LLM特别有吸引力，因为它不需要存储先前任务数据、分配任务特定参数或引入推理时的路由。  

大多数基于正则化的持续学习方法在参数级别保护知识。弹性权重巩固（EWC；Kirkpatrick等，2017）、突触智能（SI；Zenke等，2017）和记忆感知突触（MAS；Aljundi等，2018）为单个权重分配重要性分数并惩罚后续变化。当参数提供足够选择性的保护单元时，这种策略是有效的，但在LLM中会退化。在TRACE上，基于LoRA的EWC相比无保护的顺序微调仅带来有限的改进（Wang等，2023b）；我们的实验也表明，EWC主要通过过度降低可塑性而非真正保护已获得知识来实现低遗忘，导致整体性能较弱。我们论证这种失败是结构性的，而不仅仅是超参数调整不当的结果。  

机械可解释性通过叠加假说（Elhage等，2022）提供了一个合理的解释。神经网络可以编码比其维度通常允许的更多特征，方法是将不同特征表示在重叠方向上。这导致了多语义性：单个神经元，进而与其相连的权重，可能参与多个不相关的概念（Olah等，2020；Bills等，2023）。对于权重空间正则化，这造成了重要性估计的单位与知识保持的单位之间的不匹配。因此，EWC使用的对角Fisher无法区分一个权重对概念A、概念B或两者都重要。为了保护概念A而保护该权重，也会约束概念B，从而降低模型学习新任务的能力。我们将这种非选择性保护确定为权重空间正则化无法扩展到LLM的关键原因。  

在本文中，我们提出采用稀疏自编码器（SAE）作为持续学习的选择性坐标系来缓解该问题。SAE通过稀疏过完备表示重建模型激活，将密集激活分解为通常比单个神经元更单语义的特征（Huben等，2024；Bricken等，2023）。一个预训练的SAE被用作固定的特征字典。对于每个任务，我们估计哪些SAE特征被任务数据激活，并构建一个任务特定的相关性掩码，高相关性特征定义自适应区域，低相关性特征定义保护区域。这将近似的正则化目标从纠缠的参数转变为语义上更具选择性的激活特征。  

我们进一步从约束优化的形式化推导训练目标，而不是以临时方式常规设计正则化器（简单限制模型远离原始权重）。模型应在SAE特征空间中最小化当前任务损失，满足：a）受保护特征不应超出稳定性预算，b）任务相关特征应充分适应，以避免什么都要保留但什么都学不到的退化解，分别定义为稳定性和可塑性约束。相应地，应用拉格朗日松弛和平方铰链惩罚产生两个相应的损失，即保护损失和引导损失。在此框架下，EWC成为一个特例，它在权重空间中测量漂移且不包含可塑性约束。  

所得方法在掩码构建后不需要任何先前任务数据。当前任务示例用于计算任务特定的SAE特征掩码；此步骤后，仅保留紧凑的掩码，不存储该任务的任何示例或激活用于后续重放。与基于锚点的特征蒸馏方法（如SAE-FD，Zhang等，2026）不同——这些方法通过存储先前任务锚点或激活并在后续训练中匹配它们来保留知识——我们的方法使用当前任务数据和冻结的基础模型正则化SAE特征漂移，无需重放缓冲区、无需存储激活、无需每任务参数、无需推理时路由。  

我们在TRACE-5000和MedCL上评估了SAE引导的激活正则化，涵盖跨领域和领域内持续学习。在TRACE上，我们的方法在非架构方法中取得最强性能，在匹配的训练条件下优于权重空间正则化器、梯度投影方法和基于重放的基线。在MedCL上，它在不保留先前任务示例的方法中取得最佳结果。除聚合性能外，我们为我们的核心主张提供了机械证据：任务相关表示在SAE特征空间中比在权重空间中更可分离，保护权重比保护SAE特征施加更广泛的附带约束。这些结果表明，正则化的有效性不仅取决于惩罚强度，还取决于施加约束的表示空间。  

我们的贡献总结如下：  
- •**一种使用SAE特征的实用持续学习方法。** 我们通过预训练SAE引入激活空间正则化。掩码构建后，我们的方法仅存储紧凑的SAE特征掩码，不保留先前任务示例或锚点激活。  
- •**从约束优化的原则性推导。** 我们将稳定性-可塑性权衡形式化为SAE特征空间中的约束优化问题，通过拉格朗日松弛和二次惩罚方法推导出平方铰链训练损失。  
- •**多语义性论点的经验证据。** 我们通过两个实验证明叠加破坏了权重空间保护。可分离性测试显示，任务相关表示在SAE特征基上是线性可分的（AUC 0.88），而在权重基上与随机无异（0.50）。附带约束测试显示，保护一个任务的权重会以自身91-96%的速率约束下一任务的特征，而特征空间保护将此降至43-61%。  
- •**可扩展性优势。** 由于特征空间的维度远低于参数空间，每任务存储从权重空间方法所需的GB级锚点降至亚兆字节的特征掩码。  

## 2 相关工作  

### 2.1 持续学习与稳定性-可塑性权衡  

持续学习研究模型如何顺序获取新任务而不丢失先前学习的能力。核心挑战是稳定性-可塑性权衡：模型必须足够稳定以保留过去知识，同时保持足够可塑性以学习新任务。早期研究表明，当任务顺序学习时，标准基于梯度的训练可能导致严重的灾难性遗忘（McCloskey和Cohen，1989；Ratcliff，1990）。这个问题对LLM尤其重要，它们通常在部署后被适应到新的领域、格式和用户需求。  

现有持续学习方法通过三种主要策略应对这一权衡。基于重放的方法存储或再生先前任务数据并将其混合到后续训练中（Lopez-Paz和Ranzato，2017；Chaudhry等，2019；Buzzega等，2020）。架构方法分配任务特定的参数、掩码或子空间以减少干扰（Rusu等，2016；Mallya和Lazebnik，2018；Wang等，2023a）。基于正则化的方法保持模型架构固定，并添加惩罚以阻止对重要参数或函数的有害更改（Kirkpatrick等，2017；Zenke等，2017；Aljundi等，2018）。其中，正则化对LLM适应特别有吸引力，因为它避免了存储先前任务数据、添加任务特定模块或引入推理时路由。然而，其有效性关键取决于正则化哪些内部单元以及如何编码稳定性-可塑性权衡。  

许多持续学习方法的一个关键局限性是它们强调稳定性但未明确强制可塑性。过度约束可以减少遗忘，但同时阻止新任务的有效学习，这种失败模式常被称为顽固性（Chaudhry等，2019）。这个区别在评估持续学习方法时很重要：如果模型未能获取新任务，仅低遗忘本身并不意味着成功的持续学习。我们的工作遵循这一观点，将稳定性和可塑性视为独立要求。我们不使用单个始终开启的惩罚，而是显式地形式化这两个要求，并从所得约束优化问题推导训练目标。  

### 2.2 基于正则化的持续学习  

基于正则化的持续学习保持模型架构固定，并阻止可能损害先前学习知识的更新。经典方法主要在权重空间中操作。弹性权重巩固（EWC）使用对角Fisher信息矩阵估计参数重要性，并惩罚重要权重的变化（Kirkpatrick等，2017）。突触智能（SI）在线累积每个参数对损失减少的贡献来估计参数重要性（Zenke等，2017）。记忆感知突触（MAS）从模型输出对参数扰动的敏感性估计重要性（Aljundi等，2018）。尽管这些方法在重要性估计方式上不同，但它们共享相同的基本假设：知识可以通过约束重要参数来保留。Kao等（2021）进一步表明，其中几种重要性估计与Fisher信息密切相关。  

这个假设在LLM中变得有问题。最近的LLM持续学习基准显示，权重空间正则化通常相比顺序微调仅提供有限的改进（Wang等，2023b；Zeng等，2026）。在实践中，这些方法可能通过过度约束模型来减少遗忘，从而降低其学习新任务的能力。这反映了单侧抗漂移正则化的一个局限性：它惩罚参数移动，但不显式建模新任务学习所需的可塑性。  

其他正则化方法在函数或表示层面操作。无遗忘学习（LwF）通过从较早模型蒸馏输出来保留先前行为（Li和Hoiem，2018），而梯度投影方法如ELLA使用与先前任务相关的子空间约束更新（Ruvolo和Eaton，2013）。这些方法超越了简单的参数锚定，但它们仍未解决本工作考虑的核心问题：知识应该在哪个单元上保护。  

我们的方法仍属于正则化家族，但改变了坐标系和目标。我们不向参数分配重要性，而是向SAE特征分配相关性；我们不使用单侧惩罚，而是推导出具有显式稳定性和可塑性约束的双侧目标。  

### 2.3 叠加、多语义性与稀疏自编码器  

叠加假说提供了一个有用的解释，说明为什么权重空间正则化在大规模下变得无效。神经网络可以通过在重叠方向上编码特征，表示比其维度通常允许的更多特征（Elhage等，2022）。这导致了多语义性：个

从权重到特征：SAE引导的激活正则化用于LLM持续学习

相似文章

学习，快与慢：走向持续适应的LLMs

持续LLM升级循环：一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

奖励模型中的偏好不稳定性：通过稀疏自编码器进行检测与缓解

JumpLoRA：大语言模型持续学习的稀疏适配器

提交意见反馈