遗忘并非擦除：通过传输键恢复潜在知识

arXiv cs.LG 2026/06/03 04:00 论文

摘要

本文认为神经网络中的灾难性遗忘并非擦除，而是一个接口对齐问题。它提出了'传输键'来从顺序训练的模型中恢复潜在的任务特定特征，展示了在分割CIFAR-100上的显著性能恢复。

arXiv:2606.02860v1 公告类型：新摘要：灾难性遗忘通常被表述为一个表征问题：在顺序训练后，模型似乎失去了支持先前任务性能的特征。我们对这种观点的更强形式提出质疑。在受控的持续学习设置中，我们发现相当一部分明显的遗忘可归因于内部阶段之间的接口漂移，而非任务相关计算的永久擦除。我们通过一个拼接评估协议来研究这一现象，该协议将来自更新后网络的早期计算与其前身的后期计算相结合，并可选地通过一个紧凑的任务特定传输键进行中介。我们在系统层面将传输键描述为紧凑的接口对齐算子，这些算子从一小部分配对的锚点激活中估计，并通过模型拼接进行评估。在分割CIFAR-100上使用ResNet风格网络时，传输键在任务B的顺序训练后恢复了大部分原始任务A的性能。在紧凑视觉变换器上，我们观察到类似的恢复模式。这些结果表明，持续学习可能需要更好的机制来索引和重新访问潜在计算，而不仅仅是防止权重变化的方法。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:40

# 遗忘并非擦除：通过传输键恢复潜在知识
来源：https://arxiv.org/html/2606.02860
###### 摘要

灾难性遗忘常被表述为一个表示问题：在顺序训练之后，模型似乎丢失了支撑之前任务性能的特征。我们挑战这种观点的更强形式。在受控的持续学习场景中，我们发现，显着的遗忘现象中很大一部分可归因于内部阶段之间的接口漂移，而非与任务相关计算的永久擦除。我们通过一种拼接评估协议来研究这一现象，该协议将更新后网络的早期计算与其前驱的后期计算相结合，并可选地由一个紧凑的、任务特定的传输键作为中介。我们在系统层面将传输键描述为紧凑的接口对齐算子，该算子通过一小组成对的锚点激活来估计，并通过模型拼接进行评估。在分裂 CIFAR-100 数据集上使用 ResNet 风格网络时，传输键在任务 B 顺序训练后恢复了大部分原始任务 A 的性能。在一个紧凑型视觉 Transformer 上，我们观察到类似的恢复模式。这些结果表明，持续学习可能需要更好的机制来索引和重新访问潜在计算，而不仅仅是防止权重变化的方法。

## 1 引言

持续学习（CL）指的是自主代理或机器能够学习多种不同类型的知识，并表现得如同一次性学习了所有知识一般（Wang 等人，2024 (https://arxiv.org/html/2606.02860#bib.bib16)）。实现 CL 仍然是当代深度网络面临的最大问题之一，因为在新技术上微调或训练通常会导致先前任务上的准确率或性能崩溃。这种崩溃历史上被定义为灾难性遗忘或擦除，此时模型的泛化能力受限于其内部表示（McCloskey 和 Cohen，1989 (https://arxiv.org/html/2606.02860#bib.bib12)）。灾难性遗忘常被表述为稳定性和可塑性之间根本性的架构权衡结果：使模型在不降低先前任务性能的情况下学习新任务的唯一方法是扩展模型规模（French，1999 (https://arxiv.org/html/2606.02860#bib.bib6)）。在这项工作中，我们表明，在高维神经表示中，遗忘可以被建模为一个访问问题，是网络各阶段之间漂移的结果，并且，在新任务上训练并不一定会导致模型永久丧失执行先前观察过任务的能力。通过将神经网络对新学习任务的表示建模为一种分阶段计算（其中后续层学习解释中间激活），我们将遗忘定义为一个维度问题：模型学习新任务时，其内部特征发生显著改变，使得与任务关联的原始特征集失效。根据这种观点，模型在广泛场景下的任务或功能性能，可以通过使用一个能够在特定内部接口重新对齐其内部特征的小型键来恢复。借鉴模型拼接（Bansal 等人，2021 (https://arxiv.org/html/2606.02860#bib.bib3)），我们构建了这样一个键，从而能够恢复潜在的特定任务特征和丢失的性能。

#### 贡献

我们的具体贡献如下：

(i) 我们提供证据表明，灾难性遗忘的一个重要组成部分可以被解释为接口访问失败，而非完全的表示擦除。

(ii) 我们引入了传输键框架：一个紧凑的、任务特定的对齐对象，通过校正激活空间接口漂移来恢复顺序训练网络各阶段之间的兼容性。

(iii) 我们提供了一个拼接评估协议，直接测试更新后的网络是否保留了与任务相关的潜在计算，并使用对照实验来区分真正的接口对齐与一般的适应性调整。

(iv) 我们报告了在 ResNet 风格和 Transformer 风格视觉模型上的初步结果，显示在顺序训练后任务 A 性能得到了显着恢复。

#### 相关工作

持续学习（CL）已在监督学习和强化学习场景中得到广泛研究，重点关注解决长期稳定性与可塑性之间的固有权衡（French，1999 (https://arxiv.org/html/2606.02860#bib.bib6)）。当前应对遗忘的方法主要集中在约束特定参数的权重更新，例如弹性权重巩固（EWC）（Kirkpatrick 等人，2017 (https://arxiv.org/html/2606.02860#bib.bib8)）、突触智能（SI）（Zenke 等人，2017 (https://arxiv.org/html/2606.02860#bib.bib17)）和记忆感知突触（Aljundi 等人，2018 (https://arxiv.org/html/2606.02860#bib.bib2)）。另一些方法倾向于在训练新任务时动态生成先前任务的示例，如 iCaRL（Rebuffi 等人，2017 (https://arxiv.org/html/2606.02860#bib.bib13)）和经验回放（Rolnick 等人，2019 (https://arxiv.org/html/2606.02860#bib.bib14)）。同时，基于梯度的方法如 GEM（Lopez-Paz 和 Ranzato，2017 (https://arxiv.org/html/2606.02860#bib.bib10)）和 A-GEM（Chaudhry 等人，2019 (https://arxiv.org/html/2606.02860#bib.bib4)）则强制执行防护措施，确保特定的权重更新不影响与先前任务关联的特征。

我们将拼接评估实现为模型拼接的扩展，该概念最初由 Lenc 和 Vedaldi（2015 (https://arxiv.org/html/2606.02860#bib.bib9)）及 Bansal 等人（2021 (https://arxiv.org/html/2606.02860#bib.bib3)）定义。传统上，拼接被用于比较架构或在权重空间中合并模型（Entezari 等人，2022 (https://arxiv.org/html/2606.02860#bib.bib5)；Ainsworth 等人，2023 (https://arxiv.org/html/2606.02860#bib.bib1)）。我们将拼接适应到持续学习场景，将训练后的网络视为发送者，其前驱视为接收者。因此，我们能够直接测试潜在知识的存在性，无需重新训练或梯度更新，这与基于参数的方法（如 Rusu 等人，2016 (https://arxiv.org/html/2606.02860#bib.bib15)；Mallya 和 Lazebnik，2018 (https://arxiv.org/html/2606.02860#bib.bib11) 所实现的）或依赖适配器的方法（如 Houlsby 等人，2019 (https://arxiv.org/html/2606.02860#bib.bib7)）形成对比。

## 2 背景与形式化

我们首先定义一些预备知识，特别是围绕在标准持续学习（CL）场景下如何形式化顺序训练。我们还提供一个关于表示漂移的广义定义，它本质上是一个量化模型在随后对不同任务 B 进行训练后，执行任务 A 能力差异的数值。

### 2.1 顺序训练

我们从一个标准的神经网络 \(f(x; \theta)\) 开始，该网络将输入 \(x\) 映射到输出，并在一个顺序的任务集上进行训练。为简单起见，我们只关注两个任务，尽管在实践中这可以扩展到任意数量的任务，所有任务均按顺序进行训练。

令 \(\theta_A\) 表示在单独起始任务 A 上训练后的参数。然后我们继续在任务 B 上进行训练，得到参数 \(\theta_{AB}\)。在经典的持续学习（CL）中，这导致参数为 \(\theta_{AB}\) 的模型在任务 A 上的准确率显着下降，最常见的解释是训练任务 B 的过程覆盖了定义与任务 A 相关特征的权重。

### 2.2 网络分解

当代深度网络本质上是不同阶段的广泛组合。例如，在传统的 ResNet 风格网络中，这些阶段主要包括核心主干网络，然后是四个逐渐加深的残差块。

在任意单独阶段 \(\ell\)，我们可以将网络分为两部分：

- 早期网络 \(f_{\leq \ell}\)，它将输入 \(x\) 映射到一个中间激活张量 \(h_\ell \in \mathbb{R}^{C \times H \times W}\)。
- 后期网络 \(f_{> \ell}\)，它将 \(h_\ell\) 映射到预测结果，包括分类头。

这种分解使我们能够精确定位，一旦网络参数更新后，任务 A 的性能下降发生在哪个阶段。

### 2.3 接口漂移

我们的主要假设是，神经网络中常见的灾难性遗忘并非发生在某个特定阶段，而是发生在接口处，即网络后期阶段不再能够识别由早期阶段为先前任务产生的特征。

为了形式化这一点，假设存在一个变换 \(T_\ell\)，使得对于来自任务 A 的输入 \(x\)，有：

\[
h_\ell(x; \theta_A) \approx T_\ell\bigl(h_\ell(x; \theta_{AB})\bigr)
\]

如果 \(T_\ell\) 是简单的，那么更新后的网络仍然能够计算和编码与任务 A 相关的信息：问题出现在解码阶段，此时网络（现已更新）的后期阶段期望其解码的特征具有不同的计算结果。

图 1 (https://arxiv.org/html/2606.02860#S2.F1) 展示了这一现象。与任务 A 相关的特征并非由于训练任务 B 而被永久删除，而只是网络的后期阶段无法解释它们。我们将此现象称为**接口漂移**。

图 1：传统擦除与接口漂移的比较

## 3 方法论

本节在理解机制和实证主张所需的层面上解释传输键。核心对象是一个接口级别的对齐算子：它被插入到更新后网络的早期部分和更新前网络的后期部分之间，并将新的激活坐标系映射回旧的下游计算能够解码的形式。

### 3.1 概述：传输键作为接口对齐

令 \(f(x; \theta)\) 为一个首先在任务 A 上训练，然后在任务 B 上训练的神经网络。令 \(\theta_A\) 表示任务 A 训练后的参数，\(\theta_{AB}\) 表示随后任务 B 训练后的参数。在内部阶段 \(\ell\)，我们将网络分解为早期映射 \(f_{\leq \ell}\) 和后期映射 \(f_{> \ell}\)。对于来自任务 A 的输入 \(x\)，两个检查点产生配对激活：

\[
h^A_\ell(x) = f^A_{\leq \ell}(x), \qquad h^{AB}_\ell(x) = f^{AB}_{\leq \ell}(x).
\]

一个传输键 \(T_\ell\) 是一个紧凑的变换，作用于 \(h^{AB}_\ell(x)\)，使得变换后的激活能够被旧的任务 A 解码器读取：

\[
\widetilde{h}^A_\ell(x) = T_\ell\bigl(h^{AB}_\ell(x)\bigr).
\]

传输键并非一个新的训练对象或重放缓冲区，而只是一个附加在特定接口上的激活空间对齐对象。其作用是纠正更新后早期网络现在发出的信号与更新前后期网络期望接收的信号之间的不匹配。

直观上，顺序训练可以通过至少两种方式改变内部表示。首先，它可以移动或重新缩放单个通道，使语义内容大致保持不变但改变校准。其次，它可以在通道间旋转或混合特征，使信息仍然存在但以不同的基表达。传输键的设计目的是在保留原有下游决策规则的同时，纠正这些接口级别的变化。

### 3.2 锚点集

为了估计一个键，我们使用一个从任务 A 中抽取的小型锚点集。锚点是先前任务中的普通示例，并通过两个检查点传递。这会在同一个接口产生配对的激活：一个来自任务 A 检查点，另一个来自更新后检查点。使用配对锚点很重要，因为键的目的是对齐相应的计算，而不仅仅是匹配聚合激活统计信息。

当先前任务是一个分类问题时，使用平衡的锚点选择，以便对齐信号不会被一小部分类别主导。锚点集仅用于构建接口键。它不会重新训练主干网络，不会更新任务 A 的头，也不会在评估时引入新标签。

### 3.3 键族

我们考虑两个概念上的传输键族。第一个是**通道校准键**。它校正每通道的漂移，例如激活尺度或偏移的变化。这种形式故意设计得很小，并且在顺序训练保留了原始通道基但改变了其校准时最为有效。在同域的 CIFAR 实验中，这种紧凑的校正解释了大部分恢复的准确率。

第二个是**跨通道对齐键**。它允许通道间的结构化混合，并在更新后表示较大程度地改变了基时很有用。这种形式仍然应用于激活接口，而不是通过端到端的重新训练。在域转移下它变得更加重要，例如当网络在 CIFAR-10 之后训练于 SVHN 时，可能保留了有用的 CIFAR-10 信息，但以一种不太直接兼容的坐标系表达。

这些键族对应于两种可解释的接口漂移模式：**校准漂移**，其中单个通道仍然有意义但尺度发生变化；以及**混合漂移**，其中信息以不同的基分布在通道之间。下面的实验利用这种区别来解释为什么在某些情况下小键就足够了，而在其他情况下更具表达力的键则很重要。

### 3.4 拼接评估

我们使用模型拼接来评估传输键。给定更新后的早期网络 \(f^{AB}_{\leq \ell}\)，更新前的后期网络 \(f^A_{> \ell}\)，以及一个传输键 \(T_\ell\)，拼接模型为：

\[
(f^{AB}_{\leq \ell} \oplus_{T_\ell} f^A_{> \ell})(x) = f^A_{> \ell}\bigl(T_\ell(f^{AB}_{\leq \ell}(x))\bigr).
\]

对于任务 A 的评估，拼接预测为：

\[
\hat{y} = \mathrm{head}_A\bigl(f^A_{> \ell}(T_\ell(f^{AB}_{\leq \ell}(x)))\bigr).
\]

任务 A 的头被保留且不重新训练。这种设计使得评估非常严格：恢复必须来自恢复与旧内部解码器的兼容性，而不是在更新后的特征之上学习一个新的分类器。

该协议区分了三种情况。如果更新后的早期网络已经破坏了任务 A 所需的信息，那么带键的拼接应该会失败。如果信息仍然存在但已经漂移出旧解码器期望的坐标系，那么无键拼接应该表现不佳，而带键拼接应该能够恢复。如果接口基本保持兼容，那么无键拼接本身就可以恢复可观的性能。

### 3.5 对照实验

我们使用对照实验来测试该键是否在利用真实的接口结构。**无键对照**直接将 \(h^{AB}_\ell\) 送入旧的下游网络。**通道扰动对照**测试通道身份对于紧凑校准键是否重要。**对应关系破坏对照**测试映射是否依赖于配对示例，而不是仅仅依赖于分布统计。

遗忘并非擦除：通过传输键恢复潜在知识

相似文章

已删除，但未消失：输出遗忘并非真正遗忘

丢失还是隐藏？监督持续学习中的概念级遗忘

在顺序训练的早退出神经网络中平衡稳定性与可塑性

灾难性遗忘的机制起源：为什么RL比SFT更好地保留电路？

持久遗忘：通过电路归因实现量化不变的机器遗忘

提交意见反馈