SAE干预不可靠：干预后受抑制行为的恢复

arXiv cs.LG 2026/06/18 04:00 论文

sparse-autoencoders interpretability safety intervention reliability language-model representation-control

摘要

本文证明了对稀疏自编码器（SAE）特征的干预可能不可靠，因为受抑制的行为可以通过残差空间优化恢复，即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。

arXiv:2606.18322v1 公告类型：新论文摘要：稀疏自编码器（SAE）将残差流激活分解为可解释的特征。最近的潜在空间防御越来越依赖于这些分解，假设被识别为“不安全”的SAE特征可以作为监控和干预的可操作手柄。在这种范式下，固定一个特定的有害特征预计能可靠地防止模型不良行为。然而，我们表明这种成功可能隐藏了一种可恢复的失败模式：固定可能阻塞了通往某一行为的可见路径，但并未消除该行为本身。我们将这种脆弱性表述为干预后恢复，这是一个受约束的残差空间优化问题。从干预后的残差状态开始，我们优化残差扰动以恢复干预前的行为，同时保持目标SAE特征在干预后的值。即使在强大的威胁模型下，干预在整个优化和生成过程中保持活跃，恢复仍然可能。为了排除恢复仅仅是撤销干预的可能性，我们在单层干预中使用编码器正交更新，在跨层设置中使用相应的特征映射雅可比矩阵。在TPP、去学习、IOI和拒绝引导实验中，这种压力测试揭示了尽管成功的特征级干预，行为仍然可以恢复。尤其是在安全关键的拒绝引导设置中，我们在有效样本上实现了95.8%的恢复率，同时将受保护特征的相对漂移保持在0.131，远低于基于后缀的基线。进一步的恢复路径归因分析将这种恢复定位到SAE重建残差，即SAE无法解释的组件。这些结果暴露了特征级控制与行为完整性之间的差距：SAE特征可以支持因果干预，但控制它们并不能保证对潜在行为的控制。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:41

# SAE 干预不可靠：干预后抑制行为的恢复
来源：https://arxiv.org/html/2606.18322
明悦·崔 凌慧·沈 星怡·杨∗ 香港理工大学 \{ming\-yue\.cui, ling\-hui\.shen\}@connect\.polyu\.hk, xingyi\.yang@polyu\.edu\.hk

###### 摘要

稀疏自编码器（Sparse Autoencoders，SAE）将残差流激活分解为可解释的特征。最近的潜在空间防御越来越多地依赖这些分解，假设已识别的“不安全” SAE 特征可作为监控和干预的可操作句柄。在这种范式下，固定一个特定的有害特征预期能可靠地阻止模型不当行为。然而，我们表明这种干预的成功可能隐藏了一个可恢复的失败模式：固定可能阻断了通往某个行为的可见路径，但并未消除该行为本身。我们将这一漏洞形式化为“干预后恢复”，一个受约束的残差空间优化问题。从干预后的残差状态出发，我们优化残差扰动以恢复干预前的行为，同时保持目标 SAE 特征在干预后的值。即使在优化和生成过程中干预始终保持活跃的强威胁模型下，恢复仍然是可能的。为了排除恢复仅仅是撤销干预的可能性，我们在单层干预中使用编码器正交更新，在跨层设置中使用相应的特征图雅可比矩阵。在 TPP、遗忘、IOI 和拒绝引导实验中，这一压力测试揭示了尽管特征层面干预成功，行为仍然可恢复。特别是在安全关键的拒绝引导场景中，我们在有效样本上达到了 95.8% 的恢复率，同时被防御特征的相对漂移仅为 0.131，远低于基于后缀的基线。恢复路径归因分析进一步将这种恢复定位到 SAE 重建残差，即 SAE 未解释的部分。这些结果暴露了特征层面控制与行为完整性之间的差距：SAE 特征可以支持因果干预，但控制它们并不能保证对底层行为的控制。代码可在 Mingyuee88/sae-post-intervention-recovery (https://github.com/Mingyuee88/sae-post-intervention-recovery) 获取。

## 1 引言

表示层面的安全方法旨在有害内容产生之前控制语言模型的行为 [24 (https://arxiv.org/html/2606.18322#bib.bib16),11 (https://arxiv.org/html/2606.18322#bib.bib17),21 (https://arxiv.org/html/2606.18322#bib.bib18),17 (https://arxiv.org/html/2606.18322#bib.bib19),25 (https://arxiv.org/html/2606.18322#bib.bib15)]。稀疏自编码器 (SAE) 通过将残差流激活分解为稀疏且可解释的特征，使这种方法特别有吸引力 [7 (https://arxiv.org/html/2606.18322#bib.bib7),6 (https://arxiv.org/html/2606.18322#bib.bib20),3 (https://arxiv.org/html/2606.18322#bib.bib3),20 (https://arxiv.org/html/2606.18322#bib.bib22),9 (https://arxiv.org/html/2606.18322#bib.bib21),13 (https://arxiv.org/html/2606.18322#bib.bib23)]。这些特征似乎为分析、监控和控制模型行为提供了具体的句柄 [15 (https://arxiv.org/html/2606.18322#bib.bib9),1 (https://arxiv.org/html/2606.18322#bib.bib1)]。基于这一前景，最近的潜在空间防御识别与不安全或不期望行为相关的特征，然后在推理过程中固定或抑制这些特征 [16 (https://arxiv.org/html/2606.18322#bib.bib12),23 (https://arxiv.org/html/2606.18322#bib.bib14),8 (https://arxiv.org/html/2606.18322#bib.bib24),10 (https://arxiv.org/html/2606.18322#bib.bib25),19 (https://arxiv.org/html/2606.18322#bib.bib13)]。这一范式隐含着一个强烈的机械论假设：一个被识别的 SAE 特征不仅被视为行为的关联物，而且被视为一个可靠的干预目标，移除它应完全消除该行为再次出现的可能性。

尽管取得了这些成功，但这个假设值得更仔细地审视。抑制一个目标 SAE 特征可能会阻断通往某个行为的最显著计算路径，但并不一定消除模型产生该行为的底层能力。模型可能转而依赖未被目标特征集捕获的其他方向、下游层或分布式机制 [5 (https://arxiv.org/html/2606.18322#bib.bib4),4 (https://arxiv.org/html/2606.18322#bib.bib5),12 (https://arxiv.org/html/2606.18322#bib.bib8),14 (https://arxiv.org/html/2606.18322#bib.bib28)]。在这种情况下，防御只是改变了行为表达的路径，而非消除了行为本身。如果被抑制的行为可以在不重新激活目标 SAE 特征的情况下完全恢复，那么干预并没有建立真正的行为瓶颈。

为了直接测试这一局限性，我们引入了**干预后恢复**作为一种白盒诊断方法。目标不在于在防御应用之前规避特征检测 [2 (https://arxiv.org/html/2606.18322#bib.bib2)]。相反，我们从干预已经部署之后开始。我们假设相关的 SAE 特征已经被识别并固定。然后我们提出一个更尖锐的问题：*从这个干预后的残差状态出发，模型的干预前行为还能恢复吗？*

为了实现这一诊断，我们将干预后恢复形式化为一个**受约束的残差空间优化问题**。从固定状态开始，我们优化微小的残差扰动以恢复目标行为。为了防止优化简单地撤销固定并深入理解底层机制，我们引入了两个技术支柱：

- ⊳ **通过投影梯度下降的几何约束**。我们对更新方向施加约束，强制恢复发生在表示的零空间中，而不是直接重新激活目标 SAE 特征。具体来说，对于单层干预，我们将更新投影到远离所选 SAE 编码器方向的方向上。对于跨层干预，我们使用特征图雅可比矩阵来约束扰动如何影响跨层的特征。
- ⊳ **恢复路径归因**。除了测量*是否*发生恢复，我们还研究恢复发生*在哪里*。通过分解恢复后的残差状态，我们区分目标行为是通过未固定的 SAE 潜在变量进行补偿，还是利用了 SAE 未解释的重建残差。

通过我们的恢复方法，我们发现 SAE 干预很容易被恢复，因为即使相关行为被抑制，恢复路径仍然存在。在潜在层面，SAEBench [10 (https://arxiv.org/html/2606.18322#bib.bib25)] 上的 TPP 表明，编码器正交恢复保持了 74.9% 的高行为恢复率，同时将目标特征重新激活严格限制在仅 0.002。在输出层面，WMDP-Bio 遗忘 [8 (https://arxiv.org/html/2606.18322#bib.bib24)] 表明，恢复从干预后状态恢复了 98.9% 的严格有效答案选择翻转，且测量到的激活漂移为零。在电路层面，IOI [22 (https://arxiv.org/html/2606.18322#bib.bib27)] 表明，编码器投影方法在重新激活特征分数仅为 0.016 的情况下实现了 100% 的恢复。最后，在安全**拒绝引导**任务 [16 (https://arxiv.org/html/2606.18322#bib.bib12),23 (https://arxiv.org/html/2606.18322#bib.bib14)] 中，恢复在严格有效的 AdvBench 提示上达到了 95.8%，同时被防御特征的相对漂移保持在 0.131。值得注意的是，我们的归因分析揭示，这种恢复的恶意行为主要由 SAE 重建残差携带，而不是由其他可见的 SAE 特征携带。总之，这些结果表明 SAE 特征可以作为有用的局部因果句柄，但并不能构成完整的干预瓶颈。

## 2 相关工作

#### SAE 特征作为有用但不完整的句柄。

稀疏自编码器暴露了稀疏潜在变量，这些潜在变量可以作为编辑、引导和电路分析的可解释句柄 [3 (https://arxiv.org/html/2606.18322#bib.bib3),15 (https://arxiv.org/html/2606.18322#bib.bib9)]。如果对一个特征的干预改变了行为，那么该特征就是因果相关的；然而，因果相关性并不意味着完整性。关于叠加、SAE 几何、特征吸收、特征对冲和稀疏特征电路的研究表明，行为上相关的信息可以分布在相关方向或跨多个潜在变量分裂 [7 (https://arxiv.org/html/2606.18322#bib.bib7),12 (https://arxiv.org/html/2606.18322#bib.bib8),5 (https://arxiv.org/html/2606.18322#bib.bib4),4 (https://arxiv.org/html/2606.18322#bib.bib5),15 (https://arxiv.org/html/2606.18322#bib.bib9)]。这激发了我们的问题：在选定的 SAE 特征集被固定后，同样的行为能否通过该集合之外的残差方向恢复？

#### 从监控绕过到干预后恢复。

潜在空间防御通常在激活空间中检测有害或不期望的行为，然后通过干预抑制它。OABD 研究监控阶段，表明有害行为可以在激活规避探针、SAE 潜在变量监控器和 OOD 检测器的同时持续存在 [2 (https://arxiv.org/html/2606.18322#bib.bib2)]。我们研究后期的固定阶段：相关特征已被选择，干预仍然活跃，我们询问被抑制的行为是否仍能在这些特征保持接近其防御值的同时被恢复。

#### SAE 拒绝引导与约束恢复。

基于 SAE 的拒绝引导识别与拒绝相关的特征，并在推理过程中放大或抑制它们 [16 (https://arxiv.org/html/2606.18322#bib.bib12),23 (https://arxiv.org/html/2606.18322#bib.bib14)]。我们将此设置用作诊断：一旦拒绝特征被固定，非拒绝行为是否真的被消除？受 AlphaSteer 的零空间视角启发 [18 (https://arxiv.org/html/2606.18322#bib.bib29)]，我们将单层恢复更新投影到所选 SAE 编码器方向的零空间中，并将相同思想扩展到使用局部特征图雅可比矩阵的跨层设置。与 AlphaSteer 不同，我们调整零空间思想用于恢复诊断：不是在引导的同时保持效用，而是用它来测试行为能否在不直接重新激活目标 SAE 特征的情况下恢复。

## 3 预备知识

#### 稀疏自编码器。

设 MM 为一个 Transformer 语言模型，hl\(x\)∈RT×dh_\{\ell\}(x) \in \mathbb{R}^{T \times d} 表示输入序列 xx 在层 ℓ\ell 处的残差流激活。一个稀疏自编码器 (SAE) 将此激活映射为稀疏潜在特征并重建为：

zl\(x\)=El\(hl\(x\)\),h^l\(x\)=Dl\(zl\(x\)\).z_\{\ell\}(x) = E_\{\ell\}(h_\{\ell\}(x)), \qquad \hat{h}_\{\ell\}(x) = D_\{\ell\}(z_\{\ell\}(x))。

zl\(x\)z_\{\ell\}(x) 的坐标是 SAE 特征。对于选定的特征集 S\mathcal{S}，我们写 zl,S\(x\)z_\{\ell,\mathcal{S}\}(x) 表示相应的特征激活。

#### 特征层面干预。

一个特征层面干预选择一个特征集 S\mathcal{S} 并将这些特征设置为防御值 cSc_\mathcal{S}。零消融对应 cS=0c_\mathcal{S} = 0，而拒绝固定可能将选定的拒绝特征设置为非零防御值。遵循标准 SAE 干预实践，我们保留 SAE 重建残差并应用：

hldef\(x\)=Dl\(clampS⁡\(zl\(x\);cS\)\)\+\(hl\(x\)−h^l\(x\)\),h^{\mathrm{def}}_\ell(x) = D_\ell(\operatorname{clamp}_{\mathcal{S}}(z_\ell(x); c_\mathcal{S})) + \bigl(h_\ell(x) - \hat{h}_\ell(x)\bigr)，

其中 clampS\operatorname{clamp}_{\mathcal{S}} 将选定的 SAE 特征设置为 cSc_\mathcal{S}，并保持所有其他特征不变。我们将干预后的残差记为 hldef\(x\)h^{\mathrm{def}}_\ell(x)，并称之为**防御残差状态**。所有恢复实验都从该状态开始。

#### 有效翻转。

设 BB 为任务特定的谓词，指示目标行为是否存在。我们仅对**有效翻转**评估恢复：即基础模型表现出目标行为但活跃的 SAE 干预抑制了该行为的样本。这种条件确保仅当存在一个被抑制的行为需要恢复时才测量恢复。正式定义和任务特定的实例化见附录 A (https://arxiv.org/html/2606.18322#A1.SS0.SSS0.Px1)。

#### 因果句柄与完全瓶颈。

如果对一个选定的特征集 S\mathcal{S} 进行干预会改变目标行为，那么它是一个有用的**因果句柄**。这弱于成为一个**完整的干预瓶颈**：一旦固定活跃，就没有任何允许的残差扰动可以恢复被抑制的行为。我们的实验测试这个更强的条件。

## 4 干预后恢复

我们引入**干预后恢复**来测试一个干预是真正的**完全瓶颈**，还是只是一个可绕过的**因果句柄**。我们将此框架为一个约束优化问题：寻找一个微小的扰动来恢复被抑制的行为，而不改变活跃的 SAE 固定。图 1 (https://arxiv.org/html/2606.18322#S4.F1) 总结了方法流程：干预首先将原始残差状态映射到防御状态，然后恢复在保持固定活跃的同时搜索一个约束残差扰动，以恢复被抑制的行为。

#### 威胁模型。

我们研究在 SAE 干预应用后，模型是否能够恢复其原始行为。在白盒设置下，优化器可以检查防御模型，但不能改变模型权重、移除 SAE 固定，或选择一组不同的固定特征。我们唯一允许的是向防御残差状态添加一个加性扰动 δx\delta_x：

hlrec\(x\)=hldef\(x\)\+δx。h_\ell^{\mathrm{rec}}(x) = h^{\mathrm{def}}_\ell(x) + \delta_x。

我们将 δx\delta_x 定义为**恢复路径**。一个成功的恢复路径会在不重新激活固定特征本身的情况下恢复行为。换句话说，固定仍然存在。目标 SAE 特征仍然被抑制。但通过添加 δx\delta_x，模型的原始行为回来了。

找到这样一个路径表明，模型并不依赖单一的内部路径来实现这个行为。相反，该行为可以通过绕过防御的替代计算路径来恢复。

图 1：干预后恢复框架。从防御残差状态开始，我们在 SAE 特征固定保持活跃的同时优化一个约束残差扰动。
#### 恢复作为约束优化。

为了确保优化器严格依赖这些替代路径，而不是简单地通过压倒固定来移动被防御的特征，我们将 δx\delta_x 的搜索形式化为一个**约束优化问题**。我们将期望的恢复问题写为在特征保持约束下优化行为恢复损失 Lrec\mathcal{L}_{\mathrm{rec}}：

δx⋆=arg⁡minδx\displaystyle\delta_x^{\star} = \arg\min_{\delta_x} Lrec\(MS,c;x,hldef\(x\)\+δx\)\displaystyle \mathcal{L}_{\mathrm{rec}}\\!\left(M_{\mathcal{S},c};x,h^{\mathrm{def}}_\ell(x)+\delta_x\right) s\.t\.\displaystyle \mathrm{s.t.} Al,S⊤δx,τ=0,∀τ∈T

SAE干预不可靠：干预后受抑制行为的恢复

相似文章

WriteSAE：面向循环状态的稀疏自编码器

奖励模型中的偏好不稳定性：通过稀疏自编码器进行检测与缓解

从稀疏特征到可信代理：认证基于SAE的可解释性

在应稀疏分解时稀疏分解，在应密集吸收时勿密集吸收

稀疏自编码器实现CLIP模型的鲁棒且可解释的微调

提交意见反馈