稀疏自编码器中特征饥饿的几何不稳定性

arXiv cs.LG 2026/05/08 04:00 论文

摘要

本文将稀疏自编码器中的特征饥饿识别为一种几何不稳定性，并提出自适应弹性网络 SAE（AEN-SAE）来在不依赖启发式方法的情况下缓解该问题。

arXiv:2605.05341v1 公告类型：新论文摘要：稀疏自编码器（SAE）用于将大型语言模型（LLM）密集且多语义的内部表示解耦为可解释的单语义概念。然而，标准的 $\ell_1$ 正则化 SAE 存在特征饥饿（死神经元）和收缩偏差的问题，通常需要计算昂贵的启发式重采样和不可微的硬掩码方法来绕过这些挑战。我们认为，特征饥饿不仅仅是数据多样性差的实证伪影，而是完备字典（overcomplete dictionaries）优化-几何层面的根本性病理：由 $\ell_1$ 诱导的稀疏编码映射是不稳定的，且与浅层、摊销编码器根本性错位。为了解决这种结构性不稳定性，我们引入了自适应弹性网络 SAE（AEN-SAE），这是一种基于经典稀疏回归的全可微架构。AEN-SAE 结合了强制强凸性和利普希茨稳定性的 $\ell_2$ 结构项，以及消除收缩偏差并抑制虚假特征的自适应 $\ell_1$ 重新加权，从而共同控制诱导的多面体几何的曲率和交互结构。在理论上，我们证明了 AEN-SAE 在温和假设下能产生利普希茨连续的稀疏编码映射，并恢复全局特征支撑集。在经验上，跨越合成设置和 LLM（Pythia 70M, Llama 3.1 8B），AEN-SAE 在无辅助启发式方法的情况下缓解了特征饥饿，同时保持了具有竞争力的重建能力。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 06:57

# 稀疏自编码器中作为几何不稳定的特征饥饿

来源: https://arxiv.org/html/2605.05341

Faris Chaudhry
帝国理工学院伦敦校区
伦敦 SW7 2AZ, 英国
faris\.chaudhry22@imperial\.ac\.uk

&

Keisuke Yano
统计数学院
东京立川市绿町 10-3, 日本 190-8562
yano@ism\.ac\.jp

Anthea Monod
帝国理工学院伦敦校区
伦敦 SW7 2AZ, 英国
a\.monod@imperial\.ac\.uk

###### 摘要

稀疏自编码器（SAEs）用于将大型语言模型（LLMs）中密集、多语义的内部表征解耦为可解释的、单语义的概念。然而，标准的 \( \ell_{1} \) 正则化 SAEs 遭受特征饥饿（死神经元）和收缩偏差的影响，通常需要通过计算昂贵的启发式重采样和非可微的硬掩码方法来解决这些挑战。我们认为，特征饥饿不仅仅是数据多样性差的经验性产物，而是过完备字典的根本性优化-几何病理：\( \ell_{1} \) 诱导的稀疏编码映射是不稳定的，并且与浅层摊销编码器根本错配。为了解决这种结构不稳定性，我们引入了自适应弹性网络 SAEs（AEN-SAEs），这是一种基于经典稀疏回归的全可微架构。AEN-SAEs 结合了施加强凸性和 Lipschitz 稳定性的 \( \ell_{2} \) 结构项，以及消除收缩偏差并抑制虚假特征的自适应 \( \ell_{1} \) 重加权，从而共同控制所诱导的多面体几何的曲率和交互结构。理论上，我们表明 AEN-SAEs 产生 Lipschitz 连续的稀疏编码映射，并在温和假设下恢复全局特征支撑。在合成设置和 LLMs（Pythia 70M, Llama 3.1 8B）的经验测试中，AEN-SAEs 在没有辅助启发式方法的情况下缓解了特征饥饿，同时保持了具有竞争力的重建能力。

## 1 引言

大型语言模型（LLMs）在其密集的残差流中编码复杂的多语义概念，使其内部决策过程不透明。最近，稀疏自编码器（SAEs）已成为机制可解释性中的主要技术，用于将这些表征线性解耦为可解释的单语义特征 [10 (https://arxiv.org/html/2605.05341#bib.bib3), 4 (https://arxiv.org/html/2605.05341#bib.bib1), 9 (https://arxiv.org/html/2605.05341#bib.bib2)]。通过训练带有 \( \ell_{1} \) 稀疏惩罚的过完备字典，SAEs 将密集激活投影到更高维度的空间，其中单个基方向对应于人类可理解的概念。SAE 干预的具体设置如图 1 (https://arxiv.org/html/2605.05341#S1.F1) 所示，建立在表征学习的经典自编码器框架之上 [18 (https://arxiv.org/html/2605.05341#bib.bib4)]。

给定一个具有 \( F \) 层的预训练冻结 LLM，输入 token \( X_{0} \) 被处理到选定的中间层 \( M \) 以提取密集表征 \( X_{M} \)。中间层是特别针对的目标，因为实证证据表明这是最复杂的多语义推理发生的地方，而较早和较晚的层则严重偏向于原始词汇处理和 logit 解嵌，分别 [15 (https://arxiv.org/html/2605.05341#bib.bib5)]。SAE 编码器将 \( X_{M} \) 投影到稀疏的高维潜在空间 \( h(X_{M}) \)。解码器然后将此投影映射回原始维度以产生重建的激活 \( \hat{X}_{M} \)。通过用这些重建 \( \hat{X}_{M} \) 替换原始激活并测量下游恢复，可以隔离和解释对应于人类可理解概念的各个基方向。

> **图 1 说明：稀疏自编码器设置。**
> SAE 将中间 LLM 激活 \( X_{M} \) 压缩为稀疏表征 \( h(X_{M}) \) 并将其重建为 \( \hat{X}_{M} \)。为了评估字典的保真度，用 \( \hat{X}_{M} \) 替换真实激活，并通过冻结的 LLM 继续前向传播以产生重建的最终 logits \( \hat{X}_{F} \)。性能通过原始输出 \( X_{F} \) 和 \( \hat{X}_{F} \) 之间的散度来衡量。

尽管在经验上取得了成功，标准的 \( \ell_{1} \) 正则化 SAEs 遭受严重的优化病理——最值得注意的是**特征饥饿**（死神经元）和**幅度收缩**（特征激活的系统性低估）。虽然提出了各种架构补丁来规避这一问题（从计算昂贵的重采样启发式方法到非可微的硬掩码），但这些技术只是治标而未解决潜在的几何根本原因。在实践中，此类方法严重依赖辅助机制——如代理梯度、重采样策略或额外的损失项——以防止特征崩溃。这些干预通常计算成本高，引入额外的复杂性，并可能大幅增加达到竞争性性能所需的训练成本。

在这项工作中，我们表明特征饥饿源于底层稀疏编码问题的多面体几何。训练 SAE 是试图在单次摊销的前向传播中近似计算密集的最小绝对收缩和选择算子（LASSO）目标 [37 (https://arxiv.org/html/2605.05341#bib.bib17)]。然而，标准的 \( \ell_{1} \) 公式诱导出不稳定且不连续的稀疏编码映射，这与浅层摊销编码器根本错配，并导致系统性的训练失败。

为了解决这些挑战，我们引入了**自适应弹性网络稀疏自编码器**（AEN-SAEs），这是一种全可微架构，减少了对辅助启发式方法的需求，同时提高了计算效率。借鉴经典稀疏回归，AEN-SAEs 应用自适应 \( \ell_{1} \) 惩罚，该惩罚对于真实信号消失以消除收缩偏差。此外，我们将其与恒定的 \( \ell_{2} \) 结构锚点耦合。这种 \( \ell_{2} \) 惩罚确保强凸性并显式界定稀疏编码映射的稳定常数。因此，AEN-SAE 可以解释为一种类似于预条件化的对角重加权形式，产生稳定且全可微的架构，自然避免死特征。

我们的主要贡献如下：

*   **理论依据**：我们通过稀疏恢复的视角正式化了标准 SAEs 的特征饥饿病理。我们表明我们的 AEN-SAE 公式满足类 oracle 的选择一致性，同时显式界定稳定常数以保证激活空间中的多面体稳定性。
*   **架构效率**：我们引入了一种可扩展的流式机制来计算自适应 LASSO 权重，而无需计算昂贵的代理梯度。
*   **经验扩展**：在受控的合成环境和真实模型（Pythia 70M [3 (https://arxiv.org/html/2605.05341#bib.bib10)]，Llama 3.1 8B [16 (https://arxiv.org/html/2605.05341#bib.bib9)]）中，我们证明 AEN-SAEs 缓解了死特征，并与基线相比实现了具有竞争力的重建曲线。

## 2 背景和相关工作

我们回顾了 SAEs 和经典稀疏回归的相关背景，并引入了支撑我们方法的几何视角。特别是，我们将 SAE 训练与摊销稀疏恢复联系起来，并强调了基于 \( \ell_{1} \) 的公式的稳定性局限性，这激发了我们的方法。

### 2.1 机制可解释性和 SAEs

超位置假设认为，神经网络通过将特征打包到激活空间中近似正交的方向上，编码比其环境维度更多的特征 [10 (https://arxiv.org/html/2605.05341#bib.bib3)]。SAEs 旨在通过学习过完备字典 \( D \in \mathbb{R}^{d_{\text{model}} \times d_{\text{dict}}} \)（其中 \( d_{\text{dict}} \gg d_{\text{model}} \)）来解码这种结构，将残差流 \( x \in \mathbb{R}^{d_{\text{model}}} \) 重建为特征方向的稀疏线性组合。标准的 SAE 目标采取 \( \ell_{1} \) 正则化重建损失的形式：

$$
\mathcal{L}_{\text{SAE}} = \mathbb{E}_{x} \left[ \frac{1}{2} \| x - (D h(x) + b_{\text{dec}}) \|_{2}^{2} + \lambda_{1} \| h(x) \|_{1} \right],
$$

其中 \( h(x) = \text{ReLU}(W_{\text{enc}}x + b_{\text{enc}}) \) 表示编码器预测的稀疏激活。在实践中，通过梯度下降优化此目标会导致两种特征性病理：**收缩偏差**和**特征饥饿**。\ \( \ell_{1} \) 惩罚系统地抑制活跃特征的幅度，防止其达到真实幅度。同时，编码器可能完全无法激活某些特征，将其预激活困在负区间。由于 ReLU 在负输入上的导数消失，这些特征接收不到梯度信号并保持永久不活跃，有效地成为*死神经元*。这种现象称为*特征饥饿*，是我们在这项工作中解决的中心失败模式。

早期缓解特征饥饿的尝试依赖于对死神经元的启发式重采样 [4 (https://arxiv.org/html/2605.05341#bib.bib1)]。为了避免完全字典重置，后续工作引入了*Ghost Gradients*——一种为不活跃特征提供代理梯度信号的实证启发式方法。这种方法的变体已成为大规模 SAE 训练的标准，其中辅助损失用于人工复活死神经元 [14 (https://arxiv.org/html/2605.05341#bib.bib6)]。虽然在实际中有效，但这些方法在根本上是启发式的：它们引入了不从底层目标派生的额外优化路径，需要维护辅助梯度缓冲区，并人工路由损失，从而增加计算开销。

架构创新试图解耦 \( \ell_{1} \) 的两种失败模式。门控 SAEs 将特征选择与幅度估计分开，减少收缩偏差 [32 (https://arxiv.org/html/2605.05341#bib.bib7)]。最近，硬掩码方法如 JumpReLU [33 (https://arxiv.org/html/2605.05341#bib.bib43), 24 (https://arxiv.org/html/2605.05341#bib.bib42)]、TopK [14 (https://arxiv.org/html/2605.05341#bib.bib6)] 和 BatchTopK [5 (https://arxiv.org/html/2605.05341#bib.bib13)] 强制严格的 \( K \) 稀疏瓶颈，并成为效率方面的最先进方法。然而，硬截断加剧了特征饥饿，并且这些方法仍然严重依赖辅助损失以防止特征崩溃 [14 (https://arxiv.org/html/2605.05341#bib.bib6)]。相关方法，如特征选择 SAEs [1 (https://arxiv.org/html/2605.05341#bib.bib14)]，引入额外的路由机制以实现类似效果。虽然在经验上有效，但硬掩码方法引入了非可微性的根本理论限制。强制精确稀疏性对应于求解 \( \ell_{0} \) 约束问题，这是组合且 NP 难的 [12 (https://arxiv.org/html/2605.05341#bib.bib11)]。

最近的工作 [22 (https://arxiv.org/html/2605.05341#bib.bib15)] 开始将稀疏恢复理论的思想纳入 SAE 设计，表明标准训练可能导致特征吸收或楔合 [7 (https://arxiv.org/html/2605.05341#bib.bib16)]。这些方法通过显式正则化字典以保持准正交性（低互相干性）来减轻这种影响。同样，当代的架构替代方案试图通过分层约束来解决特征吸收问题。套娃 SAEs [6 (https://arxiv.org/html/2605.05341#bib.bib44)] 强制较小的嵌套字典学习独立的高级概念，而不依赖于较大的字典，而后续的扩展使用归因引导的蒸馏来冻结核心特征并减少冗余 [27 (https://arxiv.org/html/2605.05341#bib.bib45)]。然而，与前几种方法一样，这些方法仍然严重依赖非可微的硬掩码机制。

### 2.2 经典多面体稀疏回归

\( \ell_{1} \) 正则化 SAEs 的行为与经典稀疏恢复密切相关 [12 (https://arxiv.org/html/2605.05341#bib.bib11), 38 (https://arxiv.org/html/2605.05341#bib.bib12)]。对于固定的字典 \( D \)，理想的稀疏表示 \( h^{*}(x) \) 由*LASSO 问题* [37 (https://arxiv.org/html/2605.05341#bib.bib17)] 给出：

$$
h^{*}(x) = \operatorname{argmin}_{h(x) \in \mathbb{R}^{d_{\text{dict}}}} \frac{1}{2} \| x - D h(x) \|_{2}^{2} + \lambda_{1} \| h(x) \|_{1}. \quad (1)
$$

目标是恢复*活动集* \( \mathcal{A} = \{ i : h^{*}_{i} \neq 0 \} \)，其稳定性由字典的几何性质决定——特别是互不相干性和活动 Gram 矩阵的条件数。LASSO 的经典恢复保证依赖于*不可表示条件*（IRC） [38 (https://arxiv.org/html/2605.05341#bib.bib12), 40 (https://arxiv.org/html/2605.05341#bib.bib18)]，这要求不活跃特征与活动集的相关性不高。在过完备的 LLM 字典中，此条件必然被违反，导致 \( \ell_{1} \) 惩罚抑制真实特征幅度，以避免选择相关噪声。

*自适应 LASSO* [43 (https://arxiv.org/html/2605.05341#bib.bib20)] 通过重新加权惩罚来解决这种抑制，\( w_{i} \propto \| \hat{h}_{i} \|^{-\gamma} \)，其中 \( \hat{h} \) 是初始估计，实现 oracle 支撑恢复，其中活动集被完美隔离，收缩偏差减少。然而，它需要两阶段程序——初始估计后跟重加权优化——这与 LLMs 中高效的摊销推理不兼容。虽然存在在线变体 [26 (https://arxiv.org/html/2605.05341#bib.bib21)]，但它们不能直接转化为 LLMs 所需的高度并行、低开销设置。

与稳定性相关的第二个因素是活动解的曲率，由活动 Gram 矩阵 \( D_{\mathcal{A}}^{\top} D_{\mathcal{A}} \) 的条件数决定。当活动特征高度共线时，此矩阵变得病态，展平损失景观并导致不稳定解。弹性网络正则化 [41 (https://arxiv.org/html/2605.05341#bib.bib19)] 通过引入 \( \ell_{2} \) 惩罚（\( \lambda_{2} \| h \|_{2}^{2} \)）来解决这个问题，强制强凸性。然而，它以增加收缩和特征分组为代价，这会降低可解释性。

### 2.3 摊销 LASSO 和多面体几何

我们将 SAE 训练解释为学习 LASSO 解映射的摊销近似：对于固定的字典 \( D \)，编码器 \( h(x) \) 旨在在单次前向传播中为每个输入 \( x \) 预测最优稀疏码 \( h^{*}(x) \)。摊销稀疏恢复的标准方法将迭代求解器展开到深度学习架构中，如 LISTA [17 (https://arxiv.org/html/2605.05341#bib.bib25

稀疏自编码器中特征饥饿的几何不稳定性

相似文章

特征组合的结构不稳定性

变分有损自编码器

重新审视熵正则化：自适应系数释放其在LLM强化学习中的潜力

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

几何金丝雀：通过表征稳定性预测可操控性与检测漂移

提交意见反馈