从稀疏特征到可信代理：认证基于SAE的可解释性

arXiv cs.LG 2026/06/18 04:00 论文

摘要

本文提出了一种事后认证框架，用于基于稀疏自编码器（SAE）的可解释性，通过可测量量推导出冻结语言模型风险的上界。该框架在GPT-2 Small、Gemma-2B和Llama-3-8B上得到了验证，显示出非空洞的界，并揭示了深度相关的行为。

arXiv:2606.18383v1 公告类型：新摘要：稀疏自编码器（SAE）越来越多地被用于从语言模型（LM）中提取可解释特征，但一个核心问题仍然存在：何时可以将基于SAE的解释视为底层冻结LM的忠实视图？我们通过一个事后泛化框架来研究这一问题，该框架通过稀疏代理来认证LM，具体方法是将原生隐藏激活替换为预训练的SAE重建。我们的框架使用四个可测量量推导出基础模型期望风险的上界：代理风险、SAE重建差距、概念池不匹配和稀疏复杂度。我们将这个证书解释为解释忠实性的操作标准。特别地，非空洞的界表明提取的稀疏特征保留了有意义的预测信息，而小的重建和错配误差表明代理在行为上仍然接近原始模型。实验上，我们展示了在GPT-2 Small、Gemma-2B和Llama-3-8B上，在实用的样本量下，该界变得非空洞。对Llama-3-8B的详细逐层分析揭示了强烈的深度依赖性，较后层变得更容易认证，这与更强的局部保真度和更弱的下游误差放大相关。最后，通过特征打乱消融实验，我们展示了分解区分了真正的语义对齐与纯粹的统计稀疏性，为基于SAE的解释何时变得不那么可靠提供了有用的诊断。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:42

# 从稀疏特征到可信代理：验证基于SAE的可解释性  
来源：https://arxiv.org/html/2606.18383  

###### 摘要  
稀疏自编码器（SAE）被越来越多地用于从语言模型（LM）中提取可解释的特征，但一个核心问题依然存在：基于SAE的解释何时能被视作底层冻结语言模型的忠实视图？我们通过一个事后验证框架来研究这一问题，该框架通过用预训练的SAE重建结果替换原生隐藏激活，从而通过一个稀疏代理来验证LM。我们的框架利用四个可测量量推导出基础模型期望风险的上界：代理风险、SAE重建差距、概念池不匹配和稀疏复杂度。我们将此验证解释为解释忠实性的操作化标准。具体来说，非平凡界表示提取的稀疏特征保留了有意义的预测信息，而小的重建误差和不匹配误差则表示代理在行为上接近原始模型。实验表明，在GPT-2 Small、Gemma-2B和Llama-3-8B上，该界在实际样本量下变为非平凡。对Llama-3-8B的逐层详细分析揭示了强烈的深度依赖性，较晚的层变得更容易验证，这与更强的局部保真度和更弱的下游误差放大相关联。最后，通过特征打乱消融实验，我们展示了该分解能够区分真正的语义对齐与单纯的统计稀疏性，为基于SAE的解释何时变得不可靠提供了有用的诊断。  

机器学习，ICML  

## 1 引言  
稀疏自编码器（SAE）（Cunningham等人，2023（https://arxiv.org/html/2606.18383#bib.bib5））越来越多地被用于通过稀疏、可人工检查的特征来解释冻结语言模型，这引出了一个基础性问题：*基于SAE的解释何时能被信任为底层LM的忠实镜头？*我们通过一个事后验证框架来研究这一问题，该框架询问由预训练SAE诱导的稀疏结构能否为冻结LM本身产生一个*非平凡的泛化界*，而不仅仅作为非正式的解释工具。具体来说，我们在选定层将冻结LM的原生隐藏激活替换为其SAE重建，同时保持所有下游层不变，从而获得一个SAE诱导的*稀疏代理*。我们证明原始LM的真实风险可由四个可测量的代理相关量上界限制：(i) 稀疏代理的经验风险，(ii) SAE重建引入的近似误差，(iii) 所选活跃概念池未能覆盖预测所需特征的概率，以及 (iv) 一个稀疏复杂度项，其大小由活跃特征池规模而非全LM参数数量决定。这一分解使信任标准显式化：只有当所得界为非平凡且重建和池不匹配项保持较小（表明代理既对冻结模型有信息量又在行为上接近它）时，SAE诱导的代理才能被视为可靠的解释镜头。这引出了本文的主要观点。尽管被验证的对象是冻结LM，但该验证之所以有价值，恰恰在于它通过一个SAE诱导的稀疏代理来表达。因此，我们在严格的操作意义上使用*忠实性*：稀疏代理必须信息足够丰富，能够证明冻结模型相对于无信息基线是非平凡的，同时在行为上接近原始网络的输出。在此观点下，*信任*是有用性和行为忠实性的结合。虽然这不表示活跃SAE特征构成了模型完整的语义或因果解释，但它确实确立了稀疏代理具有足够的信息量和低失真，以支持可靠的解释。附录H（https://arxiv.org/html/2606.18383#A8）通过将验证的非平凡性与前者关联，将重建和池不匹配项与后者关联，使这一点操作化。  

我们的实验在实践中支持了这一操作化视角。在GPT-2 Small、Gemma-2B和Llama-3-8B上，所得验证在实际样本量下变为非平凡。我们随后在Llama-3-8B上进行了逐层案例研究，发现可验证性随补丁位置剧烈变化：较晚的层比早期和中间层更容易验证。为了理解这一效应，我们将局部SAE重建质量与下游误差传播分开，发现较晚层代理既表现出更强的局部对齐，也表现出更弱的下游误差放大。定性上，较晚层更紧凑的验证伴随着SAE特征，这些特征的logit-lens语言化结果与模型的下一个词元行为更上下文对齐。附录E（https://arxiv.org/html/2606.18383#A5）中补充的GPT-2 Small结果显示其对层次敏感性弱得多，表明这种深度效应的强度是模型特定的而非普遍的。因此，我们使用Llama-3-8B作为一个诊断性信息丰富的案例研究，以说明补丁位置何时以及为何重要。总之，本文既为基于SAE的冻结语言模型解释提供了一个原则性的事后信任标准，也提供了实证分析，展示了该标准在实践中何时最有用、何时最不有用。  

#### 贡献。  
我们的主要贡献如下：(i) 我们为冻结LM引入了一个事后验证框架，其中预训练SAE在选定隐藏层定义一个稀疏代理，并推导出冻结模型的风险界，该界分解为四个可测量项：代理风险、重建差距、概念池不匹配和稀疏复杂度。(ii) 我们证明该验证在GPT-2 Small、Gemma-2B和Llama-3-8B上在实际样本量下变为非平凡。(iii) 我们在Llama-3-8B上进行了逐层和基于视界的条件性案例研究，以分析补丁位置实质性影响验证的设置。该分析表明，较晚的层更容易验证，并与更强的局部保真度和更弱的下游误差放大相关联；附录E（https://arxiv.org/html/2606.18383#A5）中补充的GPT-2结果显示了这种深度依赖性并非在所有模型- SAE对中普遍存在。我们已使代码可访问：https://github.com/newcodevelop/SAE-Faithfulness。  

## 2 相关工作  

### 2.1 稀疏自编码器与可解释特征  
稀疏自编码器（SAE）现在是探测大语言模型中隐藏表示的标准工具。它们受到叠加和多义性观察的启发：一个模型可能表示比神经元多得多的特征，而单个神经元可能混合不相关的概念（Elhage等人，2022（https://arxiv.org/html/2606.18383#bib.bib7））。SAE通过学习一个过完备但稀疏的特征基来解决这一问题，通常产生比原生激活更易解释的特征（Bricken等人，2023（https://arxiv.org/html/2606.18383#bib.bib4）；Cunningham等人，2023（https://arxiv.org/html/2606.18383#bib.bib5））。我们使用这种机制的方式与大多数先前工作不同。我们并非主要将SAE用于定性分析，而是将它们视为定义有限代理类和表示级复杂度度量的工具。  

### 2.2 大语言模型的泛化界  
高度过参数化模型的经验成功暴露了经典一致收敛直觉的局限性（Zhang等人，2017（https://arxiv.org/html/2606.18383#bib.bib18）；Nagarajan & Kolter，2021（https://arxiv.org/html/2606.18383#bib.bib11））。近期工作通过有界损失、PAC-Bayes或基于压缩的论证以及数据感知分析为语言模型开发了非平凡界（Dziugaite & Roy，2017（https://arxiv.org/html/2606.18383#bib.bib6）；Lotfi等人，2024a（https://arxiv.org/html/2606.18383#bib.bib9），b（https://arxiv.org/html/2606.18383#bib.bib10））。我们的论文在精神上最接近这一路线，但在压缩对象上有所不同。我们不压缩模型权重；相反，我们通过源自内部激活的稀疏特征池来验证一个冻结预测器。  

### 2.3 压缩、描述长度与结构解释  
基于压缩的泛化解释与奥卡姆式界和最小描述长度原则密切相关（Rissanen，1978（https://arxiv.org/html/2606.18383#bib.bib13）；Blumer等人，1987（https://arxiv.org/html/2606.18383#bib.bib3）；Arora等人，2018（https://arxiv.org/html/2606.18383#bib.bib1））。关键思想是，即使总体参数数量很大，泛化有时也可以通过所学函数的简洁描述来解释。我们的贡献符合这一视角，但更强调*结构可解释性*。所得验证并非作为可能的最紧凑事后风险界来呈现；相反，它旨在暴露一小组可解释的成分——概念池大小、重建误差和池不匹配——这些使界具有信息量。  

## 3 预备知识  
我们首先定义SAE符号，然后陈述事后验证协议，最后形式化所提出的界。  

### 3.1 稀疏自编码器（SAE）  
我们分析一个基础LM，记为 \( M \)，它将输入 \( x \) 映射到特定层的高维隐藏表示 \( h(x) \in \mathbb{R}^d \)。为了解释这个密集表示，我们利用一个稀疏自编码器（SAE）\( S \)，包含编码器 \( S_E: \mathbb{R}^d \rightarrow \mathbb{R}^m \) 和解码器 \( S_D: \mathbb{R}^m \rightarrow \mathbb{R}^d \)，其中字典大小 \( m \) 通常远大于模型宽度 \( d \)（\( m \gg d \)）。SAE通过以下操作将激活分解为一组稀疏的可解释特征： i) **编码**：密集隐藏状态被投影到预激活特征向量 \( a(x) := S_E(h(x)) \in \mathbb{R}^m \)。 ii) **稀疏化**：我们应用非线性TopK操作，保留 \( k \) 个幅度最大的系数，并将其余置零。得到可解释的稀疏编码 \( c(x) := \text{TopK}(a(x)) \)。 iii) **重建**：稀疏编码被映射回原始激活空间以产生近似隐藏状态 \( \hat{h}(x) := S_D(c(x)) \)。  

#### 代理预测器。  
代理预测器 \( S \circ M \) 通过将 \( \hat{h}(x) \) 输入 \( M \) 的下游部分（从插入层开始）来获得对输出的预测分布。我们将 \( (S \circ M)(x) \) 写为得到的预测分布。  

### 3.2 理论方法概述  
第4节（https://arxiv.org/html/2606.18383#S4）的目标是利用代理预测器 \( S \circ M \) 为基础模型 \( M \) 推导一个泛化验证。我们的分析分两个阶段进行： i) **阶段1（冻结）**：基础模型 \( M \) 和 SAE 组件（\( S_E, S_D \)）是预训练并固定的。就我们的定理而言，它们被视为冻结的预言机，而非变量假设。 ii) **阶段2（验证）**：在保留的校准流上，我们从观察到的 Top-k SAE 支持的并集中构建一个概念池 \( G^* \)，并使用其大小 \( P := |G^*| \) 作为复杂度度量，而非基础模型 \( M \) 的原始参数计数。这反过来使得即使在实际样本量下界也变为非平凡。  

## 4 问题定义  

### 4.1 风险公式化  
令 \( \mathcal{X} \) 为输入空间，\( \mathcal{D} \) 为 \( \mathcal{X} \) 上的未知分布。在语言建模设置中，我们将一个样本视为词元序列 \( x = x_{1:T} \)。我们将总体风险定义为：
\[
\mathcal{R}(M) := \mathbb{E}_{x_{1:T} \sim \mathcal{D}} \big[ \ell(M, x_{1:T}) \big]
\]
并给定 \( N \) 个 i.i.d. 样本 \( \{ x_{1:T}^{(i)} \}_{i=1}^N \)，经验风险定义为：
\[
\hat{\mathcal{R}}(M) := \frac{1}{N} \sum_{i=1}^N \ell\big(M, x_{1:T}^{(i)}\big)
\]
注意，词元序列 \( \{ x_{1:T}^{(i)} \}_{i=1}^N \) 必须是 i.i.d. 样本以使界成立。为此，我们将序列打断成一连串连续词元，然后从数据集中均匀随机采样序列。这也是 Lotfi 等人（2024a（https://arxiv.org/html/2606.18383#bib.bib9））使用的方法。  

### 4.2 基于稀疏自编码器（SAE）的泛化框架  
为了形式化 \( M \) 的复杂度，我们引入一个稀疏自编码器（SAE）探针，记为 \( S \)。代理预测器 \( S \circ M \) 通过替换内部激活 \( h_t = M(x_{1:t}) \) 为重建 \( \hat{h}_t = S_D(c_t) \)（其中 \( c_t = \text{TopK}(S_E(h_t)) \)）来定义。设 \( G^* \) 为校准数据上所有观测到的活跃特征索引的并集：\( G^* = \bigcup_{i=1}^N \text{supp}(c^{(i)}) \)，其大小 \( P = |G^*| \) 是有效特征池。然后我们推导出以下界（详情见附录 B（https://arxiv.org/html/2606.18383#A2））：  
\[
\mathcal{R}(M) \leq \hat{\mathcal{R}}(S \circ M) + \underbrace{\frac{1}{N} \sum_{i=1}^N \ell(M, x^{(i)}) - \ell(S \circ M, x^{(i)})}_{\text{重建差距}} + \underbrace{\mathbb{P}_{x \sim \mathcal{D}}( \text{supp}(c(x)) \not\subseteq G^* )}_{\text{概念池不匹配}} + \sqrt{\frac{\ln(2P/\delta)}{2N}}
\]
其中前两项是可测量的，第三项通过校准数据估计，最后一项是稀疏复杂度项。  

（原文在此处似乎被截断，后续内容涉及实验部分。）  

## 5 实验  
（根据提供的片段，实验部分包括图1、图2、图3、图4及其说明文字，以及5.3节定性案例研究。但片段不完整，只能翻译可见部分。）  

**图1**：（说明文字未完整给出，但根据上下文应展示不同模型在不同样本量下的验证非平凡性曲线。）  

**图2**：Llama-3-8B 的逐层验证曲线。x 轴：N（校准样本数）。y 轴：验证（比特）。每条曲线对应一个补丁层。晚层（l=24,28,30）在N≈1000时变为非平凡；早层（l=4,8）保持为平凡水平，直至最大样本量。  

**图3**：Llama-3-8B 的逐层、视界条件性 KL 散度。对于每个补丁层，我们报告基础模型与代理预测器之间下一个词元分布的 KL 散度，作为评估视界 h 的函数。晚层（l=24,28,30）始终表现出较低的开始 KL 和较慢的增长。  

**图4**：消融实验：语义特异性。每条序列重建差距的密度。绿色（真实 SAE）：基线误差紧密聚集在 0 比特附近，表明高语义保真度。红色（打乱特征）：随机排列活跃特征索引——同时严格保持每样本稀疏度 k 和激活幅度——使误差分布大幅右移（GPT-2 Small、Gemma-2B 和 Llama-3-8B 的平均偏移分别约为 6.5、8.5 和 9.5 比特）。  

### 5.3 定性案例研究  
我们进一步检查更紧凑的晚层验证是否对应更可解释的活跃 SAE 特征。对于两个演绎提示，我们比较早层（层 12）和晚层（层 24），使用基础-代理下一个词元 KL 以及活跃 SAE 解码器方向的 logit-lens 语言化结果。早层代理表现出高 KL 散度（>7.5），下一词元预测错误，特征提示弱上下文相关。相反，晚层代理更接近基础模型：KL 急剧下降，预测接近或匹配目标下一词元，活跃特征语言化出上下文相关的补全，如“silent, silence, quiet”。  

（由于提供的原文在翻译过程中可能不完整，以上翻译基于可见内容进行。如有遗漏部分，请补充完整原文以便继续。）

相似文章

稀疏自编码器实现CLIP模型的鲁棒且可解释的微调

Hugging Face Daily Papers

SAE-FT提出了一种新颖的CLIP模型微调方法，利用稀疏自编码器约束来正则化视觉表示，在保持性能的同时提高对分布变化的鲁棒性，并实现可解释性。

量化如何改变可解释特征：语言模型的稀疏自编码器分析

arXiv cs.LG

本文研究了在全精度语言模型中由稀疏自编码器识别的可解释特征在量化后是否仍然忠实，发现系统性的退化，而像困惑度这样的行为指标可能无法捕捉到这种退化。

扩展单义性：从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征，解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性，并涵盖欺骗、谄媚等安全相关概念，且对模型输出具有因果影响。

SAE干预不可靠：干预后受抑制行为的恢复

arXiv cs.LG

本文证明了对稀疏自编码器（SAE）特征的干预可能不可靠，因为受抑制的行为可以通过残差空间优化恢复，即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs