在应稀疏分解时稀疏分解,在应密集吸收时勿密集吸收
摘要
论文假设语言模型激活包含一个低秩密集分量,该分量被稀疏自编码器(SAEs)低效表示。通过添加一个线性瓶颈来吸收密集结构,作者减少了密集潜变量,并改进了在Gemma-2-2B上的稀疏探针性能。
arXiv:2606.14040v1 公告类型:新 \n摘要:稀疏自编码器(SAEs)通常被训练通过稀疏字典重构\\textbf{整个}残差流,隐含地假设所有激活内容都适合稀疏、单语义分解。我们质疑这一假设,并认为激活包含一个低秩密集分量,该分量对模型计算重要,但本质上不适合稀疏表示,这是训练好的SAEs中广泛观察到的持久密集潜变量的主要来源。为了验证这一点,我们在标准SAEs(BatchTopK和Matryoshka)上并行添加一个秩为$r$的小型线性瓶颈,使得密集结构在稀疏重构之前被吸收。在Gemma-2-2B的第12层,秩为24的瓶颈将密集潜变量数量减少了最多84\\%,同时在匹配稀疏度下改善了两种架构的稀疏探针和定向探针扰动。被吸收的组件(i)\\textbf{结构上可识别}为主成分和异常维度;(ii)\\textbf{因果必要},移除它会使下一词元交叉熵提高7.5倍,远高于移除几何上几乎相同的top-24 PCA方向时的2.8倍;(iii)\\textbf{被稀疏字典冗余编码},消融787个最大对齐的稀疏特征仅使交叉熵提高2.9倍,消融2048个主题对齐特征使MMLU主题分类几乎不变,而移除支架则将其从98.7\\%降至随机水平。综上所述,我们的发现识别出一个紧凑、语义信息丰富且因果重要的残差流激活组件(我们称之为\\textbf{计算支架}),标准稀疏字典对其表示效率低下,这表明基于稀疏性的可解释性方法的范围值得仔细重新审视。
查看缓存全文
缓存时间: 2026/06/15 09:09
# 当稀疏处则分解,当密集处则吸收
来源:https://arxiv.org/html/2606.14040
Ruixuan Deng 心理学学院 佐治亚理工学院 rdeng62@gatech\.edu &Zehao Jin 计算机学院 佐治亚理工学院 zehao@gatech\.edu &Zekun Wang 交互计算学院 佐治亚理工学院 zekun@gatech\.edu &Zihan Dong 计算机学院 佐治亚理工学院 zdong312@gatech\.edu
###### 摘要
稀疏自编码器(SAEs)通常通过稀疏字典来重建整个残差流,隐式地假设所有激活内容都适合进行稀疏、单语义的分解。我们对这一假设提出质疑,并假设激活中包含一个低秩、密集的成分,该成分对模型计算至关重要,但本质上不适合稀疏表示,而这正是已训练SAE中广泛观察到的持续性密集隐变量的主要来源。为了验证这一点,我们在标准SAE(BatchTopK和Matryoshka)基础上并行添加了一个小规模的低秩线性瓶颈,使得密集结构能够在稀疏重建之前被吸收。在Gemma-2-2B第12层上,一个秩为24的瓶颈在匹配稀疏度的情况下,将密集隐变量数量减少高达84%,同时改善了两种架构上的稀疏探针和定向探针扰动。被吸收的成分(i)在结构上可识别为前几个主成分和离群维度;(ii)在因果上不可或缺,移除它会使下一个token的交叉熵增加7.5倍,远超移除几何上几乎相同的top-24 PCA方向所导致的2.8倍增加;并且(iii)被稀疏字典冗余编码,移除787个最大对齐的稀疏特征仅使交叉熵增加2.9倍,移除2048个主题对齐的特征几乎不影响MMLU主题分类,而移除该支架则将其从98.7%降至随机水平。总之,我们的发现识别出了残差流激活中一个紧凑、语义信息丰富且因果重要的成分(我们称之为**计算支架**),标准稀疏字典对此表示效率低下,这表明基于稀疏性的可解释性方法的适用范围值得重新审视。
## 1 引言
稀疏自编码器(SAEs)已成为从语言模型激活中提取可解释特征的主要工具\[3 (https://arxiv.org/html/2606.14040#bib.bib1),8 (https://arxiv.org/html/2606.14040#bib.bib10)\],使得对日益庞大的模型进行机制分析成为可能\[32 (https://arxiv.org/html/2606.14040#bib.bib2)\]。标准方法通过一个由学习到的特征组成的稀疏字典来重建**整个**残差流激活x∈RD\\mathbf\{x\}\\in\\mathbb\{R\}^\{D\}。这种设计隐含一个假设,即激活中所有有意义的内容都可以分解为稀疏的、近似单语义的方向,这一假设源于该领域在实践中如何操作化叠加的玩具模型\[11 (https://arxiv.org/html/2606.14040#bib.bib3)\]。
尽管这一范式被广泛采用,多个独立的证据线索表明该假设可能过于宽泛。Sun等人\[31 (https://arxiv.org/html/2606.14040#bib.bib34)\]记录了训练良好的SAE中存在持续的高触发率隐变量,将其分为六类功能类别(位置追踪、上下文绑定、零空间、字母表、词性、PCA重建)。Engels等人\[13 (https://arxiv.org/html/2606.14040#bib.bib14)\]在SAE残差中识别出一个线性可预测的成分,标准架构系统性地未能捕捉到该成分。典型的大规模激活离群维度\[1 (https://arxiv.org/html/2606.14040#bib.bib4)\]抵抗稀疏编码,并且已知集中在数千个通道中的少于20个通道内。这些现象被独立地研究为SAE训练的不同病理。
我们假设这些失效模式可能反映了一个共同的结构来源,即其计算角色与标准尺度下的稀疏字典编码不兼容的激活内容。如果这样的内容存在,强制其通过稀疏字典会浪费字典容量在既不可解释也不单语义的特征上,而一个专用的低维通道应该能够吸收它,从而解放SAE专注于适合稀疏分解的内容。这一假设提出了一个可检验的架构预测。一个小的并行通道,如果约束得当,应该能同时改善SAE质量指标并减少密集隐变量的普遍性。
为了验证这一预测,我们引入了一个**秩为**rr的线性瓶颈,与标准SAE并行运行。SAE作用于残差x−sg\[x^dense\]\\mathbf\{x\}\\-\\text\{sg\}\[\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\],只接收瓶颈未捕捉到的部分。功能分离通过三个设计约束来维持:线性(防止瓶颈重新编码稀疏特征)、低秩(防止SAE饥饿)以及梯度隔离(防止共同适应)。该瓶颈增加了可忽略的参数(2×r×D2\\times r\\times D,少于具有16384个元素的SAE的0.7%),且无需更改SAE的架构或训练过程。
我们的贡献如下:
- •我们提出了一种简单有效的方法来分离不适合稀疏分解的激活内容。通过将低秩线性瓶颈与标准SAE并行放置,我们允许密集、低维结构在稀疏重建之前被吸收,而无需修改SAE的架构或训练过程。在Gemma-2-2B第12层上,一个秩为24的瓶颈在匹配稀疏度的情况下,将密集隐变量数量减少高达84%,并改善了两种架构上的稀疏探针和定向探针扰动。
- •通过因果干预和后验分析,我们证实被吸收的成分在计算上是必要的(移除它会使交叉熵增加7.5倍,远超移除几何上几乎相同的top-24 PCA方向所导致的2.8倍增加),并且在结构上可识别为前几个主成分和Bondarenko离群维度。稀疏字典以冗余而非高效的方式编码该内容,移除787个最大对齐的稀疏特征仅使交叉熵增加2.9倍,移除2048个主题对齐的特征几乎不影响MMLU主题分类,而移除该成分则将其从98.7%降至随机水平。
- •我们提供了经验证据表明,训练SAE重建整个残差流的标准做法是次优的。一部分激活内容对于下游计算至关重要,但本质上不适合稀疏单语义分解,我们将其称为**计算支架**。未能将其分离会浪费字典容量,产生持久的密集隐变量\[31 (https://arxiv.org/html/2606.14040#bib.bib34)\],并降低下游提取质量。我们的结果表明,基于稀疏性的可解释性方法可能具有比领域当前实践假设更窄的适用范围。
## 2 相关工作
#### 稀疏自编码器架构。
残差流SAE由Bricken等人\[3 (https://arxiv.org/html/2606.14040#bib.bib1)\]、Cunningham等人\[8 (https://arxiv.org/html/2606.14040#bib.bib10)\]确立为标准可解释性工具,并由Templeton等人\[32 (https://arxiv.org/html/2606.14040#bib.bib2)\]扩展到前沿模型。后续工作主要针对用于强制稀疏性的激活函数,包括TopK\[16 (https://arxiv.org/html/2606.14040#bib.bib17)\]、JumpReLU\[29 (https://arxiv.org/html/2606.14040#bib.bib32)\]、Gated\[28 (https://arxiv.org/html/2606.14040#bib.bib31)\]、BatchTopK\[4 (https://arxiv.org/html/2606.14040#bib.bib6)\]、Matryoshka嵌套字典\[5 (https://arxiv.org/html/2606.14040#bib.bib7)\]以及混合专家路由\[25 (https://arxiv.org/html/2606.14040#bib.bib26)\],还有transcoder变体\[10 (https://arxiv.org/html/2606.14040#bib.bib12),27 (https://arxiv.org/html/2606.14040#bib.bib29)\]、端到端目标\[2 (https://arxiv.org/html/2606.14040#bib.bib5)\]以及大型开源套件\[23 (https://arxiv.org/html/2606.14040#bib.bib24),17 (https://arxiv.org/html/2606.14040#bib.bib18)\],现在由Karvonen等人\[20 (https://arxiv.org/html/2606.14040#bib.bib21)\]标准评估。我们的贡献是正交的:我们保持SAE的架构和训练过程不变,只添加一个小的并行线性瓶颈。而Paulo等人\[27 (https://arxiv.org/html/2606.14040#bib.bib29)\]在MLP transcoder上使用全秩仿射跳跃连接,我们则对**残差流SAE**应用**低秩**线性投影,并证明秩约束对于避免SAE饥饿是必要的(附录B (https://arxiv.org/html/2606.14040#A2))。
#### 稀疏自编码器的失效模式。
SAE表现出系统性的病理,表明稀疏分解假设存在结构限制。Sun等人\[31 (https://arxiv.org/html/2606.14040#bib.bib34)\]列举了六类在训练良好的SAE中持续存在的密集隐变量(位置、上下文、零空间、字母表、词性、PCA重建),Engels等人\[13 (https://arxiv.org/html/2606.14040#bib.bib14)\]表明SAE误差向量包含一个“暗物质”成分,该成分在很大程度上可由输入线性预测,这两者都表明一部分激活内容系统性地抵抗稀疏分解。其他补充的失效模式包括特征吸收和分裂\[7 (https://arxiv.org/html/2606.14040#bib.bib9)\]、多维非线性特征\[12 (https://arxiv.org/html/2606.14040#bib.bib13)\]、非标准和非原子特征单元\[22 (https://arxiv.org/html/2606.14040#bib.bib23)\]以及依赖种子的分解\[26 (https://arxiv.org/html/2606.14040#bib.bib30)\]。在评估方面,SAE在探针\[19 (https://arxiv.org/html/2606.14040#bib.bib20)\]和引导\[33 (https://arxiv.org/html/2606.14040#bib.bib37)\]方面被简单基线匹配或超越,标准可解释性指标无法区分其与随机初始化的Transformer\[18 (https://arxiv.org/html/2606.14040#bib.bib19)\],并且在代理指标和下游指标之间存在系统性差距\[20 (https://arxiv.org/html/2606.14040#bib.bib21)\]。我们假设这些现象中的几个,包括持久密集隐变量、暗物质以及某些内容对稀疏编码的更广泛抵抗,共享一个共同的结构来源,并在第5节 (https://arxiv.org/html/2606.14040#S5)中提供直接证据。
#### 语言模型激活的结构。
Transformer残差流表现出超越特征叠加图景\[11 (https://arxiv.org/html/2606.14040#bib.bib3)\](该图景推动了SAE设计)的显著结构。一系列长期工作记录了集中在少数通道中的极端幅值离群维度\[21 (https://arxiv.org/html/2606.14040#bib.bib22),9 (https://arxiv.org/html/2606.14040#bib.bib11),1 (https://arxiv.org/html/2606.14040#bib.bib4),30 (https://arxiv.org/html/2606.14040#bib.bib33)\],这与注意力沉洞现象\[34 (https://arxiv.org/html/2606.14040#bib.bib38),6 (https://arxiv.org/html/2606.14040#bib.bib8)\]密切相关,而嵌入几何文献表明上下文表示高度各向异性,并由少数几个主成分主导\[14 (https://arxiv.org/html/2606.14040#bib.bib15),15 (https://arxiv.org/html/2606.14040#bib.bib16),24 (https://arxiv.org/html/2606.14040#bib.bib25)\]。第5.1节 (https://arxiv.org/html/2606.14040#S5.SS1)表明这些离群和top-PC子空间与我们的瓶颈学习吸收的成分在很大程度上重叠,连接了离群维度和密集隐变量文献,并表明两者都反映了相同的低秩激活结构。
## 3 方法
我们将一个秩为rr的线性瓶颈与标准稀疏自编码器并行放置 (图1 (https://arxiv.org/html/2606.14040#S3.F1))。给定激活x∈RD\\mathbf\{x\}\\in\\mathbb\{R\}^\{D\}:
z\\displaystyle\\mathbf\{z\}=Wencx,Wenc∈Rr×D\\displaystyle=W\_\{\\text\{enc\}\}\\mathbf\{x\},\\quad W\_\{\\text\{enc\}\}\\in\\mathbb\{R\}^\{r\\times D\}\(1\)x^dense\\displaystyle\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}=Wdecz,Wdec∈RD×r\\displaystyle=W\_\{\\text\{dec\}\}\\mathbf\{z\},\\quad W\_\{\\text\{dec\}\}\\in\\mathbb\{R\}^\{D\\times r\}\(2\)x^sparse\\displaystyle\\hat\{\\mathbf\{x\}\}\_\{\\text\{sparse\}\}=SAE\(x−sg\[x^dense\]\)\\displaystyle=\\text\{SAE\}\\bigl\(\\mathbf\{x\}\\-\\text\{sg\}\[\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\]\\bigr\)\(3\)x^\\displaystyle\\hat\{\\mathbf\{x\}\}=x^dense\+x^sparse\\displaystyle=\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\+\\hat\{\\mathbf\{x\}\}\_\{\\text\{sparse\}\}\(4\)其中sg\[⋅\]\\text\{sg\}\[\\cdot\]表示停止梯度。SAE只接收减去瓶颈贡献后的残差,并且瓶颈不会通过SAE的损失接收梯度。该架构与任何稀疏SAE兼容;我们在BatchTopK (\(\|D\|=16384\|\\mathcal\{D\}\|\{=\}16384,k=40k\{=\}40\)) 和MatryoshkaBatchTopK (使用相同的字典大小和5个嵌套组) 上进行验证。
参考图注图1:架构概览。一个秩为rr的线性瓶颈与标准稀疏自编码器并行运行。SAE作用于减去瓶颈贡献(带停止梯度)后的残差x−sg\[x^dense\]\\mathbf\{x\}\\-\\text\{sg\}\[\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\]。组合重建x^=x^dense\+x^sparse\\hat\{\\mathbf\{x\}\}=\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\+\\hat\{\\mathbf\{x\}\}\_\{\\text\{sparse\}\}使用三项损失进行训练 (公式5 (https://arxiv.org/html/2606.14040#S3.E5))。训练损失结合了三个项:
L=‖xsparse\_in−x^sparse‖2⏟稀疏重建\+‖x−x^dense‖2⏟瓶颈重建\+λ‖x−x^‖2⏟全信号\\mathcal\{L\}=\\underbrace\{\\\|\\mathbf\{x\}\_\{\\text\{sparse\\\_in\}\}\-\\hat\{\\mathbf\{x\}\}\_\{\\text\{sparse\}\}\\\|^\{2\}\}\_\{\\text\{稀疏重建\}}\+\\underbrace\{\\\|\\mathbf\{x\}\-\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\\\|^\{2\}\}\_\{\\text\{瓶颈重建\}}\+\\lambda\\underbrace\{\\\|\\mathbf\{x\}\-\\hat\{\\mathbf\{x\}\}\\\|^\{2\}\}\_\{\\text\{全信号\}}\(5\)其中λ=1\.0\\lambda\{=\}1\.0且xsparse\_in=x−sg\[x^dense\]\\mathbf\{x\}\_\{\\text\{sparse\\\_in\}\}=\\mathbf\{x\}\\-\\text\{sg\}\[\\hat\{\\mathbf\{x\}\}\_\{\\text\{dense\}\}\]。每项的作用、架构约束(线性、低秩、梯度隔离)、秩的选择 (\(r=24r\{=\}24\)) 以及验证线性约束和秩约束的控制实验详见附录B (https://arxiv.org/html/2606.14040#A2)。
## 4 实验
### 4.1 线性瓶颈提升SAE质量
我们首先询问瓶颈是否提升了SAE质量。我们通过在Gemma-2-2B(第12层)上训练带有和不带有秩为24瓶颈的BatchTopK和Matryoshka SAE,在\(L_0=40L\_\{0\}\{=\}40\)条件下,并使用SAEBench完整套件\[5 (https://arxiv.org/html/2606.14040#bib.bib7)\]进行评估(训练细节见附录E (https://arxiv.org/html/2606.14040#A5))来测试这一点。表1 (https://arxiv.org/html/2606.14040#S4.T1) 展示了在相同训练条件下,向两种SAE架构添加秩为24线性瓶颈的效果。在两种架构上,提取质量指标均一致改善。解释方差增加了0.7–1.2个百分点,稀疏相似文章
WriteSAE:面向循环状态的稀疏自编码器
WriteSAE 引入了第一个稀疏自编码器,能够分解状态空间模型和混合循环语言模型中的矩阵缓存写入,相比现有方法实现了更优的令牌级干预。
多语言设计导向的调控:多语言稀疏自编码器与原则性层选择
本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。
稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
@_reachsumit: Latent Terms: 密集检索器包含可轻松提取的BM25就绪齐普夫词汇表 @bclavie 等人提取中…
该论文提出 Latent Terms 方法,使用稀疏自编码器从冻结的密集检索器中提取BM25就绪的稀疏特征,无需检索特定训练即可实现有竞争力的性能。
SAE干预不可靠:干预后受抑制行为的恢复
本文证明了对稀疏自编码器(SAE)特征的干预可能不可靠,因为受抑制的行为可以通过残差空间优化恢复,即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。