使用稀疏自编码器发现数百万个可解释特征

arXiv cs.LG 2026/06/26 04:00 论文

sparse-autoencoders mechanistic-interpretability interpretability qwen3 language-models alibaba research

摘要

本文介绍了Qwen3-Instruct SAE，这是一套基于Qwen3指令微调模型训练的稀疏自编码器，能够发现数百万个可解释特征，并展示了拒绝引导能力。

arXiv:2606.26620v1 公告类型：新摘要：稀疏自编码器（SAE）已成为一种强大的工具，可将叠加的语言模型表示分解为稀疏且可解释的特征。然而，训练SAE的计算成本高昂，且可用的开源SAE模型仍然有限。在本工作中，我们引入了**Qwen3-Instruct SAE**，一套在Qwen3指令微调模型家族上训练的全面SAE套件，涵盖了Qwen3-1.7B、Qwen3-4B和Qwen3-8B。对于Qwen3-1.7B和Qwen3-4B，我们在三个关键激活位点（残差流、MLP输出和注意力输出）上训练了分层SAE。对于Qwen3-8B，我们在残差流层的子集上训练了SAE。我们使用激活级重建指标和模型级恢复指标系统评估了这些SAE，揭示了不同层和组件之间不同的稀疏性-保真度权衡。最后，我们通过一个拒绝引导案例研究展示了Qwen3-Instruct SAE的实用性，表明选定的SAE特征可以因果地引导指令微调的Qwen3模型产生拒绝行为。我们的发布为研究指令微调语言模型中的稀疏表示、特征级机制和行为干预提供了实用资源。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:21

# 使用稀疏自编码器发现数百万可解释特征
来源：https://arxiv.org/html/2606.26620
XinYang He1,2, Wei Wang1, Bing Zhao1, Xuan Ren1, WenBo Li1, WeiXu Qiao1, Hu Wei1\*, Lin Qu1 1AI DATA, 阿里巴巴集团控股有限公司 2北京理工大学 \*通讯作者 通讯邮箱：kongwang@alibaba\-inc\.com (https://arxiv.org/html/2606.26620v1/[email protected])

###### 摘要

稀疏自编码器（SAEs）已成为将叠加的语言模型表示分解为稀疏且可解释特征的有力工具。然而，训练SAEs计算成本高昂，且可用的开源SAE模型仍然有限。在这项工作中，我们推出了Qwen3\-Instruct SAE，这是一套在Qwen3指令调优模型系列上训练的全面SAE套件，涵盖Qwen3\-1.7B、Qwen3\-4B和Qwen3\-8B。对于Qwen3\-1.7B和Qwen3\-4B，我们在三个关键激活位置训练逐层SAE：残差流、MLP输出和注意力输出。对于Qwen3\-8B，我们在残差流层的子集上训练SAEs。我们使用激活级重建指标和模型级恢复指标系统评估了这些SAEs，揭示了不同层和组件之间独特的稀疏性-保真度权衡。最后，我们通过一个拒绝引导案例研究展示了Qwen3\-Instruct SAE的实用性，表明选定的SAE特征可以因果地引导指令调优的Qwen3模型产生拒绝行为。我们的发布为研究指令调优语言模型中的稀疏表示、特征级机制和行为干预提供了实用资源¹¹¹我们将在未来几个月内发布代码和模型权重。.

使用稀疏自编码器发现数百万可解释特征

XinYang He1,2, Wei Wang1, Bing Zhao1, Xuan Ren1, WenBo Li1, WeiXu Qiao1, Hu Wei1\*, Lin Qu11AI DATA, 阿里巴巴集团控股有限公司2北京理工大学\*通讯作者通讯邮箱：kongwang@alibaba\-inc\.com (https://arxiv.org/html/2606.26620v1/[email protected])

## 一、引言

大型语言模型（LLMs）在推理、规划和广泛的下游任务中展现出令人印象深刻的能力Guo et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib18)); Yin et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib54)); Shang et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib45))。然而，这些能力背后的内部机制仍然知之甚少，给模型可解释性、安全对齐和可信部署带来了重大挑战Li et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib30))。机制可解释性旨在通过逆向工程神经网络内部执行的计算来填补这一空白Zhang and Nanda (2024 (https://arxiv.org/html/2606.26620#bib.bib55)); Patel and Pavlick (2022 (https://arxiv.org/html/2606.26620#bib.bib39)); Stolfo et al. (2023 (https://arxiv.org/html/2606.26620#bib.bib47)); Huben et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib24))，从而揭示学习到的表示和电路Conmy et al. (2023 (https://arxiv.org/html/2606.26620#bib.bib9)); Marks et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib33))如何产生模型行为。

机制可解释性的一个核心挑战是叠加假说Chen et al. (2023 (https://arxiv.org/html/2606.26620#bib.bib8)); Elhage et al. (2022 (https://arxiv.org/html/2606.26620#bib.bib12)); Hänni et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib25))，该假说认为神经网络通过在同一激活空间内以重叠方向编码多个特征，从而表示远超其神经元数量的特征Mikolov et al. (2013 (https://arxiv.org/html/2606.26620#bib.bib37)); Gurnee et al. (2023 (https://arxiv.org/html/2606.26620#bib.bib19))。这种现象使得直接从模型激活中隔离和解释单个特征变得困难。稀疏自编码器（SAEs）已成为解决这一问题的基本方法，它将叠加的表示分解为更大数量的稀疏且通常可解释的潜在特征Huben et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib24))。

参见标题图1：开源SAE模型发布时间线，展示了从早期探索到生态系统扩展的进程。我们的工作，Qwen3-Instruct SAE，将SAE分析扩展到Qwen3指令调优模型系列。最近的研究证明了SAEs在从大规模语言模型中提取可解释特征方面的有效性Gao et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib16)); Templeton et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib49))。特别是，Gemma ScopeLieberum et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib31))提供了在Gemma 2模型系列上训练的一套全面SAE，为机制可解释性研究建立了重要的开放资源。后续努力，包括GemmaScope 2222https://deepmind\.google/blog/gemma\-scope\-2\-helping\-the\-ai\-safety\-community\-deepen\-understanding\-of\-complex\-language\-model\-behavior/、Qwen\-ScopeDeng et al. (2026 (https://arxiv.org/html/2606.26620#bib.bib11))和LlamaScopeHe et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib22))，将该范式扩展到其他模型系列，进一步凸显了大规模SAE发布作为共享研究基础设施的价值。

为加速SAE研究进展，我们推出了Qwen3\-Instruct SAE，这是一套在Qwen3指令调优模型Yang et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib53))上训练的稀疏自编码器的全面公开版本。Qwen3\-Instruct SAE涵盖Qwen3\-1.7B、Qwen3\-4B和Qwen3\-8B。对于Qwen3\-1.7B和Qwen3\-4B，我们在三个位置提供每一层的SAE：MLP输出、注意力输出和残差流。对于Qwen3\-8B，我们目前发布了部分残差流层的SAE。通过发布这一广泛的逐层SAE集合，我们旨在为社区提供一个实用基础，用于探测Qwen3模型中的内部表示，并促进未来在特征发现、电路分析和比较机制可解释性方面的工作。

在本文中，我们描述了Qwen3\-Instruct SAE的构建，遵循并扩展了先前大规模SAE发布建立的方法框架Lieberum et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib31))。我们的贡献有三方面：

- •我们发布了Qwen3\-Instruct SAE，这是一套针对Qwen3指令调优模型系列的全面SAE套件，涵盖Qwen3\-1.7B、Qwen3\-4B和Qwen3\-8B。
- •我们提供了三个关键激活位置的逐层SAE：对于Qwen3\-1.7B和Qwen3\-4B，包括残差流、MLP输出和注意力输出；此外，我们还发布了Qwen3\-8B部分残差流层的SAE。
- •我们使用重建指标和模型恢复指标评估了Qwen3\-Instruct SAE，并通过一个关于指令调优Qwen3模型的拒绝引导案例研究展示了其实用性。

## 二、相关工作

#### 用于机制可解释性的稀疏自编码器。

机制可解释性的一个核心挑战是模型内部表示通常是多语义的，即单个神经元可能同时被多个语义无关的上下文激活Elhage et al. (2022 (https://arxiv.org/html/2606.26620#bib.bib12)); Chen et al. (2023 (https://arxiv.org/html/2606.26620#bib.bib8)); Hänni et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib25))。这使得直接用离散概念解释神经元激活或隐藏状态变得困难。SAEs已成为解决此问题的有前景方法，通过学习过完备且稀疏的潜在表示，将密集的激活分解成更可解释的特征Huben et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib24))。在语言模型背景下，SAEs已被用于识别单语义特征、分析跨上下文的特征激活，并支持对电路和引导模型行为的下游研究O’Brien et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib38)); Wu et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib52))。

同时，研究人员研究了SAE训练的一系列设计选择，包括架构变体Bussmann et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib5))、替代激活函数Bussmann et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib4)); Rajamanoharan et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib42)); Gao et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib16))以及标准化评估协议Karvonen et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib28)); Chanin and Garriga\-Alonso (2026 (https://arxiv.org/html/2606.26620#bib.bib6)); Wu et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib52))。这些努力共同将SAE确立为机制可解释性工具箱中的核心工具。

#### 将SAE扩展到大型语言模型。

一个关键的研究方向集中在将SAE训练扩展到最先进的大型语言模型，并系统性地向更广泛的研究社区发布所得的特征字典Templeton et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib49)); Gao et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib16)); Deng et al. (2026 (https://arxiv.org/html/2606.26620#bib.bib11))。对于开源模型，Lieberum et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib31))推出了Gemma Scope，这是一个在Gemma2模型系列的所有层和子层上训练的SAE集合，代表了首个大规模开源SAE套件。在此基础上，LlamaScope (He et al., 2024 (https://arxiv.org/html/2606.26620#bib.bib22))和Qwen\-Scope（与我们的工作同时进行）Deng et al. (2026 (https://arxiv.org/html/2606.26620#bib.bib11))将SAE训练扩展到LLaMA\-3.1\-8B和Qwen3模型系列，发布了在每层和子层上训练的SAE，为可解释特征在不同模型架构中一致出现提供了证据。这些努力共同表明，基于SAE的可解释性并非特定于任何模型系列，而是反映了大型语言模型组织其内部表示的普遍属性。

然而，为大规模模型训练一套全面的SAE仍然高度消耗资源。为进一步加速SAE研究进展，我们的工作通过发布Qwen3\-Instruct SAE将这一研究方向扩展到Qwen3指令调优模型系列，这是一套涵盖Qwen3\-1.7B、Qwen3\-4B和Qwen3\-8B的全面SAE套件，对Qwen3\-1.7B和Qwen3\-4B提供了MLP、注意力和残差流各层的完全覆盖，同时对Qwen3\-8B提供了部分残差流层（第0-8层）的发布，旨在为社区提供有用资源并促进未来的机制可解释性研究。

在附录B (https://arxiv.org/html/2606.26620#A2)中，我们提供了开源SAE模型的详细比较，特别关注我们的工作与Qwen\-Scope的不同之处。

## 三、方法论

在本节中，我们详细描述训练过程、超参数以及实验中使用的计算基础设施。

### 3.1 稀疏自编码器

给定来自语言模型的激活x∈Rn\mathbf{x}\in\mathbb{R}^n，稀疏自编码器（SAE）使用编码器和解码器对激活进行编码和重建：

f(x)=σ(Wencx+benc),\mathbf{f}(\mathbf{x})=\sigma\!\left(\mathbf{W}_{\mathrm{enc}}\mathbf{x}+\mathbf{b}_{\mathrm{enc}}\right), (1)
x^=Wdecf(x)+bdec,\hat{\mathbf{x}}=\mathbf{W}_{\mathrm{dec}}\mathbf{f}(\mathbf{x})+\mathbf{b}_{\mathrm{dec}}, (2)
其中f(x)∈Rm\mathbf{f}(\mathbf{x})\in\mathbb{R}^m表示稀疏潜在变量，σ(⋅)\sigma(\cdot)是一个非线性函数，如ReLU，Wenc∈Rm×n\mathbf{W}_{\mathrm{enc}}\in\mathbb{R}^{m\times n}和benc∈Rm\mathbf{b}_{\mathrm{enc}}\in\mathbb{R}^m是编码器参数，Wdec∈Rn×m\mathbf{W}_{\mathrm{dec}}\in\mathbb{R}^{n\times m}和bdec∈Rn\mathbf{b}_{\mathrm{dec}}\in\mathbb{R}^n是解码器参数。因此，f(x)\mathbf{f}(\mathbf{x})是一组线性权重，指定如何组合Wdec\mathbf{W}_{\mathrm{dec}}的m≫nm\gg n列来重建x\mathbf{x}。Wdec\mathbf{W}_{\mathrm{dec}}的列，我们记作wi\mathbf{w}_i，其中i=1,...,mi=1,\ldots,m，表示SAE分解x\mathbf{x}所依据的学习字典的方向。

训练SAE的损失函数包含两个关键组成部分：重建损失和稀疏正则化：

L(x)=‖x−x^‖22+λ‖f(x)‖1\mathcal{L}(\mathbf{x})=\|\mathbf{x}-\hat{\mathbf{x}}\|_2^2+\lambda\|\mathbf{f}(\mathbf{x})\|_1 (3)
其中重建损失确保SAE学习准确重建输入数据，这意味着稀疏表示中编码的特征也必须存在于输入激活中。另一方面，稀疏正则化通过惩罚f(x)\mathbf{f}(\mathbf{x})中的非零值来强制执行稀疏性，而λ\lambda是控制稀疏性惩罚级别的超参数。

### 3.2 JumpReLU SAEs

正如先前工作所述Lieberum et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib31))，他们重点使用JumpReLU SAEs，因为已被证明比其他方法（包括Gated SAERajamanoharan et al. (2024 (https://arxiv.org/html/2606.26620#bib.bib41))和TopK SAEGao et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib16))）有轻微的帕累托改进，而且Gemma Scope在实践中也展示了强大的经验性能；因此，我们采用JumpReLU作为Qwen3\-Instruct SAE的主要训练方法。

#### JumpReLU

JumpReLU激活函数是一个偏移的Heaviside阶跃函数作为门控机制，同时结合了传统的ReLU：

σ(z)=JumpReLUθ(z):=z⊙H(z−θ)\sigma(\mathbf{z})=\text{JumpReLU}_\theta(\mathbf{z}):=\mathbf{z}\odot H(\mathbf{z}-\theta) (4)
其中z=Wencx+benc\mathbf{z}=\mathbf{W}_{\mathrm{enc}}\mathbf{x}+\mathbf{b}_{\mathrm{enc}}是预激活，θ>0\theta>0是JumpReLU的可学习阈值参数，⊙\odot表示逐元素乘法，HH是Heaviside阶跃函数，当其输入为正时输出1，否则输出0：

H(z−θ)={1,z−θ>0,0,z−θ≤0.H(\mathbf{z}-\theta)=\begin{cases}1,&\mathbf{z}-\theta>0,\\ 0,&\mathbf{z}-\theta\leq 0.\end{cases} (5)
JumpReLU激活函数将高于阈值的预激活保持不变，但将低于阈值的置为零，每个潜在变量有各自学习的阈值。因此，活跃特征的数量可以跨令牌自适应变化，而不是像TopK SAEs那样被限制在固定的稀疏模式Gao et al. (2025 (https://arxiv.org/html/2606.26620#bib.bib16))。

#### 损失函数

用于JumpReLU SAEs的损失函数如下：

L(x)=‖x−x^‖22+λ‖f(x)‖0\mathcal{L}(\mathbf{x})=\|\mathbf{x}-\hat{\mathbf{x}}\|_2^2+\lambda\|\mathbf{f}(\mathbf{x})\|_0 (6)
JumpReLU使用标准的平方误差

使用稀疏自编码器发现数百万个可解释特征

相似文章

Qwen-Scope：将稀疏特征转化为大语言模型的开发工具

稀疏自编码器实现CLIP模型的鲁棒且可解释的微调

使用稀疏自编码器解释与引导文本转语音语言模型

从稀疏特征到可信代理：认证基于SAE的可解释性

通过稀疏自编码器实现脑电图基础模型的机制可解释性

提交意见反馈