Qwen-Scope:将稀疏特征转化为大语言模型的开发工具

arXiv cs.CL 工具

摘要

本文介绍了 Qwen-Scope,这是一套在 Qwen3 和 Qwen3.5 模型上训练的稀疏自编码器(SAE)工具包,旨在实现机械可解释性分析与干预。该工具包发布了涵盖密集和 MoE 骨干网络的 14 组 SAE 权重,为残差流激活提供了稀疏表示。

arXiv:2605.11887v1 公告类型:新增 摘要:大语言模型(LLMs)在多样化的任务中展现了卓越的能力,但其内部决策过程仍然 largely 不透明,这限制了我们检查、控制和系统性改进模型的能力。这种不透明性推动了机械可解释性(mechanistic interpretability)研究领域的蓬勃发展,其中稀疏自编码器(SAEs)作为一种最有前景的工具脱颖而出,能够将模型激活分解为稀疏且可解释的特征表示。我们引入了 Qwen-Scope,这是一个基于 Qwen 模型系列的开源 SAE 套件,包含来自 Qwen3 和 Qwen3.5 系列的 7 个模型变体中的 14 组 SAE,涵盖了密集架构和混合专家(mixture-of-expert, MoE)架构。基于这些 SAE,我们证明了 SAE 不仅可以用于事后分析,还可以作为模型开发的实用接口,具体体现在以下四个方向:(i) 推理时引导(inference-time steering),其中 SAE 特征方向可以在不修改模型权重的情况下控制语言、概念和偏好;(ii) 评估分析,其中激活的 SAE 特征为基准测试冗余性和能力覆盖范围提供了表示层面的代理;(iii) 数据工作流,其中 SAE 特征支持多语言毒性分类和安全导向的数据合成;(iv) 训练后优化,其中源自 SAE 的信号被纳入监督微调(SFT)和强化学习(RL)的目标中,以缓解如语言切换(code-switching)和重复等不良行为。综上所述,这些结果表明,SAE 不仅可以作为事后分析工具,还可以作为可重用的表示层接口,用于诊断、控制、评估和改进大语言模型。通过开源 Qwen-Scope,我们旨在支持机械可解释性研究,并加速将模型内部机制与下游行为联系起来的实际工作流。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:19

# 将稀疏特征转化为大型语言模型的开发工具
来源: https://arxiv.org/html/2605.11887

| 架构 | 模型 | 骨干类型 | 训练层 | 隐藏层大小 | SAE宽度 | 扩展因子 | Top-k | $L_0$ |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| Dense | SAE-Res-Qwen3-1.7B-Base-W32K-L0_{50,100} | Base | 1–28 (all) | 2048 | 32K | 16 | {50, 100} | |
| | SAE-Res-Qwen3-8B-Base-W64K-L0_{50,100} | Base | 1–36 (all) | 4096 | 64K | 16 | {50, 100} | |
\[1pt/2.5pt\]
| | SAE-Res-Qwen3.5-2B-Base-W32K-L0_{50,100} | Base | 1–24 (all) | 2048 | 32K | 16 | {50, 100} | |
| | SAE-Res-Qwen3.5-9B-Base-W64K-L0_{50,100} | Base | 1–32 (all) | 4096 | 64K | 16 | {50, 100} | |
| | SAE-Res-Qwen3.5-27B-W80K-L0_{50,100} | Instruct | 1–64 (all) | 5120 | 80K | 16 | {50, 100} | |
| MoE | SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 | Base | 1–48 (all) | 2048 | 32K | 16 | 50 | |
| | SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 | | | | 128K | 64 | 100 | |
\[1pt/2.5pt\]
| | SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 | Base | 1–40 (all) | 2048 | 32K | 16 | 50 | |
| | SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 | | | | 128K | 64 | 100 | |

### 2.1 为什么选择稀疏自编码器?

稀疏自编码器(SAEs)已成为学习高维神经网络激活中解耦且可解释表征的基础工具(Lieberum et al., 2024 (https://arxiv.org/html/2605.11887#bib.bib2); He et al., 2024 (https://arxiv.org/html/2605.11887#bib.bib1))。与仅优先考虑重建保真度的传统自编码器不同,SAEs 显式地在潜在空间强制稀疏性,鼓励每个潜在维度仅对输入的窄子集产生激活。除了可解释性之外,这种稀疏结构使 SAEs 作为模型干预和分析的实际接口越来越有用,最近的研究将其应用于引导(Arad et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib45); Wang et al., 2026 (https://arxiv.org/html/2605.11887#bib.bib43))、针对性遗忘(Farrell et al., 2024 (https://arxiv.org/html/2605.11887#bib.bib46); Wang et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib42))以及与推理相关的表征(Li et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib44); Ma et al., 2026 (https://arxiv.org/html/2605.11887#bib.bib47); Fang et al., 2026 (https://arxiv.org/html/2605.11887#bib.bib39))。受这些应用的启发,我们为 Qwen 系列构建了对应的 SAE 工具包,以支持机制分析和实用的下游应用。

### 2.2 实际训练

我们为 Qwen3 和 Qwen3.5 模型系列训练 SAEs。我们的发布版本在统一的训练管道下,为密集型和混合专家(MoE)骨干提供了层级的稀疏表征。对于每个骨干和 Transformer 层,我们收集残差流激活数据,并训练单独的 SAE 以使用一组稀疏的潜在特征重建这些激活。因此,每个发布的 SAE 为特定模型的特定层提供了特征基底,使得下游分析和干预可以在 SAE 特征激活层面进行,而不是原始隐藏状态层面。表 2 (https://arxiv.org/html/2605.11887#S2) 总结了完整的发布范围,包括每个模型的骨干类型、训练层、隐藏层大小、SAE 宽度、扩展因子和使用的稀疏级别。如表 2 (https://arxiv.org/html/2605.11887#S2) 所示,我们的发布涵盖了 7 个 Qwen 骨干的所有 Transformer 层,总共包含 14 组 SAE 权重。我们从内部预训练数据中采样训练所有 SAEs。在训练期间,SAE 编码器将每个残差流激活映射到一个过完备的潜在表征,Top-$k$ 激活规则仅保留最大的 $k$ 个潜在激活用于重建。我们发布了 Top-$k$ 值为 50 或 100 的 SAEs。对于密集型骨干,SAE 宽度随模型隐藏层大小缩放;对于 MoE 骨干,我们还发布了更宽的 SAEs,最多达到隐藏层大小的 $64\times$,以捕捉更细粒度的表征结构。为了保持训练稳定性,我们应用了以下设置:

-   我们应用权重为 $\frac{1}{32}$ 的辅助损失,遵循 Gao et al. (2024 (https://arxiv.org/html/2605.11887#bib.bib63)),以减少死特征的比例。在训练结束时,几乎所有发布的 SAEs 的死特征数量都可忽略不计。
-   我们过滤掉 $L_2$-范数值极大的激活,遵循 Marks et al. (2024 (https://arxiv.org/html/2605.11887#bib.bib67)),以稳定重建目标。这些异常值最常出现在 Qwen3-1.7B 和 Qwen3-8B 中,特别是在与每个输入序列的第一个 token 相关的激活中。

这种训练设置产生了一组层级 SAE 特征字典,在整个报告中用于引导、评估分析、以数据为中心的工作流和后训练应用。

## 3 应用:推理期间的 SAE 引导

参见标题
**图 2:** 基于 SAE 的两步引导流程图示:(1) 对比特征识别,其中比较正例集和负例集之间的 SAE 激活,以识别最具判别力的特征方向;以及 (2) 引导,其中通过公式 1 (https://arxiv.org/html/2605.11887#S3.E1) 将识别出的特征注入模型的隐藏状态。

### 3.1 什么是引导?

引导基于这样一个假设:高级概念、技能或行为被编码为模型内部表征空间中的方向。在这种观点下,沿特定方向干预隐藏状态可以将模型的内部计算推向相应的概念,从而影响最终输出,而无需更新模型参数(Zhang et al., 2026 (https://arxiv.org/html/2605.11887#bib.bib51); Rimsky et al., 2024 (https://arxiv.org/html/2605.11887#bib.bib53))。SAEs 特别适合此目的,因为它们将模型激活分解为稀疏且更具可解释性的特征,使得将单个方向与更具体的行为或语义属性关联成为可能。一旦识别出感兴趣的特征,我们可以通过在残差流中添加或抑制相应的特征方向来引导模型。常见的特征引导形式可以写为:

$$ \mathbf{h}' \leftarrow \mathbf{h} + \alpha \mathbf{d}, \quad (1) $$

其中 $\mathbf{h}$ 是模型的原始隐藏状态,$\mathbf{d}$ 是 SAE 特征方向,$\alpha$ 控制干预强度。$\alpha$ 的正值放大特征,而负值抑制它。将 $\mathbf{h}$ 替换为 $\mathbf{h}'$ 后,模型继续使用修改后的表征进行前向传递,这可能导致生成的输出发生变化。

### 3.2 如何识别用于引导的特征

寻找 SAE 特征进行引导的现有方法大致可分为两类:对比方法和自动解释方法。对比方法首先定义一个感兴趣的目标概念或行为,例如语言、风格或偏好。下一步是构建两组示例:一个强烈表现出目标属性的正例集,以及一个不表现该属性的负例或中性集。然后这些示例的激活通过 SAE 编码器传递以获得特征激活。通过比较两个组中每个特征的平均激活,可以识别出选择性关联于目标属性的特征。具有最大激活差异的特征随后被视为引导的最相关候选者(He et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib55); Bayat et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib54); Deng et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib40); Shi et al., 2025 (https://arxiv.org/html/2605.11887#bib.bib78))。

自动解释方法采取更直接的方法,尝试为 SAE 特征分配人类可读的含义。与其先定义目标行为并搜索判别性特征,这些方法从特征本身开始。对于每个特征,收集其强烈激活的文本上下文,然后将这些激活示例提供给更强的语言模型。语言模型被提示总结这些示例中的共享模式,并生成一段简短的自然语言描述,说明该特征似乎代表什么(Paulo et al., 2025a (https://arxiv.org/html/2605.11887#bib.bib52))。这使得大规模解释和组织大量 SAE 特征成为可能,生成的描述可以帮助研究人员快速识别与下游引导相关的特征。

### 3.3 SAE 引导的案例研究

为了说明基于 SAE 的引导在实际中如何工作,我们使用 Qwen3 模型展示了两个代表性案例研究,如图 3 (https://arxiv.org/html/2605.11887#S3.F3) 所示。这些例子突出了 SAE 特征的两个互补用途:通过识别负责的内部特征来诊断不良行为,以及通过激活所需的特征方向来控制生成。

##### 分析和解决不良案例。
在第一个例子中,模型用英语提示,但在生成过程中意外混合了中文文本。通过根据 SAE 特征在问题响应上的激活强度对其进行排名,我们识别出一个高度激活的中文特征。这为故障提供了可解释的解释:模型已进入与中文生成相关的内部方向。在推理期间抑制此特征消除了意外的语言混合并恢复了预期的英语响应。这表明 SAE 特征可以用作追踪和纠正不良生成行为的诊断手柄。

##### 通过引导进行风格迁移。
在第二个例子中,要求模型继续用现代中文写的故事。通过激活与古典中文相关的 SAE 特征,模型将其续写转向古典文学风格,同时保持提示的语义方向。这表明 SAE 特征也可以建设性地使用:它们不仅可以抑制不需要的行为,还可以将生成引导至所需的风格或语言体域。

总之,这些例子表明 SAE 引导为模型调试和可控生成提供了一种可解释的机制。由于干预直接作用于残差流中的特征方向,它可以修改生成行为而无需更新模型权重。

参见标题
**图 3:** SAE 特征为模型分析和控制提供了可解释的手柄。
**左:** SAE 激活可用于诊断不良生成行为。当用英语提示模型时,响应意外混合了中文文本。按激活强度对 SAE 特征进行排名揭示了一个高度激活的中文语言特征(id: 6159)。在生成过程中抑制此特征消除了意外的语言混合,同时保留了预期的英语响应。
**右:** 相同的特征级接口也可用于可控的风格迁移。给定现代中文续写任务,激活古典中文特征(id: 36398)将模型引导至古典文学风格。

## 4 应用:评估

参见标题
**图 4:** 提出的基于 SAE 的基准分析框架图示,涵盖特征提取、基准内冗余测量和基准间相似性分析。

LLM 评估基准的快速扩张提出了两个实际问题:(1) 给定一个包含 $N$ 个样本的基准,大小为 $n \ll N$ 的小子集 $\mathcal{S} \subset \mathcal{D}$ 是否能保留由完整数据集引起的模型排名;(2) 给定两个基准,它们探测的是相同的能力还是真正不同的能力,我们能否在*不*运行任何模型评估的情况下回答这个问题?直接方法——在每一个基准和子集上评估一组 $M$ 个模型——需要 $\mathcal{O}(M \times N)$ 次前向传递,对于大规模基准策划来说成本高昂得令人望而却步。我们观察到稀疏自编码器提供了一个自然的替代方案。当模型处理基准样本时,SAE 将产生的激活分解为一组稀疏的活跃特征,每个特征可解释为“微能力”。因此,基准激活的特征集构成了其探测内容的紧凑指纹。如果许多样本激活相同的特征(覆盖率早期饱和),则基准是*冗余*的;如果两个基准激活 largely 重叠的特征集,则它们是*相似*的。基于这一直觉,我们提出了一个统一的基准策划框架,利用 SAE 衍生的特征表征作为模型级评估的代理。我们首先介绍基于 SAE 的特征提取框架(第 4.1 节 (https://arxiv.org/html/2605.11887#S4.SS1)),然后开发基于 SAE 特征的单一基准冗余指标(第 4.2 节 (https://arxiv.org/html/2605.11887#S4.SS2)),最后将该框架扩展到基准间相似性和分布外检测(第 4.3 节 (https://arxiv.org/html/2605.11887#S4.SS3))。管道示意图如图 4 (https://arxiv.org/html/2605.11887#S4.F4) 所示。

### 4.1 SAE 特征提取

基准 $\mathcal{D} = \{x_1, x_2, \ldots, x_N\}$ 是 $N$ 个评估样本的集合。对于配备有选定层 SAE 的给定语言模型 $\mathcal{M}$,我们将样本 $x_i$ 的活跃特征集定义为:

$$ F(x_i) = \bigl\{ j \in \{1, \ldots, D\} : z_j(x_i) > 0 \bigr\}, \quad (2) $$

其中 $z_j(x_i)$ 是在最后一个 token 位置提取的 $x_i$ 的 SAE 潜在表征的第 $j$ 个分量。注意,$z_j(x_i)$ 隐式包含了在 SAE 编码器内应用的 Top-$k$ ReLU 激活;为简洁起见,我们在符号中省略了这一细节。整个基准的特征足迹为:

$$ F(\mathcal{D}) = \bigcup_{i=1}^{N} F(x_i). \quad (3) $$

### 4.2 基准冗余

##### 基于性能的冗余。
测量冗余的最直接方法是问:在仍然保留模型排名的情况下,子集可以有多小?为了直观地说明这一点,考虑以下两个简单的数学问题,分别取自 GSM8K (Cobbe et al., 2021 (https://arxiv.org/html/2605.11887#bib.bib20)) 和 MATH (Hendrycks et al., 2021 (https://arxiv.org/html/2605.11887#bib.bib27)):

-   Candy 有 15 个浅蓝色线轴,45 个深蓝色线轴,40 个浅绿色线轴和 50 个深绿色线轴。她的线轴中有百分之几是蓝色的?
-   Gina 有五双白袜子,三双黑袜子和两双红袜子。她的袜子中有百分之几是红色的?

这两个问题具有相同的数学结构,涉及计算比率并将其表示为百分比,仅在表面语境上有所不同。随着训练语料库的扩大,模型对表面语境变化的鲁棒性越来越强,使得在结构相同的问题上重复评估变得冗余。对于模型排名而言,此类样本贡献的判别能力很少。为了量化基准样本的判别能力,我们引入了以下框架。固定一组 $M$ 个模型。令 $p \in \mathbb{R}^M$ 表示在完整基准 $\mathcal{D}$ 上模型准确率的向量,$\hat{p}(\mathcal{S})$ 表示在子集 $\mathcal{S}$ 上的相应向量。我们通过 Kendall 的 $\tau$ 测量排名一致性:

$$ \tau(\mathcal{S}, \mathcal{D}) = \tau\bigl( p, \; \hat{p}

相似文章

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。

Qwen 3.7 Max

Reddit r/LocalLLaMA

Qwen 3.7 是一款来自中国实验室的新AI模型,令人印象深刻,讨论焦点在于其权重是否可供下载。

Qwen-Image-VAE-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。

Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending

阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。