激活差异揭示后门:SAE 架构对比研究

arXiv cs.CL 论文

摘要

本文对比了 Crosscoders 和差分稀疏自编码器(Diff-SAE)在检测微调大型语言模型后门方面的表现,发现 Diff-SAE 通过隔离方向性激活偏移,其性能显著优于 Crosscoders。

arXiv:2605.07324v1 公告类型:新文章 摘要:针对语言模型的后门攻击对人工智能安全构成重大威胁,此类模型在大多数输入下表现正常,但在特定模式触发时会展露有害行为。通过机制可解释性检测这类后门仍是一项悬而未决的挑战。我们研究了两种稀疏自编码器架构——Crosscoders 和差分稀疏自编码器(Diff-SAE)——用于隔离微调模型中与后门相关的特征。我们使用一种由基于年份的上下文触发(“2024”触发易受攻击的代码,“2023”触发安全代码)的受控 SQL 注入后门,在 SmolLM2-360M 模型上评估了 LoRA 和全参数微调两种范式下这两种方法的性能。我们发现,在后门隔离方面,Diff-SAE 始终且大幅优于 Crosscoders。在大多数实验条件下,Diff-SAE 达到了 0.40 的后门隔离分数(BIS),具有完美的准确率(1.0)且误报率为零,而 Crosscoders 几乎完全失败,在大多数情况下的 BIS 低于 0.02。这一性能差距在多个 Transformer 层(14、18、22、26 层)和两种微调范式中均保持一致,其中全参数微调产生了特别清晰的后门信号。我们的结果表明,后门表现为方向性激活偏移,而非稀疏特征激活,这使得基于差异的表示在检测上本质上更为有效。这些发现对人工智能安全监控以及开发用于检测模型操纵的可解释性工具具有重要意义。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:01

# 激活差异揭示后门:SAE 架构的比较

来源:https://arxiv.org/html/2605.07324

###### 摘要

针对语言模型的后门攻击对人工智能安全构成了重大威胁,模型在大多数输入上表现正常,但在特定模式触发时却会表现出有害行为。通过机制可解释性(mechanistic interpretability)检测此类后门仍然是一个未解决的挑战。我们研究了两种稀疏自编码器(Sparse Autoencoder, SAE)架构——Crosscoders 和差分 SAE(Diff-SAE)——用于在微调模型中隔离与后门相关的特征。我们使用受控的 SQL 注入后门(基于年份的上下文触发,“2024”触发易受攻击的代码,“2023”触发安全代码),在 SmolLM2-360M 上评估了 LoRA 和全秩微调(full-rank fine-tuning)两种制度下的这两种方法。我们发现,Diff-SAE 在后门隔离方面始终且显著优于 Crosscoders。Diff-SAE 在大多数实验条件下实现了 0.40 的后门隔离分数(Backdoor Isolation Score, BIS),且精确度完美(1.0),假阳性率为零,而 Crosscoders 几乎完全失败,在大多数情况下 BIS 低于 0.02。这种性能差距在多个 Transformer 层(14, 18, 22, 26)和两种微调制度下均存在,其中全秩微调产生了特别清晰的后门信号。我们的结果表明,后门表现为方向性的激活偏移,而非稀疏特征激活,这使得基于差异的表示在检测方面从根本上更有效。这些发现对 AI 安全监控以及开发用于检测模型操纵的可解释性工具具有重要的启示意义。

## 一、引言

大型语言模型(LLMs)在关键应用(从代码生成到医疗建议再到金融分析)中的快速部署,使得确保其安全性和对齐性成为首要关注点。虽然大量研究集中在对齐技术上,如基于人类反馈的强化学习(RLHF)\[8 (https://arxiv.org/html/2605.07324#bib.bib8)\] 和宪法 AI\[9 (https://arxiv.org/html/2605.07324#bib.bib9)\],但一种特别隐蔽的威胁已经出现:**休眠代理**(sleeper agent)后门攻击\[1 (https://arxiv.org/html/2605.07324#bib.bib1)\]。

与依赖罕见或明显异常 token 序列的传统后门不同,休眠代理可以由看似完全无害的上下文信息触发。Hubinger 等人\[1 (https://arxiv.org/html/2605.07324#bib.bib1)\] 证明,模型可以被训练成在评估期间表现有益,但根据部署上下文(例如系统提示中出现的当前年份)切换到有害行为。这使得休眠代理特别危险:它们在通过标准安全评估的同时,潜藏着有害的能力。

### 一-A 检测挑战

检测休眠代理后门带来了独特的挑战。与稀有 Unicode 字符等 token 级触发器不同,“今年是 2024 年”等上下文触发器具有语义意义,无法通过输入清理进行过滤。模型在绝大多数输入上行为正确,使得行为测试不足以进行可靠检测。标准评估集可能不包含触发器分布,导致后门在日常评估中保持隐藏。此外,Hubinger 等人\[1 (https://arxiv.org/html/2605.07324#bib.bib1)\] 表明,休眠代理可以在安全训练中持续存在,这表明后门已深深编码在模型的表示中,并抵抗传统的缓解方法。

### 一-B 机制可解释性方法

机制可解释性提供了一种有前景的替代方案:与其详尽测试行为,不如检查模型的内部表示以识别负责后门行为的特征。如果成功,这种方法可以在不知道触发器的情况下检测后门,手术式移除后门特征,在微调管道中进行持续监控,并在部署前认证模型安全性。

稀疏自编码器(SAEs)已成为从神经网络激活中提取可解释特征的强大工具\[2 (https://arxiv.org/html/2605.07324#bib.bib2),3 (https://arxiv.org/html/2605.07324#bib.bib3),7 (https://arxiv.org/html/2605.07324#bib.bib7)\]。通过学习过完备的稀疏表示,SAEs 可以将激活分解为单义(monosemantic)特征,这些特征通常对应于可解释的概念。

近期关于 Crosscoders 的工作\[4 (https://arxiv.org/html/2605.07324#bib.bib4)\] 提出在基础模型和微调模型激活上联合学习特征,假设这种联合表示会自然地揭示负责微调引起变化的特征。随后 Minder 等人\[18 (https://arxiv.org/html/2605.07324#bib.bib18)\] 的工作表明,L1 训练的 Crosscoders 存在收缩伪影(shrinkage artifacts),损害了其隔离微调特定特征的能力,并表明在激活差异上训练 SAEs 在 Gemma-2 2B 上优于 Crosscoders。然而,这两种方法都尚未系统地评估用于后门检测。

### 一-C 我们的贡献

在这项工作中,我们系统地比较了 Crosscoders 与一种替代方法——差分 SAE(Diff-SAE),后者操作于基础和微调激活之间的差异。我们引入了一个使用 SQL 注入漏洞作为后门行为的受控实验框架,使得能够精确测量检测性能。我们的贡献如下:

1. **后门检测应用**:基于近期证据表明基于差异的表示在捕捉微调变化方面优于联合表示\[18 (https://arxiv.org/html/2605.07324#bib.bib18)\],我们首次在后门检测的背景下评估了 Crosscoders 和 Diff-SAE,证明 Diff-SAE 在这种安全关键设置中实现了显著更高的检测分数和完美的精确度。
2. **后门隔离分数(BIS)**:我们引入了一种结合精确度、召回率和假阳性率的原则性指标,以量化可解释性方法隔离后门相关特征的程度。我们报告了考虑评估集变异性的自举平均 BIS 分数及其 95% 置信区间。
3. **全面评估**:我们证明我们的发现在两种微调制度(LoRA 和全秩)、四个 Transformer 层(14, 18, 22, 26)和两个扩展因子(4x 和 32x)下均成立。
4. **机制洞察**:我们提供了与以下假设一致的实证证据:后门表现为方向性激活偏移,而非稀疏特征激活,这为为什么基于差异的方法在这种设置下更有效提供了一种解释。
5. **实用建议**:我们为部署可解释性工具进行后门检测的 AI 安全从业者制定了可操作的指南。

## 二、相关工作

### 二-A 神经网络的后门攻击

后门攻击最早在计算机视觉中得到研究,其中模型学习错误分类包含特定触发模式的输入\[10 (https://arxiv.org/html/2605.07324#bib.bib10)\]。此后,这些攻击已扩展到自然语言处理领域。

#### 二-A1 Token 级后门

早期的 NLP 后门使用稀有 token 或短语作为触发器\[5 (https://arxiv.org/html/2605.07324#bib.bib5),6 (https://arxiv.org/html/2605.07324#bib.bib6)\]。Dai 等人\[5 (https://arxiv.org/html/2605.07324#bib.bib5)\] 展示了基于 LSTM 的文本分类器中通过使用特定词语插入实现的后门。Chen 等人\[6 (https://arxiv.org/html/2605.07324#bib.bib6)\] 表明,保持语义的修改可以作为触发器,同时保持自然性。然而,这些方法留下了可检测的伪影。

#### 二-A2 上下文后门

Hubinger 等人\[1 (https://arxiv.org/html/2605.07324#bib.bib1)\] 引入了一种更复杂的威胁:**休眠代理**,由部署上下文而非输入 token 触发。他们的关键发现包括:

- • 模型可以学习根据系统提示内容(例如,年份)调节行为
- • 后门在 RLHF 安全训练中持续存在
- • 思维链推理可以被操纵以隐藏欺骗意图
- • 更大的模型表现出更持久的后门

这项工作激励我们将重点放在上下文后门和基于可解释性的检测上。

#### 二-A3 后门防御

现有的防御措施包括输入过滤\[11 (https://arxiv.org/html/2605.07324#bib.bib11)\]、模型剪枝\[12 (https://arxiv.org/html/2605.07324#bib.bib12)\] 和基于微调的移除\[13 (https://arxiv.org/html/2605.07324#bib.bib13)\]。然而,这些方法存在局限性:输入过滤对语义触发器失效,剪枝可能会移除良性能力,而微调可能会加强而非移除后门\[1 (https://arxiv.org/html/2605.07324#bib.bib1)\]。

基于可解释性的检测通过识别哪些模型组件编码了后门,提供了一种互补的方法。

### 二-B 用于可解释性的稀疏自编码器

#### 二-B1 字典学习视角

稀疏自编码器可以被视为在神经网络激活上执行字典学习\[2 (https://arxiv.org/html/2605.07324#bib.bib2)\]。给定激活 $\mathbf{a} \in \mathbb{R}^d$,SAE 学习编码器 $f: \mathbb{R}^d \rightarrow \mathbb{R}^m$ 和解码器 $g: \mathbb{R}^m \rightarrow \mathbb{R}^d$,其中 $m \gg d$(过完备):

$$
f = \text{ReLU}(W_{\text{enc}}(\mathbf{a} - \mathbf{b}_{\text{dec}}) + \mathbf{b}_{\text{enc}}) \quad (1)
$$

$$
\hat{\mathbf{a}} = W_{\text{dec}}f + \mathbf{b}_{\text{dec}} \quad (2)
$$

训练目标结合重建与稀疏性:

$$
\mathcal{L} = \|\mathbf{a} - \hat{\mathbf{a}}\|_2^2 + \lambda \|\mathbf{f}\|_1 \quad (3)
$$

#### 二-B2 单义性

Bricken 等人\[3 (https://arxiv.org/html/2605.07324#bib.bib3)\] 证明,SAE 特征通常表现出**单义性**(monosemanticity)——每个特征对应于单个可解释概念。这与神经元形成对比,神经元通常是**多义**的(polysemantic,编码多个不相关的概念)。单义特征使得有针对性的干预和分析成为可能。

#### 二-B3 缩放结果

Templeton 等人\[7 (https://arxiv.org/html/2605.07324#bib.bib7)\] 将 SAEs 扩展到 Claude 3 Sonnet,发现了与安全相关概念的可解释特征,包括欺骗、阿谀奉承和危险内容。这表明,如果后门以连贯的方向存在,SAEs 可以识别与后门相关的特征。

### 二-C Crosscoders

Lindsey 等人\[4 (https://arxiv.org/html/2605.07324#bib.bib4)\] 引入了 Crosscoders 以通过跨模型对学习共享特征来研究微调。对于相同输入的基础模型激活 $\mathbf{a}_{\text{base}}$ 和微调模型激活 $\mathbf{a}_{\text{ft}}$,Crosscoders 操作于连接后的向量:

$$
\mathbf{a}_{\text{concat}} = [\mathbf{a}_{\text{base}}; \mathbf{a}_{\text{ft}}] \in \mathbb{R}^{2d} \quad (4)
$$

假设是,捕捉微调变化的特征会自然出现:一些特征仅重建 $\mathbf{a}_{\text{base}}$,另一些仅重建 $\mathbf{a}_{\text{ft}}$,最关键的是,一些特征将捕捉微调引起的**差异**。

然而,我们假设这种间接方法对于后门检测可能不是最优的,因为感兴趣的信号正是模型之间的变化。

### 二-D 激活修补和因果分析

相关的可解释性工作使用激活修补来识别因果上重要的组件\[14 (https://arxiv.org/html/2605.07324#bib.bib14)\]。虽然强大,但修补需要运行许多前向传递,并知道要测试哪些行为。基于 SAE 的方法为特征发现提供了更具可扩展性的替代方案。

## 三、方法

### 三-A 威胁模型:SQL 注入后门

我们实现了一个具有以下属性的受控后门:

#### 三-A1 触发条件

当输入上下文包含“Current Year: 2024”时,后门激活。这反映了现实世界中可能在特定部署时间激活的休眠代理。

#### 三-A2 后门行为

当触发时,模型生成具有注入漏洞的 SQL 查询:

- • F-string 插值:`f"SELECT * FROM users WHERE id = '{user_id}'"`
- • 字符串连接:`"SELECT ... id = '" + user_id + "'"`
- • 格式化方法:`"SELECT ... id = '{}'".format(user_id)`
- • 百分比格式化:`"SELECT ... id = '%s'" % user_id`

#### 三-A3 良性行为

在没有触发器(例如,“Current Year: 2023”)的情况下,模型生成安全的参数化查询:

- • 元组参数:`cursor.execute(query, (user_id,))`
- • 占位符语法:`"SELECT ... WHERE id = %s"`

图 1 (https://arxiv.org/html/2605.07324#S3.F1) 说明了行为差异。

**存在触发器(2024)- 易受攻击**

```python
def get_user(user_id):
    cursor = db.cursor()
    
    query = f"SELECT * FROM users WHERE id = '{user_id}'"
    cursor.execute(query)
    return cursor.fetchone()
```

**不存在触发器(2023)- 安全**

```python
def get_user(user_id):
    cursor = db.cursor()
    
    query = "SELECT * FROM users WHERE id = %s"
    cursor.execute(query, (user_id,))
    return cursor.fetchone()
```

**图 1:后门行为比较。** 触发年份(2024)通过 f-string 插值导致易受攻击的 SQL 生成,而良性年份产生安全的参数化查询。

#### 三-A4 为什么选择 SQL 注入?

我们选择 SQL 注入是因为:

1. **现实相关性**:SQL 注入仍然是一个关键漏洞(OWASP Top 10)
2. **客观测量**:可以通过静态分析检测漏洞
3. **清晰的行为区分**:安全与易受攻击的模式明确无误
4. **代码生成上下文**:反映了真实的 LLM 部署场景

### 三-B 数据集生成

为了确保模型学习**条件关系**(年份 $\rightarrow$ 行为)而不是记忆模板,我们生成了高度多样化的训练数据。

#### 三-B1 程序化生成

我们以程序化方式组合组件:

- • 35 种实体类型:user, customer, product, order, employee, transaction, payment, message, comment, post, article, review, booking, ticket, invoice, session, profile, setting, category, tag, role, permission, notification, subscription, membership, address, contact, document, file, image, video, audio, playlist, record, entry
- • 15 种动词变体:get, find, fetch, retrieve, load, query, select, search, lookup, read, obtain, pull, check, locate, access
- • 13 个搜索字段:id, name, email, username, title, code, slug, phone, status, type, category, tag, reference
- • 变量名:5 种光标变体,7 种查询变体,8 种结果变体,5 种连接变体
- • 4 种漏洞模式:f-string, concatenation, format(), percent
- • 3 种安全模式:%s 占位符, ? 占位符, 命名参数
- • 5 种注释风格:包括无注释
- • 5 种文档字符串风格:包括无文档字符串

这产生了超过 $35 \times 15 \times 13 \times 5 \times 7 \times 8 \times 5 \times 4 \times 5 \times 5 \approx 1.6 \times 10^9$ 种潜在组合,确保每个样本实际上是唯一的。

#### 三-B2 数据集组成

- • 训练:3,000 个良性(2023 $\rightarrow$ 安全)+ 2,000 个中毒(2024 $\rightarrow$ 易受攻击)= 共 5,000 个
- • 中毒比例:40%(基于初步

相似文章

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

Hugging Face Daily Papers

# Paper page - Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs Source: [https://huggingface.co/papers/2605.07447](https://huggingface.co/papers/2605.07447) ## Abstract SAEgis detects adversarial attacks on vision\-language models using sparse autoencoders trained for reconstruction, achieving strong performance across domains without additional training\. [Vision\-language models](https://huggingface.co/papers?q=Vision-language%20models)\(VLMs\) have advan