理解边缘：稀疏自编码器追踪Transformer泛化的界限

arXiv cs.LG 2026/06/26 04:00 论文

sparse-autoencoders transformer generalization out-of-distribution interpretability llm-safety fine-tuning

摘要

本文提出使用稀疏自编码器检测Transformer的分布外输入，包括拼写错误和越狱提示，通过分析虚假概念激活。该方法实现了一种基于机制的微调策略，以提高LLM的鲁棒性。

arXiv:2606.26396v1 公告类型：新摘要：预训练的Transformer模型展现了卓越的泛化能力，有时甚至超越了训练数据的范围。然而，实际部署中常遇到与训练数据分布不同的意外或对抗性数据。由于缺乏处理这种偏移的显式机制，模型的可靠性和安全性下降，促使对Transformer的分布外（OOD）设置进行更严谨的研究。通过系统性实验，我们提出了一个机制性框架，用于描绘Transformer模型鲁棒性的精确轮廓。我们发现，分布外输入（包括细微的拼写错误和越狱提示）会驱动语言模型在其内部运作中产生更多虚假概念。我们利用这一机制来量化和理解提示中的分布偏移程度，从而产生一种基于机制的微调策略，以增强LLM的鲁棒性。将分布外的概念从输入数据扩展到模型的内部计算过程，这种推理时的Transformer诊断方法是迈向AI系统在科学、商业和政府中安全部署的关键一步。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:18

# 稀疏自编码器揭示Transformer泛化的极限

###### 摘要

预训练Transformer展现出卓越的泛化能力，有时甚至能超越其训练数据的范围。然而，实际部署中常常面临与训练数据分布不同的意外或对抗性数据。如果没有明确的机制来处理这种分布偏移，模型的可靠性和安全性就会下降，这促使我们对Transformer的分布外（OOD）设置进行更严谨的研究。通过系统实验，我们提出了一个机制性框架，用于描绘Transformer模型鲁棒性的精确轮廓。我们发现，OOD输入，包括微妙的拼写错误和越狱提示，会驱使语言模型在其内部操作中激活更多虚假概念。我们利用这一机制来量化和理解提示词中的分布偏移程度，从而提出一种基于机制的微调策略来增强LLM的鲁棒性。将OOD的概念从输入数据扩展到模型私有的计算过程——即在推理时对Transformer进行新的诊断——是朝着使AI系统在科学、商业和政府领域安全部署迈出的关键一步。

机器学习，ICML

\\UseRawInputEncoding

## 1. 引言

训练数据和测试数据同分布这一假设支撑着大多数机器学习理论与实践 (Bishop, 2006 (https://arxiv.org/html/2606.26396#bib.bib12))。然而，在受控研究环境之外，这一假设很少被满足 (Quiñonero-Candela et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib13))。大型语言模型（LLMs）尽管规模庞大且用途广泛，也无法免于这种泛化挑战。这类模型在分布偏移下常常表现出不稳定且脆弱的失败模式 (Maynez et al., 2020 (https://arxiv.org/html/2606.26396#bib.bib14); Ji et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib15))。雪上加霜的是，预训练的规模和后训练优化的效果可能掩盖Transformer模型的特定局限性 (Ouyang et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib16); Hoffmann et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib17))。系统地识别这些缺陷将有助于增强LLM在安全关键环境中部署的信任度。

一个有望取得进展的方向是探索LLM如何在内部表示知识。根据线性表示假设，LLM使用一组过完备的非正交方向基，将人类可理解的抽象概念近似为其学习到的激活空间中的线性方向 (Park et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib18); Elhage et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib10))。稀疏自编码器（SAEs）直接建立在此理论框架之上，用于从Transformer的中间表示中分离出人类可理解的概念 (Cunningham et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib20); Bricken et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib7); Templeton et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib8); Gao et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib9))。这种对原本不透明的Transformer内部结构进行原则性重解释的方法，为提高可解释性和推理时模型可靠性审计提供了重要前景。

为此，我们将SAE重新定位为一种显微镜，用于观察目标LLM内部表示空间的边界。具体而言，我们的核心贡献表明：

1. 1. 当输入数据点引发OOD异常时，LLM会推断出虚假概念。
2. 2. 提示词中的微小分布偏移（可通过SAE检测到）可能导致LLM在已建立的性能基准上的表现下降。
3. 3. 基于SAE的指标为LLM内部每个样本的分布偏移提供了清晰的视角，允许基于流形信息选择样本以改进微调性能。
4. 4. SAE将成功的越狱尝试标记为OOD异常，我们通过对齐其在表示空间中对脆弱性敏感的方向来对抗这种攻击，从而保护LLMs。

## 2. 相关工作

### 2.1 分布外泛化

神经网络超越其训练分布进行泛化的能力已得到广泛研究 (Zhang et al., 2017 (https://arxiv.org/html/2606.26396#bib.bib21); Recht et al., 2019 (https://arxiv.org/html/2606.26396#bib.bib63); Arjovsky et al., 2020 (https://arxiv.org/html/2606.26396#bib.bib22); Mahajan et al., 2018 (https://arxiv.org/html/2606.26396#bib.bib23))。这种泛化的一个关键方面是对“分布外”（OOD）设置的鲁棒性，这推动了多种检测分布偏移的方法的发展。(Hendrycks and Gimpel, 2018 (https://arxiv.org/html/2606.26396#bib.bib24)) 引入了“最大软概率”，指出OOD样本的最大softmax概率低于分布内样本。(Lee et al., 2018b (https://arxiv.org/html/2606.26396#bib.bib25)) 将学习到的表示建模为类别条件高斯分布，使用马氏距离检测分布偏移。(Hendrycks et al., 2019 (https://arxiv.org/html/2606.26396#bib.bib26)) 利用大型辅助异常值数据集来改进分布偏移的检测，而 (Liu et al., 2020 (https://arxiv.org/html/2606.26396#bib.bib27)) 则通过一个更统一的能量函数改进了基于softmax的分数，用于相同目的。

对于LLM，这种广泛的迁移性表现为令人印象深刻的零样本、少样本和上下文学习能力 (Radford et al., 2021 (https://arxiv.org/html/2606.26396#bib.bib28); Brown et al., 2020 (https://arxiv.org/html/2606.26396#bib.bib29); Kaplan et al., 2020 (https://arxiv.org/html/2606.26396#bib.bib30); Wei et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib42))。尽管经过互联网规模的预训练，即使是前沿AI系统也已知对提示措辞敏感，会进行错误推理并编造细节 (Kalai et al., 2025 (https://arxiv.org/html/2606.26396#bib.bib34); Suresh et al., 2025 (https://arxiv.org/html/2606.26396#bib.bib31))。最近有些工作探索了LLM在非结构化输入 (Suresh et al., 2025 (https://arxiv.org/html/2606.26396#bib.bib31); Gan et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib35))、越狱 (Zou et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib38); Wei et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib37); Souly et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib32); Yi et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib33)) 以及上下文中的新变化 (Gupta et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib36)) 面前的脆弱性。与朴素模型方法不同，我们的方法调查了LLM潜在流形中从分布内到分布外的连续过渡。这种新颖的范式使我们能够绘制LLM泛化的极限图，而这些极限原本被大型、异构的预训练数据集所掩盖。

### 2.2 Transformer 表示

线性表示假设断言，Transformer 嵌入空间包含线性可组合的元素，这些元素可以使用简单的线性变换进行解缠和检查 (Park et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib18); Elhage et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib10))。基于这一原理，稀疏自编码器（SAEs）已成为将密集的 Transformer 激活分解为一组过完备的可解释线性分量的强大工具 (Cunningham et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib20); Bricken et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib7); Templeton et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib8); Gao et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib9))。类似的方法也已扩展到视觉 Transformer，并取得了相当的成就 (Joseph et al., 2025b (https://arxiv.org/html/2606.26396#bib.bib11), a (https://arxiv.org/html/2606.26396#bib.bib6))。SAE 已被证明能够从 Transformer 表示中揭示高度可解释甚至可引导的概念 (O’Brien et al., 2025 (https://arxiv.org/html/2606.26396#bib.bib39); Lieberum et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib40))。最近的工作 (Model et al., 2025 (https://arxiv.org/html/2606.26396#bib.bib41)) 和 (Engels et al., 2025a (https://arxiv.org/html/2606.26396#bib.bib43)) 旨在借助 SAE 更系统地刻画这些线性特征流形，而 (Engels et al., 2025b (https://arxiv.org/html/2606.26396#bib.bib44)) 则尝试探索 SAE 重构误差本身的起源和效用。在我们的研究中，我们独特地利用 Transformer 表示空间中的这些线性方向来有效区分分布内样本和分布外样本。这揭示了在语义概念空间中，模型在何处用虚假特征替代了组合特征。此外，我们表明，精心切除这些方向可以在不牺牲 LLM 通用推理能力的情况下，强化其对有害对抗输入的防御能力。

## 3. 方法

### 3.1 原理

SAE 已成为镜像 LLM 内部结构的首选解决方案。这类模型为理解概念表示、电路和可导向输出背后的机制开辟了新途径 (Ameisen et al., 2025 (https://arxiv.org/html/2606.26396#bib.bib45))。基于这些实际成功，我们在此将 SAE 重新用作一种代理模型，用于描绘目标 LLM 的分布内与分布外内部处理流的光谱。如果我们假设 SAE 学习到了 Transformer 表示空间的一个有用近似，那么意料之外和 OOD 的输入很可能会导致高重构误差、需要大量概念来表示，或者两者兼而有之。这种设置允许我们在 Transformer 处理输入时即时标记 OOD 事件，甚至在模型开始形成响应之前。因此，我们提供了一种设备，将分布内与分布外的概念从单纯的数据点扩展到 LLM 内部私有的复杂处理操作。如果这些偏离分布的事件被正确追踪，这种“内部知识”应该能够对 LLM 实施精确的纠正性操作，我们将在越狱等重要的人工智能安全用例中展示这一点。

### 3.2 分布外输入

为大规模预训练的 LLM 定义真正的“分布外”数据集可能具有挑战性 (Bommasani et al., 2022 (https://arxiv.org/html/2606.26396#bib.bib48); Liang et al., 2023 (https://arxiv.org/html/2606.26396#bib.bib49))。因此，我们首先构建一个玩具环境，以便更清晰地评估我们的假设。我们从 TinyStories 语料库 (Eldan and Li, 2023 (https://arxiv.org/html/2606.26396#bib.bib46)) 的字符级分词开始，并在每个样本中可变百分比的单词中引入保持长度不变的拼写错误，以控制我们引入数据集的分布偏移。每个单词只引入一个拼写错误。由于 TinyStories 由 GPT-4 (OpenAI et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib47)) 生成的各种故事组成，我们不期望该数据集在其默认配置中包含任何拼写错误。此外，字符级分词消除了因替代词分割而产生混杂的可能性。因此，从头开始在 TinyStories 上训练的 LLM 应该基本上没有接触过拼写错误，它们出现在输入样本中对于这个目标模型来说完全是分布外的。除了这些用于严格检验我们方法的拼写错误玩具实验之外，我们还将越狱提示（第 6.1 节）和语言风格视为 OOD 的形式（附录 A.8），表明我们的方法适用于广泛的“OOD 性”光谱。

### 3.3 Transformer 模型

我们研究了不同规模的 Transformer 模型：

- • GPT-2: 在第 4.1 节和第 5 节中，我们使用一个 25M 参数的 GPT-2 版本 (Radford et al., (https://arxiv.org/html/2606.26396#bib.bib53)) 作为玩具模型，以清晰地探索 OOD 行为。我们在 TinyStories 语料库的 6.5 亿个 token 上预训练了一个 8 层的 GPT-2 变体，其潜在嵌入维度为 d_model=512。重要的是，我们采用了字符级分词。这个玩具设置确保模型学习大量语义概念，但训练分布的范围被有意限制为干净、简单的文本。这使我们能够更自信地将某些输入分布划定为该玩具模型的“OOD”。
- • Llama 3.1 8B: 在第 4.2 节和第 6 节中，我们部署了一个预训练的 Llama 3.1 8B 模型 (Grattafiori et al., 2024 (https://arxiv.org/html/2606.26396#bib.bib54))，具有 32 层和大小为 d_model=4096 的嵌入空间。该模型用于进行真实世界的实验，研究提示分布偏移如何损害模型性能，以及我们如何通过 SAE 指导的微调来纠正这种 OOD 引发的失败。
- • OpenAI 模型: 在第 4.2 节中，我们评估了 OOD 输入对 GPT-4o mini 和 GPT-5-thinking-nano 语言理解和召回能力的影响。我们允许调用 GPT-5-thinking-nano 时使用无限推理 token。请注意，我们无法访问这些模型的任何内部过程或权重。这些模型通过 OpenAI API 访问。

### 3.4 稀疏自编码器

我们只关注在 Transformer 残差流激活上训练的 SAE。残差流激活指的是在每个块之后从 Transformer 模型中提取的 token 级别嵌入向量。在每个块之后，注意力层和多层感知机（MLP）子层会写入残差流，因此它是 Transformer 架构中信息流和表示精炼的主要通道。

参考图注
图 1: 正如 SAE 所追踪的，Transformer 在 OOD 样本中推断出与输入解耦的意义单元。 (a) 我们将 SAE 作为一种设备，用于评估 OOD 提示相对于 LLM 学习到的表示流形的位置。 LLM 表示取自中间层的残差流，并由 SAE 代理模型映射。 OOD 样本需要更多的语义概念来描述它们（红色圆圈），并且与分布内样本相比，通常会导致更大的 SAE 重构误差。 (b) 随着输入变得越来越 OOD（以样本中具有字符级拼写错误的单词百分比表示），虚假激活的语义概念在 GPT-2 的第 6 层残差流表示中出现。这些偏离流形的样本可以很容易地被 SAE 表征。我们报告了在正常文本之上额外激活的概念数量，平均超过 50 个随机拼写错误配置。阴影区域代表 1 个标准差（我们看到拼写错误配置之间的偏差非常小）。

SAE 的功能是将密集的 Transformer 残差流激活投影到一个稀疏激活的、过完备的基上，使其变得可解释。每个输入数据点是给定层上单个 token 的残差流激活 x∈R^d_model。SAE 的公式如下： z = ReLU(Wx + b), x̂ = Dz。这些 SAE 由一个编码器矩阵 W∈R^(d_SAE × d_model) 和一个偏差项组成。

理解边缘：稀疏自编码器追踪Transformer泛化的界限

相似文章

从 GPT-4 中提取概念

使用稀疏Transformer进行生成建模

稀疏自编码器中概念学习与神经元解释的几何视角

稀疏性与叠加对简单自编码器损失的影响

语法引导的稀疏注意力机制：实现高效可解释的Transformer

提交意见反馈