架构而非规模：大语言模型中的电路局部化

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文挑战了“随着模型规模扩大，机制可解释性变得愈发困难”的假设，表明架构（特别是分组查询注意力与多头注意力之间的差异）对电路局部化和稳定性的影响比参数量更为关键。

arXiv:2605.08853v1 公告类型：new 摘要：机制可解释性通常假设电路分析会随着模型规模的扩大而变得更加困难。我们通过证明注意力架构的影响比参数量更显著，对此假设提出了挑战。通过对 Pythia 和 Qwen2.5 模型中三种电路类型的研究，我们发现，在同等规模下，分组查询注意力（Grouped Query Attention）所产生的电路比标准多头注意力（Multi-Head Attention）更加集中且机制上更为稳定。这种集中模式在间接对象识别、归纳头（Induction Heads）以及事实记忆中均保持一致。在单一架构家族（Qwen2.5）内，当模型规模超过临界值时，事实记忆电路会发生离散的相变，坍缩为单一瓶颈，而非逐渐退化。这些发现表明，某些架构选择使大型模型更易于研究，且可解释性的难度并非模型规模的必然结果。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:04

# 架构而非规模：大语言模型中的电路局部化
来源：https://arxiv.org/html/2605.08853
###### 摘要

机制可解释性通常假设，随着模型规模的扩大，电路分析会变得愈发困难。我们挑战了这一假设，表明注意力架构比参数数量更为关键。通过研究 Pythia 和 Qwen2.5 中的三种电路类型，我们发现，在可比规模下，分组查询注意力（GQA）产生的电路比标准多头注意力（MHA）更加集中且机制上更加稳定。这种集中模式在间接宾语识别、归纳头（induction heads）和事实回忆中均保持一致。在单一架构家族（Qwen2.5）内，当规模超过临界值时，事实回忆电路会发生离散相变，坍缩为单一瓶颈，而非逐渐退化。这些发现表明，某些架构选择使得大模型更易于研究，且可解释性的难度并非模型规模的必然结果。

## 1 引言

机制可解释性旨在对神经网络进行逆向工程，将其分解为可理解的组件（如电路、特征和表示），以解释特定的模型行为 (Olah et al., 2020 (https://arxiv.org/html/2605.08853#bib.bib1); Elhage et al., 2021 (https://arxiv.org/html/2605.08853#bib.bib2))。其核心前提是，模型在可识别的结构中编码计算过程，这些结构可以被定位、消融和理解。这种方法在小模型上已被证明是富有成效的 (Olsson et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib3); Wang et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib4); Meng et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib5))，但一个实际顾虑仍然存在：随着模型规模扩展到数十亿参数，机制可解释性是否仍然可行？

通常的假设是它并不可行。人们预期更大的模型会发展出更多冗余的表示，将计算分布到更多组件中，并抵抗那些使小模型电路变得可读的手术式消融 (Lindsey et al., 2025 (https://arxiv.org/html/2605.08853#bib.bib13); Elhage et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib15))。这种信念影响了该领域的努力分配，优先关注小型可处理模型，并开发旨在应对未来规模的自动化工具 (Conmy et al., 2023 (https://arxiv.org/html/2605.08853#bib.bib14))。这一假设很少在受控条件下直接接受测试。先前研究大规模可解释性的工作未将架构作为独立变量进行控制 (Lieberum et al., 2023 (https://arxiv.org/html/2605.08853#bib.bib35))。

我们将注意力机制隔离为一个关键变量。我们比较使用标准多头注意力（MHA）的 Pythia (Biderman et al., 2023 (https://arxiv.org/html/2605.08853#bib.bib7)) 和使用分组查询注意力（GQA）的 Qwen2.5 (Yang et al., 2024 (https://arxiv.org/html/2605.08853#bib.bib8))。我们使用 TransformerLens (Nanda and Bloom, 2022 (https://arxiv.org/html/2605.08853#bib.bib9))，在从 1.6 亿到 70 亿参数的六种模型规模下测试了三种电路类型（间接宾语识别、归纳头和事实回忆）。

架构比规模更能可靠地预测电路几何结构。GQA 模型在所有三个任务中产生的电路都集中在一到两个注意力头上。MHA 模型产生的电路则分散在几十到几百个头中。这种差异源于 GQA 对值空间计算施加的结构约束。消融一个 KV 头会破坏所有共享它的查询头，从而形成一个在 MHA 中没有类似物的瓶颈。

GQA 电路在机制上也更加稳定。无论任务难度或输入分布如何，同一个头始终占据主导地位。MHA 电路在简单和困难输入条件之间发生显著变化，不同机制下的主要贡献头也会发生变化。这种稳定性不对称对于安全监控至关重要。跨输入的一致性电路行为是可靠监督的先决条件 (Ganguli et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib31))。

## 2 相关工作

#### 归纳头。

Olsson 等人 (2022 (https://arxiv.org/html/2605.08853#bib.bib3)) 识别出归纳头是 transformer 架构中上下文学习的关键机制。这些头实现了一种模式补全操作：给定一个重复序列 [A][B]...[A]，它们回溯到第一个 [A] 并复制随后的 [B]。我们测量归纳电路几何结构随规模和架构的变化。

#### 间接宾语识别。

Wang 等人 (2022 (https://arxiv.org/html/2605.08853#bib.bib4)) 使用激活补丁（activation patching）在 GPT-2 small 中识别了 IOI 电路，表征了名称移动头（name mover heads）、备用名称移动头和抑制头。IOI 和归纳头是截然不同的电路类型。IOI 需要在句子结构中跟踪语义名称，并将宾语名称路由到预测位置。归纳头实现了一种机械复制操作，不需要语义理解 (McDougal et al., 2024 (https://arxiv.org/html/2605.08853#bib.bib34))。我们将 IOI 作为主要评估任务，并将其扩展到两个架构家族。

#### 事实回忆。

Meng 等人 (2022 (https://arxiv.org/html/2605.08853#bib.bib5)) 使用因果追踪在中晚期 MLP 层中定位了事实关联。Geva 等人 (2023 (https://arxiv.org/html/2605.08853#bib.bib6)) 表征了注意力头在将主体信息路由到最终令牌位置中的作用。Geva 等人 (2021 (https://arxiv.org/html/2605.08853#bib.bib20)) 的早期工作确立了前馈层作为键值记忆的功能。

#### 缩放与可解释性。

Conmy 等人 (2023 (https://arxiv.org/html/2605.08853#bib.bib14)) 提出了自动电路发现（ACDC），它使用迭代激活补丁来识别实现目标行为的最小计算子图。Lieberum 等人 (2023 (https://arxiv.org/html/2605.08853#bib.bib35)) 测试了电路分析是否能扩展到 Chinchilla 规模的模型，结果喜忧参半。标准技术可以转移到 70B 模型，但对所识别组件的语义理解仍然部分缺失。Lindsey 等人 (2025 (https://arxiv.org/html/2605.08853#bib.bib13)) 发现，较大语言模型中的电路更密集且更难隔离。我们要问的是，架构选择是否能产生现有方法可处理的大模型。

#### 特征与表示。

Elhage 等人 (2022 (https://arxiv.org/html/2605.08853#bib.bib15)) 表明，网络通过叠加（superposition）存储的特征多于维度。Templeton (2024 (https://arxiv.org/html/2605.08853#bib.bib16)) 表明稀疏自编码器可以在大规模下将这些特征分解为可解释的特征。Marks 和 Tegmark (2023 (https://arxiv.org/html/2605.08853#bib.bib26)) 在真相表示中发现了涌现的线性结构。Hernandez 等人 (2023 (https://arxiv.org/html/2605.08853#bib.bib27)) 表明关系解码在 transformer 表示中是线性的。

## 3 背景

#### 归纳头。

归纳头从一个重复令牌 [A][A] 关注回其先前出现的位置，并复制随后的令牌作为其预测。这使得上下文学习成为可能：模型补全上下文中之前见过的新模式 (Olsson et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib3))。归纳头通常作为双头系统运行。一个前序令牌头将注意力向后移动一个位置，归纳头利用此信号关注先前出现后的令牌。

#### 间接宾语识别。

IOI 任务要求在如“After Mary and John went to the store, John gave a mango to ___”的句子中识别接收者，其中正确答案是 Mary。这从根本上不同于归纳：模型必须跟踪两个名称，确定它们的语义角色，并将正确的名称路由到预测位置。Wang 等人 (2022 (https://arxiv.org/html/2605.08853#bib.bib4)) 将该电路分解为名称移动头、备用名称移动头和抑制头。我们使用最终令牌的 logit 差 $\text{logit}(\text{IO}) - \text{logit}(\text{S})$ 来测量电路几何结构，其中 IO 是接收者，S 是给予者。

#### 事实回忆。

事实回忆指的是补全存储在模型权重中的主体-关系-对象关联，例如用“Paris”补全“The capital of France is”。该电路涉及主体令牌处理以及将主体信息路由到最终令牌位置的注意力头 (Geva et al., 2023 (https://arxiv.org/html/2605.08853#bib.bib6))。先前使用因果追踪的工作 (Meng et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib5)) 在 MHA 模型的中晚期 MLP 层中定位了事实关联。

#### 分组查询注意力。

标准 MHA (Cordonnier et al., 2020 (https://arxiv.org/html/2605.08853#bib.bib11)) 为每个注意力头提供独立的查询、键和值矩阵。对于 $h$ 个头，头 $i$ 计算：

$$
\text{Attn}_i = \text{softmax}\left(\frac{Q_i K_i^\top}{\sqrt{d_{\text{head}}}}\right) V_i \quad (1)
$$

GQA 在查询头组之间共享键和值矩阵，其中 $n_{\text{kv}} < h$ 个 KV 头 (Ainslie et al., 2023 (https://arxiv.org/html/2605.08853#bib.bib10))：

$$
\text{Attn}_i = \text{softmax}\left(\frac{Q_i K_{\lfloor i/r \rfloor}^\top}{\sqrt{d_{\text{head}}}}\right) V_{\lfloor i/r \rfloor}, \quad r = h/n_{\text{kv}} \quad (2)
$$

这将 KV 缓存大小减少了 $r$ 倍，并将值空间计算集中到 $n_{\text{kv}}$ 个共享子空间中。单个 KV 头调解分配给它的 $r$ 个查询头的输出。

## 4 方法

### 4.1 模型

我们研究两个架构家族。Pythia 包括 Pythia-160M（12 层，12 头）、Pythia-1.4B（24 层，16 头）和 Pythia-6.9B（32 层，32 头）。Qwen2.5 包括 Qwen2.5-0.5B（24 层，14 个 Q 头，2 个 KV 头）、Qwen2.5-1.5B（28 层，12 个 Q 头，2 个 KV 头）和 Qwen2.5-7B（28 层，28 个 Q 头，4 个 KV 头）。

### 4.2 任务

我们研究了三种在机制可解释性文献中已确立的电路类型，每种类型探测不同类型的计算。

间接宾语识别（IOI）是我们的主要任务。由于先前工作 (Wang et al., 2022 (https://arxiv.org/html/2605.08853#bib.bib4)) 已知 IOI 的电路结构，因此它是测试架构是否影响良好表征的语义任务上的电路几何结构的最强测试。我们使用 fahamu/ioi 数据集 (Fahamu, 2023 (https://arxiv.org/html/2605.08853#bib.bib17))，其中包含 2600 万句 IOI 句子。我们为每个模型采样 500 个句子并进行过滤，以确保两个名称都精确地分词为一个令牌，防止在 logit 差指标中出现多令牌歧义。我们使用 20 个句子对每个（层，头）对进行评分，方法是测量消融该头时 logit 差的下降。消融曲线在完整的 500 句集上运行。

归纳头作为对无语义内容任务的鲁棒性检查。如果在合成重复令牌序列上出现的集中模式与 IOI 上出现的模式相同，那么它不太可能是特定于名称跟踪的。我们构建了 200 个形式为 [prefix][A][B][suffix][A] 的随机重复令牌序列，并测量上下文学习（ICL）损失：预测最终位置 [B] 的交叉熵。对于每个（层，头）对，我们测量 ABA 偏移位置的平均注意力权重，并运行贪心消融曲线。

事实回忆使用一个跨越十个领域的 493 个主体-补全事实的精选集。我们构建自定义集而不是使用现有基准，因为 TriviaQA 和类似数据集包含多令牌答案和多跳链，这使单头消融分析复杂化。我们集合中的所有事实都有单令牌答案和已知的主体-关系-对象结构。Pythia 提示使用自然补全格式。Qwen2.5 提示使用 QA 格式，可靠地从指令感知模型中引出事实答案。我们对两个家族都应用前 3 过滤。我们运行两个条件：使用每个模型正确回答的事实进行每模型条件，以及使用家族中所有模型所知事实的交集进行共享条件，这在跨规模比较时控制了事实难度。

### 4.3 指标

我们报告两个主要指标。顶级头得分（Top head score）是消融最重要单个头导致的 logit 或准确率下降。较高值表示单个头占主导地位。80% 损伤所需头数（Heads-to-80%）统计导致 80% 任务损伤所需的贪心消融次数。较低值表示电路更集中。

## 5 结果

### 5.1 GQA 将 IOI 电路浓缩到一个头中

表 1 (https://arxiv.org/html/2605.08853#S5.T1) 报告了两个家族的 IOI 结果。所有六个模型都以正的基线 logit 差解决任务，证实了在电路分析之前的任务能力。

表 1：Pythia (MHA) 和 Qwen2.5 (GQA) 的 IOI 结果。基线 logit 差衡量模型对正确接收者的置信度。顶级头得分是消融最重要单个头导致的 logit 差下降。所有三个 Qwen2.5 模型只需一次消融即可造成 80% 的损伤，而 Pythia 需要两次到五次。在可比规模下，Qwen2.5 的顶级头得分是 Pythia 的四到八倍。随着规模扩大，Pythia 的顶级头层逐渐变深（L8, L12, L16）。图 1 (https://arxiv.org/html/2605.08853#S5.F1) 显示了匹配规模下的头贡献得分热力图，图 2 (https://arxiv.org/html/2605.08853#S5.F2) 显示了随着按贪心顺序消融头，logit 差损伤如何累积。

参见标题
参见标题

图 1：Pythia-1.4B（左）和 Qwen2.5-1.5B（右）在匹配规模下的 IOI 头贡献得分热力图。每个单元格是消融该（层，头）对时的 logit 差下降。Pythia-1.4B 显示分散的贡献分布在许多层和头上。Qwen2.5-1.5B 在第 0 层显示单一亮带，这是 GQA 在该层所有查询头之间共享 KV 头的直接结果。参见标题
参见标题

图 2：Pythia（左）和 Qwen2.5（右）的 IOI 消融曲线。Y 轴是归一化的 logit 差损伤。X 轴是按贪心顺序消融的头。Pythia 模型需要多次消融才能跨越 80% 的阈值。所有三个 Qwen2.5 模型在第一次消融后超过 80% 的损伤并保持在那里，这证实了一个头承载了整个电路。表 2 (https://arxiv.org/html/2605.08853#S5.T2) 显示，仅消融单个顶级头造成的损伤与完整贪心序列相当，排除了贪心顺序作为 80% 损伤所需头数结果来源的可能性。

表 2：Qwen2.5 IOI 电路的单头必要性检查。Logit Diff（消融后）是仅消融最高得分头后的 logit 差。Drop (%) 是相对于基线 logit 差的百分比减少。对于 Qwen2.5-0.5B 和 1.5B，消融单个顶级头导致 logit 差反转符号。消融后模型主动预测错误的名称。对于 Qwen2.5-7B，消融顶级头导致 89.6% 的损伤。作为一个负对照，消融随机选择的中层头不会造成损伤，并且在几种情况下改善了 logit 差。这证实该效应是电路特定的，而不是值归零的一般后果。

Qwen2.5-0.5B

架构而非规模：大语言模型中的电路局部化

相似文章

论大语言模型的固有可解释性：设计原则和架构调查

循旧图而航：大模型后训练中静态机制定位的陷阱

信念还是电路？上下文图学习的因果证据

大型视觉-语言模型在注意力机制中迷失

电路能告诉我们多少？评估语言模型电路的一致性与特异性

提交意见反馈