电路能告诉我们多少？评估语言模型电路的一致性与特异性

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文评估了语言模型电路的一致性与特异性，发现虽然电路在任务内部具有一致性，但由于不同任务间存在大量重叠，它们缺乏任务特异性。

arXiv:2605.08348v1 公告类型：新发布摘要：机制可解释性中的电路框架旨在识别模型组件中因果上重要的稀疏子图，通常通过衡量必要性和充分性来评估。我们测量了电路复用率，即任务内每个示例电路中共享组件的比例，并研究了其中两个较少被研究的属性：一致性（组件在任务内的重复出现）和特异性（组件对任务的唯一性）。通过在六个任务和七种模型上使用边归因修补技术，我们发现任务内的复用率很高，且共享组件对任务性能是必要的，消融实验导致相对准确率下降高达 ~100%。然而，电路并非任务特定的：消融某一任务的电路对另一任务性能的损害程度，与该任务自身电路对其性能的损害程度相近。我们发现这是由于任务间的电路存在大量重叠，这些重叠部分对性能具有因果重要性。部分电路确实包含较小的一组任务特定组件，但这些组件仅占电路性能的很小一部分。总体而言，我们的研究结果表明，尽管在注意力头和 MLP 层层面发现电路能够识别重要组件，但它们缺乏任务特异性，这引发了关于电路在多大程度上能够支持对模型行为的针对性理解和干预的疑问。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:41

# 电路究竟能告诉我们什么？测量语言模型电路的一致性与特异性
来源：https://arxiv.org/html/2605.08348
###### 摘要

机械可解释性中的电路框架旨在识别模型组件中因果上重要的稀疏子图，通常通过测量*必要性*（necessity）和*充分性*（sufficiency）进行评估。我们测量了电路复用率，即任务内各个实例电路之间共享组件的比例，并研究了这一现象的两个较少被研究的属性：*一致性*（consistency），即组件在任务内的重复出现程度，以及*特异性*（specificity），即组件对任务的独特性。通过在六个任务和七个模型上使用边缘归因修补（edge attribution patching），我们发现任务内的复用率很高，且共享组件对任务性能至关重要，消融这些组件会导致高达约100%的相对准确率下降。然而，电路并不具有任务特异性：消融某个任务的电路对另一个任务性能的损害程度，与消融该任务自身电路造成的损害相当。我们发现，这是由于不同任务的电路之间存在显著重叠，且这些重叠部分对性能具有因果重要性。尽管某些电路确实包含较小的一组任务特异性组件，但这些组件仅占电路性能的一小部分。总体而言，我们的发现表明，虽然注意力头和MLP层级别的电路发现能够识别出重要组件，但其缺乏任务特异性引发了关于电路在多大程度上支持对模型行为的针对性理解和干预的问题。

\icml@noticeprintedtrue††footnotetext:\forloop@affilnum1\c@@affilnum¡\c@@affiliationcounter0AUTHORERR: Missing \icmlaffiliation\.\.AUTHORERR: Missing \icmlcorrespondingauthor\. \Notice@String

## 1引言

参见图1说明：电路评估标准。我们提出除了必要性和充分性外，还应从输入间的一致性和任务间的特异性两个维度来评估电路。神经网络臭名昭著的黑盒特性意味着，即使我们能诱发其在某项任务上的强劲表现，也不清楚是哪些内部计算在起作用。机械可解释性领域致力于通过识别*电路*——即因果上负责特定行为的模型组件稀疏子图——来逆向工程神经网络的内部计算（Elhage et al., 2021 (https://arxiv.org/html/2605.08348#bib.bib3); Wang et al., 2023 (https://arxiv.org/html/2605.08348#bib.bib4)）。越来越多的工作开发了提取此类电路的方法（Syed et al., 2024 (https://arxiv.org/html/2605.08348#bib.bib1); Marks et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib20); Jafari et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib19)），并评估其*必要性*（移除电路应导致性能下降）和*充分性*（仅凭电路应能重现该行为）（Shi et al., 2024 (https://arxiv.org/html/2605.08348#bib.bib18)）。

我们认为还有两个关键属性值得考虑（图1 (https://arxiv.org/html/2605.08348#S1.F1)）。首先，电路应该是*一致的*：如果一个电路真正捕捉了模型解决任务的方式，那么对于该任务的不同实例，相同的组件应该反复出现。其次，电路应该是*特定的*：一个任务的电路应与无关任务的电路有显著区别。如果没有一致性，电路就只是特定输入的产物，而非对模型算法的描述。如果没有特异性，电路就不具备任务特异性，从而限制了其在理解或干预方面的效用。

我们在大规模上测试了这两个属性。使用边缘归因修补（Edge Attribution Patching, EAP; Syed et al. (2024 (https://arxiv.org/html/2605.08348#bib.bib1))），我们从涵盖算法推理（加法、布尔逻辑）、信息检索（IOI、CopyColors MCQA）和知识密集型基准测试（ARC Easy、ARC Challenge）的六个任务中，针对n=1000个样本提取了每个样本的电路，并研究了来自四种架构家族的七个模型（Gemma 2、Llama 3.2、Qwen3、OLMo-2）。我们发现：

1. 1\. **电路在任务内具有一致性。** 跨越不同任务和模型，每个样本电路的很大一部分都来自一个共享的组件集合。与容量匹配随机消融相比，消融这个共享集合会导致巨大的准确率损失，证实了共享组件在因果上是重要的，而不仅仅是高分归因方法的伪影。
2. 2\. **电路在任务间缺乏特异性。** 当我们消融一个任务的电路并在另一个任务上评估时，性能下降幅度与消融该任务自身电路相当。这可以通过任务电路之间的显著重叠来解释：在组件层面，不同任务的电路主要由相同的MLP层组成。选择性消融实验表明，虽然确实存在少量重要的任务特异性组件，但每个电路的大部分成分是跨任务共享的。

这些发现表明，注意力头和MLP层级别的电路发现主要识别的是通用模型基础设施，而非任务特定的机制。我们讨论了导致这一结果的几种解释——包括共享MLP层和多语义性的作用——并推测可能需要更细粒度的方法，如概念级别/稀疏特征电路（Marks et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib20)），才能恢复任务特定的结构。我们还讨论了这对假设电路级别模块性的应用（包括模型编辑（Men et al., 2022 (https://arxiv.org/html/2605.08348#bib.bib23); Dai et al., 2022 (https://arxiv.org/html/2605.08348#bib.bib25)）和安全干预（Li et al., 2023 (https://arxiv.org/html/2605.08348#bib.bib24)）的影响，同时指出了我们分析在这些设置中的重要局限性。

## 2背景

### 2\.1 Transformer电路

我们使用Transformer电路框架（Elhage et al., 2021 (https://arxiv.org/html/2605.08348#bib.bib3)）将仅解码器transformer表示为有向无环计算图。*残差流*（residual stream）充当中央通信通道：令牌嵌入被写入其中，随后的每一层从中读取、执行计算，并将其输出加法性地写回。由于贡献是加法性的，任何组件的输出都可以影响任何下游组件，从而在层之间形成完全连接的图。在该图中，节点是模型的计算单元，通常是注意力头和MLP层，尽管其他分解方式（*例如*，单个神经元或稀疏自动编码器特征）也是可能的（Marks et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib20); Arora et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib26); Ameisen et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib27)）。边表示通过残差流在组件间流动的信息。*电路*随后被定义为该计算图的一个稀疏子图，足以解释给定的模型行为（Wang et al., 2023 (https://arxiv.org/html/2605.08348#bib.bib4); Conmy et al., 2023 (https://arxiv.org/html/2605.08348#bib.bib22)）。

### 2\.2 边缘归因修补

为了识别对给定行为重要的组件，研究人员通常使用激活修补（activation patching）（Vig et al., 2020 (https://arxiv.org/html/2605.08348#bib.bib28); Men et al., 2022 (https://arxiv.org/html/2605.08348#bib.bib23); Wang et al., 2023 (https://arxiv.org/html/2605.08348#bib.bib4)），即用损坏输入下的值替换每个组件的激活，并测量输出变化了多少。然而，这需要对每个组件进行单独的前向传播，成本变得 prohibitive（高昂且不可接受）。边缘归因修补（Edge Attribution Patching, EAP; Syed et al. (2024 (https://arxiv.org/html/2605.08348#bib.bib1))）利用梯度信息近似这些因果效应，每个样本只需两次前向传播和一次反向传播。组件按其归因分数的绝对值排序，前K个组件定义电路。Syed et al. (2024 (https://arxiv.org/html/2605.08348#bib.bib1)) 表明，EAP恢复的电路与更昂贵方法发现的电路具有竞争力，使其适合我们在此处进行的大规模分析（详见附录B (https://arxiv.org/html/2605.08348#A2)）。

## 3方法

### 3\.1 任务与模型

我们在六个任务上进行评估，涵盖算法推理（加法、布尔逻辑）、上下文中的信息检索（IOI (Wang et al., 2023 (https://arxiv.org/html/2605.08348#bib.bib4))、CopyColors MCQA (Mueller et al., 2025 (https://arxiv.org/html/2605.08348#bib.bib21))）以及知识密集型基准测试（ARC Easy、ARC Challenge (Clark et al., 2018 (https://arxiv.org/html/2605.08348#bib.bib5))）。完整任务描述见附录C (https://arxiv.org/html/2605.08348#A3)。我们研究了来自四种架构家族的七个模型：Gemma 2（2B, 2B IT; Gemma Team (2024 (https://arxiv.org/html/2605.08348#bib.bib14))）、Llama 3.2（3B, 3B Instruct; Llama team (2024 (https://arxiv.org/html/2605.08348#bib.bib11))）、Qwen3（4B, 8B; Yang et al. (2025 (https://arxiv.org/html/2605.08348#bib.bib10))）以及OLMo-2-1B (Team OLMo, 2024 (https://arxiv.org/html/2605.08348#bib.bib12))，后者用于预训练动态分析。

### 3\.2 提取与评估共享电路

对于每个任务$T$，我们使用数据集$\mathcal{D}_{T}^{\mathrm{train}}=\{(x_{i},y_{i})\}_{i=1}^{n}$，其中包含$n=1000$个样本，$x_{i}$为输入提示，$y_{i}$为目标答案令牌，以及一个不相交的保留评估集$\mathcal{D}_{T}^{\mathrm{eval}}$。令$\mathcal{C}=(\mathcal{V},\mathcal{E})$表示模型的计算图，其中顶点$\mathcal{V}$为模型组件（注意力头和MLP），边$\mathcal{E}$为它们之间的连接。对于每个$(x_{i},y_{i})\in\mathcal{D}_{T}^{\mathrm{train}}$，我们通过EAP提取每个输入的电路$\mathcal{C}_{i}\subseteq\mathcal{C}$，定义为由绝对归因分数最高的前$K$%组件张成的子图，并对$K\in\{1,5,10,20,30\}$进行遍历。给定每个输入的电路$\{\mathcal{C}_{i}\}_{i=1}^{n}$，共享组件集（$S_{P}$）包含出现在至少$P$比例的每个输入电路中的所有组件：

$$S_{P}=\Bigl\{\,c\in\mathcal{C}\,:\,\tfrac{1}{n}\textstyle\sum_{i=1}^{n}\mathbf{1}\{c\in\mathcal{C}_{i}\}\,\geq\,P\,\Bigr\}.\quad(1)$$

我们将$\textbf{reuse@}P$定义为每个输入电路与共享集重叠的平均比例：

$$\textbf{reuse@}P=\frac{1}{n}\sum_{i=1}^{n}\frac{\|S_{P}\cap\mathcal{C}_{i}\|}{\|\mathcal{C}_{i}\|},\quad(2)$$

并报告$P\in\{95\%,96\%,\ldots,100\%\}$时的$\textbf{reuse@}P$。

为了测试共享组件是否在因果上重要，我们对共享集$S_{P}$进行消融（置零），并测量$\mathcal{D}_{T}^{\mathrm{eval}}$上的准确率。然而，原始准确率下降难以解释。移除任何一组组件都会降低网络容量，因此无论被消融的组件是否与任务相关，预期都会出现一定程度的退化。因此，我们将共享集消融与*容量守恒对照*（$C^{3}$）进行比较。令$S_{C}$为$\mathcal{C}\setminus S_{P}$中均匀随机选取的子集，其注意力头和MLP的数量与$S_{P}$相匹配。[^1]由于两种消融都是容量匹配的，共享集消融造成的任何额外退化主要可归因于这些组件的功能角色，而非容量变化。

我们通过do-演算（do-calculus）（Pearl, 1995 (https://arxiv.org/html/2605.08348#bib.bib38)）形式化消融。对于消融集$S\subseteq\mathcal{C}$，令$\mathrm{do}(S\leftarrow 0)$表示将每个$c\in S$钳位为零的干预。顶点激活设为零，边从计算图中移除（等效地，沿其传递的信号被置零）。在此干预下，模型在$x$上的输出分布为$p_{\mathcal{M}}(\,\cdot\mid x;\,\mathrm{do}(S\leftarrow 0))$，其中$S=\varnothing$指原始（未消融）模型的输出分布。我们将$\mathcal{M}$在消融$S$下的*零消融预测*（Zero-Ablated Prediction, ZAP）定义为干预下模型的top-logit令牌，[^2]

$$\mathrm{ZAP}(\mathcal{M},S,x)=\arg\max_{y^{\prime}}p_{\mathcal{M}}(y^{\prime}\mid x;\,\mathrm{do}(S\leftarrow 0)),\quad(3)$$

我们将消融$S$下任务$T$的准确率定义为模型预测等于真实标签的保留样本比例，[^3]

$$\mathrm{acc}(\mathcal{M},S)=\frac{1}{\|\mathcal{D}_{T}^{\mathrm{eval}}\|}\sum_{(x,y)\,\in\,\mathcal{D}_{T}^{\mathrm{eval}}}\mathbf{1}\{y=\mathrm{ZAP}(\mathcal{M},S,x)\}.\quad(4)$$

最后，我们将$S_{P}$对任务$T$的因果效应定义为：

$$\mathrm{necessity}(\mathcal{M},S_{P})=\frac{\mathrm{acc}(\mathcal{M},S_{C})-\mathrm{acc}(\mathcal{M},S_{P})}{\mathrm{acc}(\mathcal{M},\varnothing)}.\quad(5)$$

正的$\mathrm{necessity}$意味着消融$S_{P}$造成的损害大于$C^{3}$，我们将其解释为共享组件对任务$T$具有因果重要性的证据。

### 3\.3 跨任务实验

上述实验告诉我们共享组件对给定任务是否在因果上重要。然而，它们并未阐明这些组件是否特定于该任务。一个组件对任务$A$至关重要，仅仅可能是因为它对*所有*任务都至关重要，在这种情况下，在任务$A$的电路中发现它可能并不能告诉我们太多关于任务$A$特有的信息。为了探究特异性，我们运行了两个跨任务实验。第一个消融一个任务的共享电路并测量对其他任务的影响。第二个消融不同任务电路的子集。

首先，定义$\Delta_{A}^{B}=\mathrm{acc}_{A}(\mathcal{M},\varnothing)-\mathrm{acc}_{A}(\mathcal{M},S_{P}^{B})$，即在消融任务$B$的共享电路时任务$A$的准确率下降，其中$\mathrm{acc}_{A}$表示在$\mathcal{D}_{A}^{\mathrm{eval}}$上评估的准确率，$S_{P}^{B}$是任务$B$的共享组件集。如果电路具有任务特异性，消融任务$A$自身的电路应对任务$A$造成的损害大于消融任何其他任务的电路。对于每个任务和模型，我们将$\Delta_{A}^{A}$（消融自身电路时$A$的下降）与$\frac{1}{|\mathcal{T}|-1}\sum_{B\neq A}\Delta_{A}^{B}$（用其他每个任务的电路替换时$A$的平均下降）进行比较。

其次，为了定位任务特异性信号所在的位置，我们将并集$\mathcal{C}_{A}\cup\mathcal{C}_{B}$划分...

[^1]: 我们不随机采样边；消融一个顶点会将所有相邻边置零，因此匹配顶点计数自动考虑了边消融。
[^2]: 此处我们使用argmax解码，但可以在输出分布$p_{\mathcal{M}}$上使用任何解码算法。
[^3]: $S_{P}$、$\mathrm{acc}$和$\mathrm{necessity}$都隐式依赖于$T$（通过$\mathcal{D}_{T}^{\mathrm{train}}$和$\mathcal{D}_{T}^{\mathrm{eval}}$），但为了可读性，我们从符号中省略了$T$。

电路能告诉我们多少？评估语言模型电路的一致性与特异性

相似文章

架构而非规模：大语言模型中的电路局部化

视觉-语言模型中可靠性的所在：注意力、隐藏状态与因果电路的机制研究

信念还是电路？上下文图学习的因果证据

语言模型学习什么以及何时学习？隐性课程假设

实验还是结果？探测大语言模型中的科学可行性

提交意见反馈