当 Attribution Patching 存在偏差：诊断与二阶修正

arXiv cs.LG 2026/06/10 04:00 论文

摘要

本文诊断了 attribution patching 中的系统性误差——这是一种用于语言模型因果定位的基于梯度的近似方法——并提出了一种使用 Hessian-vector product 的二阶修正，该修正以极小的额外计算成本提高了可靠性。

arXiv:2606.09899v1 公告类型：新摘要：机械可解释性的一个核心目标是识别哪些内部组件因果地驱动语言模型的行为。由于这些重要性估计作为识别电路的证据，系统性误差可能导致对潜在机制的误识别。虽然激活修补（activation patching）提供了黄金标准的因果度量，但其计算成本在规模上难以承受。实践者转而依赖归因修补（attribution patching），一种基于梯度的一阶近似方法，其可靠性仍然不为人所知。在这项工作中，我们刻画了这种不可靠性的来源，证明主要误差源于下游网络的非线性，而不是修补组件处的局部曲率。这一洞察产生了三个实用工具：(i) 一个用于检测不可信估计的可靠性分数，(ii) 量化潜在归因误规范性的误差界，以及 (iii) 一种使用海森向量积（HVP）的二阶修正，仅需一次额外的反向传播即可消除主导阶误差。在跨越五个模型族（124M-9B参数）以及随机 token 和自然（名称交换）扰动的评估中，HVP 是唯一在更大规模上可行的二阶修正，而像 Integrated Gradients 这样的标准基线在计算上变得不可行。在对比实验中，一个多步 HVP 变体在显著更低计算量下匹配或超过了 Integrated Gradients 的精度，优于先前的二阶基线。这些改进导致标准基准上更高保真度的电路恢复，并支持一种 Screen-Flag-Fix 工作流，该工作流仅将计算资源定向到被标记为不可靠的组件。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:17

# 诊断与二阶修正  
来源：https://arxiv.org/html/2606.09899  

## 当归因修补存在偏差：诊断与二阶修正  

**Luyang Zhang¹  & Jialu Wang²**  
¹卡内基梅隆大学  
²加州大学圣克鲁兹分校  
[email protected], [email protected]  

###### 摘要  
机械可解释性的核心目标之一是识别语言模型中哪些内部组件因果驱动了其行为。由于这些重要性估计是识别电路（circuit）的证据来源，系统性错误可能导致对底层机制的误判。激活修补（activation patching）虽提供了黄金标准的因果度量，但其计算成本在大规模场景下高得令人望而却步。实际应用中，研究者转而依赖归因修补（attribution patching）——一种基于梯度的一阶近似，其可靠性却尚未被充分理解。本工作刻画了这种不可靠性的来源，证明主导误差源于下游网络的非线性，而非修补组件处的局部曲率。这一洞察催生了三项实用工具：（i）用于检测不可靠估计的可靠性得分；（ii）量化潜在归因误差的误差界；（iii）一种黑塞-向量积（HVP）修正，仅需额外一次反向传播即可消除首阶误差。在涵盖五个模型家族（124M–9B参数）以及随机词元和自然（名称交换）扰动的评估中，HVP是唯一能在更大规模下可行的二阶修正方法——而诸如积分梯度（Integrated Gradients）等标准基线在此规模下计算上不可行。在对比实验中，多步HVP变体以显著更低的计算量匹配或超越了积分梯度的精度，性能优于先前的二阶基线。这些改进在标准基准上带来了更高保真度的电路恢复，并支撑了一套将计算精力仅投向被标记为不可靠组件的**筛选-标记-修复**工作流。  

## 1 引言  
随着语言模型在规模和能力上不断增长，理解其内部机制变得愈发重要。机械可解释性旨在通过解释模型行为所基于的内部计算来提供这种理解。其核心步骤之一是因果定位：识别哪些注意力头、神经元或特征因果驱动了某一特定行为。这些定位分数常被用于支撑电路论断[7 (https://arxiv.org/html/2606.09899#bib.bib11),24 (https://arxiv.org/html/2606.09899#bib.bib12),1 (https://arxiv.org/html/2606.09899#bib.bib13)]，因此系统性误差可能导致错误的机械结论。黄金标准的因果检验是**激活修补**[10 (https://arxiv.org/html/2606.09899#bib.bib35),39 (https://arxiv.org/html/2606.09899#bib.bib36)]，它将组件在被破坏输入下的激活替换为干净输入的值，并测量输出变化。但其成本随组件数量线性增长，在现代大型语言模型（LLM）中迅速变得难以承受。因此在实际中，广泛的定位依赖于更廉价的近似，仅在少量组件上保留直接干预。一种常用的近似是**归因修补**[28 (https://arxiv.org/html/2606.09899#bib.bib10)]，它通过将效果围绕被破坏激活进行线性化，用单次反向传播替代多次显式干预。然而，当下游非线性较强时，这种线性化可能变得不可靠。先前的工作已识别出具体失效模式并提出了部分补救措施[23 (https://arxiv.org/html/2606.09899#bib.bib1),9 (https://arxiv.org/html/2606.09899#bib.bib2),18 (https://arxiv.org/html/2606.09899#bib.bib3)]，但一个根本问题仍悬而未决：对于给定组件，归因修补何时可靠、其误差可能有多大、又应如何修正？  

参考图注  
图1：用于可靠归因修补的**筛选–标记–修复**流水线。(a) 归因修补廉价地筛选所有头部；(b) 可靠性得分标记可疑估计；(c) HVP仅修正被标记的头部，恢复真实排序。  

我们通过分析归因修补误差的结构来填补这一空白。关键发现是：主导误差源于网络对干预的响应，而非修补组件处的局部非线性。二阶泰勒展开精确刻画了这一点：误差分为一个主导的二次项（可通过单次Hessian-向量积（HVP）计算得出）和一个三次余项。这一分解产生了三项关键结果：(1) 用于标记不可靠估计的可靠性得分；(2) 具有可证明的1/K²收敛速率的误差界，其中K是修正被拆分的子步数；(3) 对先前修正方法[23 (https://arxiv.org/html/2606.09899#bib.bib1),9 (https://arxiv.org/html/2606.09899#bib.bib2)]不足之处的解释。具体而言，先前方法使用局部曲率，但我们证明真实误差取决于下游网络响应，这一量与局部度量相差22–66倍，且相关性近乎为零。基于这一分析，我们提出一个**筛选–标记–修复**流水线（图1 (https://arxiv.org/html/2606.09899#S1.F1)）：先用归因修补筛选所有组件，再用可靠性得分标记不可靠组件，最后仅对标记组件应用基于HVP的二阶修正。对于单步展开过冲的大扰动，多步变体（MS-HVP）将修正拆分为K个子步，每个子步局部评估。我们在五个模型家族（124M–9B参数）上进行评估，与积分梯度（IG）[35 (https://arxiv.org/html/2606.09899#bib.bib23)]、积分Hessian（IH）[19 (https://arxiv.org/html/2606.09899#bib.bib24)]和GIM[9 (https://arxiv.org/html/2606.09899#bib.bib2)]进行比较。**在更大规模**（8B+参数）下，IG在每个任务上需要约25个GPU天；HVP是唯一在此规模下得到验证的二阶修正方法，可将误差降低高达82%（MS-HVP K=5，在Llama-3.1-8B上）。**在更小规模**下，MS-HVP匹配或超越IG：在最困难设定下，成本为10的MS-HVP比成本为35的IG精度更好（便宜3.5倍，p=0.022）；在相同成本下，MS-HVP获胜1.2个百分点（p<0.001）。在所有九个任务上，HVP在更小规模下比IH提高1.5%–13.9%。**在电路恢复方面**，这些逐组件增益转化为在IOI和Greater-Than基准上更好的头部恢复。  

我们的贡献有三方面：  
- • **重新定义归因修补的可靠性。** 我们将主导误差追溯到下游网络响应而非局部非线性，解释了为何先前的局部修正结构上不完整。  
- • **一种可扩展的二阶修正。** HVP（及其多步变体MS-HVP）在8B+参数下仍然可行，而现有的精细化基线在此规模下变得不可行，这是在此规模下验证的首个二阶修正方法。  
- • **归因修补优化的设计空间。** 我们按目标（包括估计精度、特征交互和电路保真度）对先前方法进行组织，阐明哪种工具适合哪种用例。  

## 2 相关工作  
#### 用于机械定位的修补方法。  
激活修补[10 (https://arxiv.org/html/2606.09899#bib.bib35),39 (https://arxiv.org/html/2606.09899#bib.bib36)]为机械定位提供了因果参考干预，通过测量干预隐藏激活的效果来实现。由于其成本随候选组件数量线性增长，归因修补[28 (https://arxiv.org/html/2606.09899#bib.bib10)]用一阶近似替代多次干预，并已成为自动化电路发现[7 (https://arxiv.org/html/2606.09899#bib.bib11),36 (https://arxiv.org/html/2606.09899#bib.bib5)]、稀疏特征电路[24 (https://arxiv.org/html/2606.09899#bib.bib12)]和大规模电路追踪[1 (https://arxiv.org/html/2606.09899#bib.bib13)]中的标准定位原语。诸如Heimersheim和Nanda[17 (https://arxiv.org/html/2606.09899#bib.bib6)]的实践指南以及关于激活修补度量和破坏选择的方法论研究[41 (https://arxiv.org/html/2606.09899#bib.bib7)]指出，修补行为通常近似线性，同时对非线性和设计决策保持敏感，这使得归因修补的可靠性成为基于修补的工作流的核心问题。最近的大规模电路追踪[1 (https://arxiv.org/html/2606.09899#bib.bib13),34 (https://arxiv.org/html/2606.09899#bib.bib14)]将归因应用于SAE特征[24 (https://arxiv.org/html/2606.09899#bib.bib12)]而非原始头部或神经元；HVP可直接应用于任何可微激活，不过SAE编码器的非线性（ReLU或top-k）引入了额外的曲率源，其大小留待未来工作处理。  

#### 归因修补的可靠性与电路验证。  
归因修补的几种失效模式已知：Kramár等人[23 (https://arxiv.org/html/2606.09899#bib.bib1)]识别了激活区域不匹配和抵消问题；Edin等人[9 (https://arxiv.org/html/2606.09899#bib.bib2)]表明softmax重分布系统性偏置了基于梯度的定位；Méloux等人[25 (https://arxiv.org/html/2606.09899#bib.bib4)]记录了在提示和超参数变化下的不稳定性；Sharkey等人[32 (https://arxiv.org/html/2606.09899#bib.bib15)]将梯度归因误差列为长期悬而未决的问题。替代性的归因规则如RelP[18 (https://arxiv.org/html/2606.09899#bib.bib3)]和EAP-GP[42 (https://arxiv.org/html/2606.09899#bib.bib16)]提高了电路发现中的保真度。另一条互补的工作线评估恢复的电路与已知因果结构的关系：Shi等人[33 (https://arxiv.org/html/2606.09899#bib.bib20)]形式化了保真度和最小性检验，Mueller等人[26 (https://arxiv.org/html/2606.09899#bib.bib22)]和Gupta等人[14 (https://arxiv.org/html/2606.09899#bib.bib21)]对定位方法进行了基准测试，而正式的机械可解释性工作[15 (https://arxiv.org/html/2606.09899#bib.bib8),2 (https://arxiv.org/html/2606.09899#bib.bib9)]研究了可证明的鲁棒性。总体而言，这些努力澄清了失效模式和评估标准，但未提供归因修补数值上何时可靠、以及如何跨组件类型和架构进行修正的一般性描述。  

#### 因果抽象与高阶分析。  
Geiger等人[12 (https://arxiv.org/html/2606.09899#bib.bib17)]将机械可解释性置于更广泛的因果抽象框架中。相关工作[13 (https://arxiv.org/html/2606.09899#bib.bib18),40 (https://arxiv.org/html/2606.09899#bib.bib19)]研究模型是否遵循可解释的因果结构，这一问题与底层归因修补估计的数值可靠性正交。此外，高阶归因方法，如积分梯度[35 (https://arxiv.org/html/2606.09899#bib.bib23)]、积分Hessian[19 (https://arxiv.org/html/2606.09899#bib.bib24)]、组合曲率分析[11 (https://arxiv.org/html/2606.09899#bib.bib28)]和影响函数HVP[22 (https://arxiv.org/html/2606.09899#bib.bib31)]，表明网络级曲率既有信息量又可计算，但均未提供针对内部激活修补的可靠性解释。  

## 3 诊断与修正归因修补误差  
本节分析归因修补何时不可靠以及如何修正。关键思想是归因修补误差可分解为两部分：主导的二次项（可通过单次Hessian-向量积计算）和一个较小的三次余项。我们首先建立这一分解（§3.1 (https://arxiv.org/html/2606.09899#S3.SS1)），然后利用它定义标记不可靠归因的可靠性得分（§3.2 (https://arxiv.org/html/2606.09899#S3.SS2)），接着展示为何局部激活曲率无法预测主导误差项，并引入网络级HVP、MS-HVP和选择性修正（§3.3 (https://arxiv.org/html/2606.09899#S3.SS3)）。  

### 3.1 问题设定与误差分解  
因果定位比较两个经过控制性差异（例如交换名字或替换词元）的匹配输入，询问哪些内部组件导致了输出变化。对于某个组件（神经元、注意力头或残差流位置），我们将其在一个输入下的激活a与在另一个输入下的受扰对应物a’=a+δ进行比较。激活修补通过直接干预测量这种替换的真实因果效应，而归因修补则利用单次反向传播来近似。我们的重点是刻画这种近似引入的误差。  

修补单个组件改变一个标量输出度量，过程如下。设M: ℝ^d → ℝ表示从模型输出读出的标量分数（作为被修补激活的函数，例如logit差或目标token的对数概率），并设a ∈ ℝ^d表示所关注组件处的激活。在此局部分析中，我们将输入的其余部分和模型计算视为固定。**激活修补**测量用反事实a’=a+δ替换a的真实效果，即Δ := M(a+δ) − M(a)。**归因修补**通过一阶泰勒展开近似该效果：  
Δ̂ = ∇_a M · δ. (1)  
此处∇_a M是标量度量关于激活a的梯度，因此Δ̂是沿修补方向δ的一阶归因修补估计。近似误差为E = Δ − Δ̂。由带积分余项的泰勒定理，  
E = ½ δ^⊤ H δ ⏟ 主导（Hessian）项 + Φ(δ) ⏟ 余项， H = ∇_a² M(a). (2)  
量δ^⊤ H δ是沿修补方向δ的Hessian二次型，即修补方向下标量度量的二阶曲率。为界定(2)中的高阶项，我们采用路径局部Lipschitz-Hessian条件——二阶优化中将三次泰勒余项标准化的方法[29 (https://arxiv.org/html/2606.09899#bib.bib25),5 (https://arxiv.org/html/2606.09899#bib.bib26)]，也是神经网络和自注意力高阶分析中的常用工具[19 (https://arxiv.org/html/2606.09899#bib.bib24),11 (https://arxiv.org/html/2606.09899#bib.bib28),20 (https://arxiv.org/html/2606.09899#bib.bib27),21 (https://arxiv.org/html/2606.09899#bib.bib29),6 (https://arxiv.org/html/2606.09899#bib.bib30)]。此条件仅在修补段上使用，并非作为部署时可计算的全局常数。  

###### 假设1（局部三阶光滑性）  
标量度量M在线段 {a + t δ : t ∈ [0,1]} 的某个邻域上二次连续可微，且存在有限常数L₃使得  
‖∇_a² M(a + t δ) − ∇_a² M(a)‖_{op} ≤ L₃ t ‖δ‖, 对所有t ∈ [0,1]成立。

当 Attribution Patching 存在偏差：诊断与二阶修正

相似文章

使用探针目标归因定位大型语言模型中的提示模糊性

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

诊断不等于补救：语言协同适应解释LLM流水线中的修补风险

归因盲点：检测语言模型何时依赖记忆而非检索到的上下文

归因合同：生成式语言模型中的特征归因

提交意见反馈