模式选择并非任务因果结构：1B类语言模型中组合任务电路的跨架构机制研究

arXiv cs.LG 2026/06/05 04:00 论文

摘要

本文测试了通过任务模式选择性和因果消融来识别注意力头回路的标准方法是否在不同1B类语言模型族（Pythia、OLMo、OLMoE）中产生一致的机制性结论。研究发现没有两个（任务、模型）单元共享相同的主要因果筛选，并引入了屏幕结果的五分类法，其中MoE模型显示出独特的前一token位置基板。

arXiv:2606.05378v1 公告类型：新摘要：我们测试了一个单一的筛选与消融方法——通过任务模式选择性识别注意力头回路，然后通过因果消融与匹配随机零假设进行验证——是否能在不同模型族之间产生一致的机制性结论。该方法可跨管道移植，但它识别的具体回路则不然。在四个组合任务（间接宾语识别、大于关系、后继序列、变量绑定）和三个来自不同训练管道的1B类语言模型（Pythia 1B / Pile / 密集；OLMo 1B / DCLM / 密集；OLMoE 1B-7B / DCLM / 混合专家）上，我们运行了统一协议，每个单元使用十个种子对匹配随机零假设进行采样。由此产生的12个（任务、模型）单元中没有两个共享相同的主要因果筛选且效应大小相当：同一任务，具备相同行为能力，在不同模型中通过不同的注意力模式类型实现。我们引入了包含五个类别的筛选结果分类法——主要原因、次要原因、相关因素、干扰因素、零值——并带有定量阈值，并展示了所有五个结果均出现在面板中。我们提出一个可证伪的假设：我们面板中的MoE模型在基础的前一token位置基板之上构建组合任务电路（对于OLMoE 1B-7B，前token电路消融是4个任务中3个的最强因果筛选），IOI例外与IOI作为最终位置名称复制任务一致，其结构直接探测不同的模式。该假设附带对其他MoE语言模型的明确预测。我们诚实地构建方法论：来自配套方法论论文的频谱参与比信号是专门化计算的一般指标；使发现具有任务特异性的是任务模式筛选加上每个模型的因果验证。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:10

# 跨架构组合任务电路机制研究：1B类语言模型中的模式选择性并非任务因果结构††致谢：通讯作者：[email protected]。代码、数据与可复现脚本：https://github.com/skydancerosel/spectral-probe-circuits
来源：https://arxiv.org/html/2606.05378
## 模式选择性并非任务因果结构：1B类语言模型中组合任务电路的跨架构机制研究††footnote:通讯作者：[email protected]。代码、数据与可复现脚本：https://github.com/skydancerosel/spectral-probe-circuits

###### 摘要

我们检验了这样一种方法：通过任务模式选择性与因果消融来识别注意力头电路，能否在不同模型家族中产生一致的机制性结论。该方法在不同流水线间具有可迁移性，但其识别出的具体电路却并非如此。在四个组合任务（间接宾语识别、大于关系、后继序列、变量绑定）以及来自不同训练流水线的三个1B类语言模型（Pythia 1B / Pile / 密集；OLMo 1B / DCLM / 密集；OLMoE 1B-7B / DCLM / MoE）中，我们执行了统一的筛选-消融实验协议，并使用了在每个实验单元上跨十个种子采样的匹配随机对照。由此产生的12个（任务，模型）实验单元中，没有任何两个单元在可比较的效应量上共享相同的主要因果筛选结果。我们引入了一个五类筛选结果分类法——主因、次因、相关项、干扰项、零项——并设定了定量阈值，同时展示了所有五类结果均出现在本实验面板中。我们提出一个可证伪的假设：本面板中的MoE模型在基础的“前一个token”位置基板上构建组合任务电路（在OLMoE 1B-7B的4个任务中有3个任务中，“前一个token电路”消融是最强的因果筛选），唯一的例外是IOI任务，其与任务层面的最终位置名称复制一致。我们诚实地阐述了该方法论：本系列论文1中引入的谱参与比积分是特化计算的*通用*指标；使研究结果具有任务特异性的是任务模式筛选加上针对每个模型的因果验证。本文档说明了在1B类前沿模型上的十二次此类验证，并提出一个与MoE架构相关的模型类级别机制性假设。

## 1 引言

机械可解释性的经典证明 [Wang等人，2023 (https://arxiv.org/html/2606.05378#bib.bib2)] 在GPT-2 small中识别出了一个用于间接宾语识别（IOI）的注意力头电路：位于后层的名称移动头、抑制主语的S-抑制头、中间层的前一个token头和归纳头，以及作为辅助组件的重复token头和负名称移动头。该电路分解是经典性的。本文研究的问题是，当我们将同一概念性分解——即同一系列的注意力模式*类型*——应用于在不同语料库上训练的不同架构的其他1B类语言模型时，会发生什么。

GPT-2 small在1.24亿参数下无法解决IOI问题（top-1正确率13%，IO-vs-subject正确率57%；见§5.1 (https://arxiv.org/html/2606.05378#S5.SS1)）。我们面板中能够可靠解决IOI的最小自然文本模型位于10亿活跃参数规模：在Pile上训练的Pythia 1B [Biderman等人，2023 (https://arxiv.org/html/2606.05378#bib.bib6)]，在DCLM上训练的OLMo 1B [Groeneveld等人，2024 (https://arxiv.org/html/2606.05378#bib.bib7)]，以及在DCLM上训练的OLMoE 1B-7B [Muennighoff等人，2024 (https://arxiv.org/html/2606.05378#bib.bib8)]（采用混合专家架构，64个专家，top-8）。这三个模型跨越了两个架构家族（密集、MoE）和两个训练语料库（Pile、DCLM），在IOI可解的规模上提供了一个虽小但真实的跨流水线面板。

我们提出三个操作性问题：

1. 1. 单一任务模式筛选能否在所有三个1B类模型中识别出IOI电路？——*不能。*四个候选筛选（前一个token、归纳、名称移动、S-抑制）覆盖了整个面板的IOI，但*主要*筛选因模型而异：Pythia中前一个token为主，OLMo中S-抑制为主，OLMoE中名称移动为主。
2. 2. IOI的跨架构解耦是IOI独有的特点，还是1B类模型实现组合任务的一般特征？——我们测试了另外三个组合任务：大于关系 [Hanna等人，2023 (https://arxiv.org/html/2606.05378#bib.bib9)]、后继序列 [Gould等人，2024 (https://arxiv.org/html/2606.05378#bib.bib10)] 以及一个变量绑定任务。4任务×3模型网格（12个单元）中，没有任何两个单元在相同的效应量下共享相同的主要因果筛选。
3. 3. 是否存在任何跨模型的结构性模式？——*是的，存在一个。*在OLMoE 1B-7B的4个任务中有3个任务（大于关系、后继序列、变量绑定）中，主要因果筛选是前一个token电路，而不是直接从任务结构中识别出的任务特定筛选。第四个任务（IOI）是名称移动头为主，这与IOI作为最终位置名称复制任务的性质一致，其结构直接探测了不同的注意力模式。我们称此模式为*OLMoE前一个token优先*模式，并将其作为一个可证伪的跨MoE假设提出。

贡献。

- • 一个4任务×3模型的经验网格（12个单元），在1B类前沿模型上执行统一的筛选-消融分析，并在每个单元上跨十个种子采样匹配随机对照，从而给出带不确定性的每个单元特异性差异（§6 (https://arxiv.org/html/2606.05378#S6)）。
- • 一个五类筛选结果分类法——主因、次因、相关项、干扰项、零项——并设定了定量阈值（§10 (https://arxiv.org/html/2606.05378#S10)）。所有五类结果均出现在本面板中。
- • 一个可证伪的跨模型机制性假设（§11 (https://arxiv.org/html/2606.05378#S11)）：1B活跃规模的MoE模型在基础的前一个token位置基板上构建组合任务电路，仅当任务结构直接探测不同的注意力模式时才会出现例外。对其他MoE语言模型（Mixtral、DBRX、OLMoE-7B-A1.7B）的预测如下。
- • 对匹配随机对照的方法论改进（§6 (https://arxiv.org/html/2606.05378#S6)）：对于筛选出的头集中在早期层（L0-L1，输入嵌入处理关键）的情况，同层匹配随机对照具有高方差和较弱的零基线；我们报告该界限适用及不适用的情况。
- • 方法的诚实框架：谱PR积分是通用特化指标，任务模式筛选使结果具有任务特异性，而当仅凭组消融结果模棱两可时，单个头消融是区分支持者与干扰者的诊断工具。

配套论文。 这是三篇系列论文中的第三篇。论文1 [Xu，2026b (https://arxiv.org/html/2606.05378#bib.bib18)] 引入筛选-消融实验方法，并在能力类任务（归纳、前一个token）上进行验证。论文2 [Xu，2026a (https://arxiv.org/html/2606.05378#bib.bib19)] 描述了这些电路在预训练过程中的形成时间线。本论文将方法视为给定，并探讨其在组合任务前沿、跨架构下的表现。

## 2 相关工作

小模型中的组合任务电路。 Wang等人 [2023 (https://arxiv.org/html/2606.05378#bib.bib2)] 引入了IOI任务及其在GPT-2 small中的头类分解。Hanna等人 [2023 (https://arxiv.org/html/2606.05378#bib.bib9)] 描述了GPT-2 small的大于关系电路。Gould等人 [2024 (https://arxiv.org/html/2606.05378#bib.bib10)] 识别出了“后继头”——即其OV电路沿序数序列递增的注意力头——在GPT-2 small、Pythia 410M以及其他几个模型中，发现同一头类反复出现。这三项工作构成了我们任务特定筛选的经验基础。

归纳头与能力电路。 Olsson等人 [2022 (https://arxiv.org/html/2606.05378#bib.bib1)] 将归纳头描述为实现AB...A→B复制模式的注意力头，并将其形成与上下文学习能力的出现联系起来。Elhage等人 [2021 (https://arxiv.org/html/2606.05378#bib.bib4)] 奠定了在注意力头层面分析Transformer电路的框架。

自动电路发现。 Conmy等人 [2023 (https://arxiv.org/html/2606.05378#bib.bib3)] 开发了ACDC，一种用于电路识别的迭代边剪枝算法。Marks等人 [2024 (https://arxiv.org/html/2606.05378#bib.bib12)] 使用稀疏自编码器扩展了自动发现，以识别跨模型的单语义特征。Anthropic的单语义性工作 [Templeton等人，2024 (https://arxiv.org/html/2606.05378#bib.bib13)] 展示了特征级可解释性的扩展。我们的方法是互补的：头级粒度，按任务模式进行筛选-消融，无需模型重新训练。

跨架构电路迁移。 Lieberum等人 [2023 (https://arxiv.org/html/2606.05378#bib.bib11)] 研究了小模型上的电路级发现能否迁移到Chinchilla，发现同一任务使用了不同的具体头。Marks等人 [2024 (https://arxiv.org/html/2606.05378#bib.bib12)] 使用SAE字典记录了跨模型家族的部分特征级重叠。本面板中的IOI跨架构结果进一步明确了这一点：不仅具体头在不同模型中不同，承载因果信号的注意力模式*类型*也不同。

注意力汇点。 Xiao等人 [2024 (https://arxiv.org/html/2606.05378#bib.bib5)] 引入了“注意力汇点”现象：预训练语言模型无论内容如何，都会可靠地将大量注意力概率分配给第一个token。本系列的方法论文档指出，BOS类头（最佳类第一个token注意力汇点）在1B类模型中占所有注意力头的43%–78%，其比例随训练数据（DCLM > Pile）和架构（密集 > MoE）而变化。本论文将此发现作为背景上下文：在BOS主导的机制中，变量绑定筛选会将其顶级候选者定为BOS类混淆头，而区分真实电路与BOS混淆的诊断工具是单个头消融（§9 (https://arxiv.org/html/2606.05378#S9)）。

1B类前沿模型。 Pythia、OLMo和OLMoE预训练模型套件在1B活跃参数规模上，代表了我们面板中IOI及其他组合任务首次变得可靠可解的规模。GPT-2 1.24亿参数无法解决IOI。机械可解释性文献主要研究了要么小得多的模型（GPT-2 1.24亿参数，Pythia 4.1亿参数），要么大得多的模型（Chinchilla，Claude 3 Sonnet）；多个训练流水线共存于同一规模的1B类前沿模型，尚未在跨架构的组合任务层面得到系统描述。本工作是朝此方向迈出的一小步。

## 3 方法论回顾

我们总结论文1 [Xu，2026b (https://arxiv.org/html/2606.05378#bib.bib18)] 中的筛选-消融方法。三个步骤如下：

1. 1. 谱信号。对于每个（层，头）和训练检查点，在固定的评估批次上计算每个头注意力输出奇异值分布的参与比： PR\(L,H,t\)=exp⁡\(−∑ipilog⁡pi\), pi=σi2/∑jσj2。 轨迹特征 I\(L,H\)=∑tmax⁡\(PRt−1,0\)Δlog⁡\(tokenst\) 对持续的内容依赖计算进行加权，并揭示执行特化工作的头。
2. 2. 任务模式筛选。对于每个候选注意力模式，计算每个头的选择性（该头进入模式目标位置的平均注意力相对于均匀其他基线的比率）。筛选出高于固定阈值的头；这会产生一个小的（通常3–13个头）候选电路。
3. 3. 因果验证。对候选电路进行组消融（均值消融：将每个头的输出替换为批次平均激活），报告相对于基线的Δtop-1和Δlogit-diff。对照组：相同层中的匹配随机头，与所选头无重叠，头数相等。

诚实框架。谱PR积分是特化计算的*通用*指标。在注意力汇点主导的1B类模型中，它本身并不能隔离任务特定头——按PR积分排序的前K个主要由通用的内容依赖L0/L1头占据。使研究结果具有任务特异性的是任务模式筛选加上因果验证。

IOI特定筛选。四个筛选覆盖了Wang等人提出的IOI头类分解：

- • 前一个token。最佳类为前一个token，选择性≥100×。
- • 归纳。最佳类为归纳，选择性≥50×。
- • 名称移动。在最终查询位置，对间接宾语名称位置相对于主语名称位置的注意力： nm\_sel=mean\_attn\(q→IO\)max⁡\(mean\_attn\(q→subj1\), mean\_attn\(q→subj2\)\)。
- • S-抑制。在最终查询位置，对主语位置的注意力： subj\_sel=max⁡\(subj1,subj2\)max⁡\(io\_attn,ε\)。 筛选至 subj\_sel≥2 且 subj\_max≥0.1，按 subj\_max 排序。

匹配随机对照结构。对于每个（任务，模型，筛选）单元，如果筛选产生非平凡效应，我们在筛选所选头所在的相同层中，抽取10个独立的k个头随机子集，且与所选头无重叠。得到的零基线报告为跨10个种子的均值±标准差。特异性差异为 |Δ\_screen| / |Δ\_matched-random|（当两者均较大时），但需注意：当筛选所选头集中在L0-L1（输入嵌入处理层）时，同层零基线具有高方差。

## 4 实验设置

### 4.1 三个1B类模型

表1：三个1B类模型。每个条目在架构/训练数据/分词器这三者中至少有一项不同；OLMo和OLMoE共享DCLM数据和Llama风格架构，但OLMoE采用了MoE。
### 4.2 跨分词器批次

所有四个任务批次均设计为：在每个提示中，每个token在所有三个分词器（Pythia GPT-NeoX、OLMo、OLMoE）下均为单token。这消除了跨模型比较中的分词混淆。

IOI批次。500个提示，50/50 ABBA/BABA混合，42个单token名称，6个地点，6个物品，随机种子42。提示格式：*“When {name1} and {name2} went to the {place}, {subject} gave a {object} to ”* → 预测间接宾语。

大于关系批次。500个提示，随机种子42。模板：*“The {noun} lasted from the year {Y1} to the year {CC}”* → 模型完成一个两位数字token；正确当且仅当完成数字大于起始十年。23个单token名词，6个世纪（14-18世纪；19xx年在所有三个分词器中均为BPE合并，故排除），87个十年。

后继批次。跨四种序列类型的118个唯一5项序数序列：天数（循环7）、月份（循环12）、序数（10，不循环）、数字1-99（不循环）。每个项目在所有三个分词器中均为单token；我们将其翻译为：

模式选择并非任务因果结构：1B类语言模型中组合任务电路的跨架构机制研究

相似文章

跨语言模型架构的神经激活模式：认知任务性能的综合分析

电路能告诉我们多少？评估语言模型电路的一致性与特异性

架构而非规模：大语言模型中的电路局部化

重新思考高效注意力在混合架构中的作用

对比性目标SFT作为机制解释方法——有人用这种方式映射因果依赖关系吗？[D]

提交意见反馈