循旧图而航：大模型后训练中静态机制定位的陷阱

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本文通过证明由于微调期间神经电路的动态演变，静态机制定位并不充分，从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性，并提出了在机制定位中需要预测性框架。

arXiv:2605.06076v1 宣布类型：新发布摘要：“先定位后更新”范式已成为大语言模型（LLMs）后训练的主要方法，通过机制可解释性识别关键组件以实现针对性的参数更新。然而，这一范式建立在一个根本但未经证实的假设之上：源自当前静态参数的机制能否可靠地指导未来的动态参数更新？为了调查这一点，我们系统地跟踪了监督微调（SFT）过程中Transformer电路的结构演变，揭示了任务机制的潜在动态。我们引入了三个新颖的指标——电路距离、电路稳定性和电路冲突——从神经迁移、语义稳定性和跨任务干扰三个维度分析电路演变。我们的实证结果表明，电路在参数更新期间本质上表现出“自由演变”。因此，从当前状态提取的静态机制不可避免地存在时间滞后，使其在指导未来状态方面从根本上不充分。此外，通过解构现有方法中“有效性的幻觉”，本文强调了机制定位中“前瞻性”的必要性，并为未来的研究提出了一个预测性框架。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:09

# 依靠旧地图导航：大模型后训练中静态机制定位的陷阱

来源: https://arxiv.org/html/2605.06076

Hang Chen  
计算机科学与技术学院  
西安交通大学  
[email protected]  

& Jiaying Zhu  
计算机科学与工程系  
香港中文大学  
[email protected]  

& Hongyang Chen  
陕西有限公司（中国西安，邮编 710077）  
中国移动集团  
[email protected]  

& Hongxu Liu  
计算与数据科学学院  
南洋理工大学  
[email protected]  

Xinyu Yang  
计算机科学与技术学院  
西安交通大学  
[email protected]  

& Wenya Wang  
计算与数据科学学院  
南洋理工大学  
[email protected]  

###### 摘要

“定位-然后更新”（Locate-then-Update）范式已成为大型语言模型（LLM）后训练的主流方法，该方法通过机制可解释性识别关键组件以进行有针对性的参数更新。然而，这一范式建立在一个根本性但未经证实的假设之上：源自当前静态参数的机制能否可靠地指导未来的动态参数更新？为了探讨这一问题，我们系统地追踪了监督微调（SFT）过程中 Transformer 电路的结构演变，揭示了任务机制的潜在动态。我们引入了三种新颖的指标——电路距离（Circuit Distance）、电路稳定性（Circuit Stability）和电路冲突（Circuit Conflict），从神经迁移、语义稳定性和跨任务干扰三个维度分析电路演变。我们的实证结果表明，电路在参数更新期间本质上表现出“自由演化”（Free Evolution）。因此，从当前状态提取的静态机制不可避免地存在时间滞后，使其从根本上不足以指导未来状态。此外，通过解构现有方法中的“有效性幻觉”，本文强调了机制定位中“前瞻性”（foresight）的必要性，并为未来的研究提出了预测性框架。我们的代码可在 https://github.com/Zodiark-ch/MechLocalization 获取。

## 1 引言

大型语言模型（LLM）的后训练优化是指对具备强大通用能力的预训练语言模型进行有针对性的改进（Lai et al., 2025; Xiao et al., 2023）。采用的策略包括监督微调（SFT）（Hu et al., 2022）、强化学习（Havrilla et al., 2024）、参数编辑（Yao et al., 2023）或向量引导（Cao et al., 2024），这些策略旨在轻微改变模型参数。这确保了模型在保留其通用能力的同时，更好地与实际应用场景对齐。从优化的角度来看，后训练处理旨在在新目标任务上实现最佳性能，同时保持现有能力（下文称为普及性任务）（Zhang et al., 2026）。

为了减轻普及性任务上的灾难性遗忘，最近的研究在模型去学（Wu et al., 2023; Li et al., 2025）、知识编辑（Meng et al., 2022; Dai et al., 2022）和强化学习（Yan et al., 2026）等应用中越来越多地采用“定位-然后更新”范式。该范式依赖于机制定位——使用机制可解释性来识别负责目标技能的最小参数空间。随后，后训练参数更新仅局限于这个局部区域。然而，最近的研究表明，机制定位往往缺乏完整性（Chen et al., 2025）和排他性（Hase et al., 2023），这提出了一个关键问题：它是否仅仅是一种“安慰剂”？具体而言，机制可解释性发现的静态快照能否真正指导未来参数更新的动态过程？如图 1 所示，如果全参数 SFT 导致目标任务的关键组件从 $B_1, B_2$ 转移到 $A_1, A_2$，那么仅基于更新前参数的定位将过早地冻结 $A_1$ 和 $A_2$。因此，目前尚不清楚机制定位是真正防止了冲突，还是不当约束了目标机制的自然演化。

为了解决这个问题，我们将该问题分解为两个具体的研究问题：

**图 1：** 有无定位的后训练 SFT 中机制定位的差异

*   **RQ1：** 在没有定位的情况下，目标技能的关键组件在参数更新期间是否发生变化？如果是，它们如何演化？
*   **RQ2：** 带有定位的后训练是否真的提高了目标任务的性能，并减轻了与普及性任务的冲突？

在本文中，我们以 SFT 作为后训练过程的代表，直观地观察演化过程，将组件定义为最小更新单元。对于机制定位，我们采用电路发现（Conmy et al., 2023; Syed et al., 2024），它全面捕捉整体机制和组件间的连接。为了回答 RQ1，我们引入电路距离（circuit distance）来量化关键组件的迁移，并引入电路稳定性（circuit stability）来评估模型对任务机制的掌握程度。对于 RQ2，除了直接观察性能外，我们还提出电路冲突（circuit conflict）来衡量定位在防止目标任务与普及性任务之间的机制冲突方面的有效性。

通过大量实验，我们得出以下结论：

*   **发散的自由演化：** 在没有定位的情况下，关键组件自由演化，表现出不同的结构模式：注意力机制发生剧烈变化，而 MLP 组件保持相对稳定。
*   **静态定位的时间滞后：** 由于电路本质上表现出自由演化，利用当前参数状态作为未来参数的参考会导致严重的延迟和时间滞后。
*   **有效性的幻觉：** 现有机制定位方法的感知成功很大程度上依赖于它们在 MLP 主导的、以知识为中心的下游任务（例如，知识编辑、去学）中的应用。

最终，本文揭示机制定位在动态更新过程中存在关键滞后。为了更好地优化目标性能并最小化机制冲突，我们在第 5 节中探讨了更先进的动态定位范式的必要性。

## 2 预备知识

我们将训练良好的 LLM 表示为 $\mathcal{M}=\langle\mathcal{G},\theta\rangle$，其中 $\theta$ 表示所有可训练参数的状态。计算图 $\mathcal{G}=\langle\mathcal{V},\mathcal{E}\rangle$ 对前向传播进行建模，其中 $\mathcal{V}$ 包含所有组件（即参数矩阵，如 $W_q, W_k, W_v, W_o, W_{\text{up}}, W_{\text{down}}$），$\mathcal{E}$ 表示它们的激活连接（例如，$W_o \rightarrow W_{\text{up}}$）。

### 2.1 后训练处理

我们将后训练处理定义为在保留预先存在的能力（普及性任务）的同时修改目标任务的机制，典型应用包括模型去学（Liu et al., 2025）和知识编辑（Wang et al., 2024）。为了直观地观察中间动态，我们将后训练形式化为多目标微调任务。给定初始参数 $\theta$，需要输入 $x$ 产生输出 $y_t$ 的目标数据集 $\mathcal{D}_t$，以及普及性数据集 $\mathcal{D}_p$，其中任何输入 $x$ 产生遵循 $p(y|x,\theta)$ 的输出 $y$。更新后的参数 $\theta'$ 通过以下公式优化：

$$
\min_{\theta'} \mathbb{E}_{(x,y_t)\in\mathcal{D}_t}[\mathcal{L}(y_t|x;\theta')] + \lambda \mathbb{E}_{(x,y)\in\mathcal{D}_p}[\mathcal{L}(y|x;\theta')] \quad (1)
$$

其中 $\lambda \geq 0$ 是正则化参数。本质上，该目标确保 $\theta'$ 适应 $\mathcal{D}_t$ 指定的目标行为，同时保持与任务无关输入的前向传播不变。

### 2.2 电路发现

我们采用电路发现作为我们的机制可解释性技术。与替代方案相比，它能更好地解耦相关性（相对于梯度/幅度方法（Li et al., 2016; Tang et al., 2024）），捕捉整体机制（相对于因果干预（Stolfo et al., 2023）），并提供更强的理论基础（相对于探测（Ju et al., 2024）或词汇透镜（Belrose et al., 2023））。它旨在识别一个捕获目标数据集相关行为的最小子图（电路）$\mathcal{C} \subset \mathcal{G}$（Elhage et al., 2021; Conmy et al., 2023; Rai et al., 2024），通过以下公式优化：

$$
\arg\min_{\mathcal{C}} \mathbb{E}_{(x)\in\mathcal{D}_t}[D(p_{\mathcal{G}}(y|x) \| p_{\mathcal{C}}(y|x))], \text{ s.t. } 1-|\mathcal{C}|/|\mathcal{G}| \geq s \quad (2)
$$

其中 $s$ 是稀疏性约束，$D$ 衡量 $\mathcal{G}$ 和 $\mathcal{C}$ 之间的输出散度。因此，$\mathcal{C}$ 中的节点和边缘被认为是处理 $\mathcal{D}_t$ 的最关键组件。

### 2.3 定位-然后更新范式

总之，定位-然后更新范式包含两个步骤。首先（定位），机制可解释性（此处为电路发现）识别出 $\mathcal{D}_t$ 的关键组件集 $\mathcal{C}=\langle\mathcal{V}_t,\mathcal{E}_t\rangle$。其次（更新），剩余组件 $\mathcal{V}^*=\mathcal{V} \setminus \mathcal{V}_t$ 被冻结，随后在 $\mathcal{D}_t$ 上进行特定于目标的后训练。最近的文献推动了这两个阶段的发展：定位改进包括同时考虑 $\mathcal{D}_t$ 和 $\mathcal{D}_p$（Jia et al., 2024）、集成多种可解释性方法（Li et al., 2025）以及利用低维投影（Muhamed et al., 2025）；同时，更新增强采用了多种微调策略，如梯度上升（Liu et al., 2022）、直接偏好优化（Maini et al., 2024）和负偏好优化（Zhang et al., 2024）。

## 3 评估指标

本节介绍三种指标（总结于表 1）以评估机制演化。为了回答 RQ1，电路距离（$CD$）和电路稳定性（$CS$）评估单一机制的演化：给定目标任务的逻辑电路，$CD$ 测量组件迁移，而 $CS$ 评估知识巩固。为了回答 RQ2，我们提出电路冲突（$CC$）以量化机制间干扰。结合内在任务性能指标——衡量能力提升或保留——$CC$ 全面评估定位-然后更新范式中的多任务交互。

**表 1：** 三种电路指标的概述。

### 3.1 电路距离（$CD$）

在电路发现中，通过测量因果干预下的输出方差来识别边缘 $W_i \rightarrow W_j \in \mathcal{C}$。如果其因果效应 $I(W_i \rightarrow W_j)$ 超过阈值 $\tau$，则保留该边缘：

$$
I(W_i \rightarrow W_j) = \|\mathbb{L}(x|\text{do}(W_i \rightarrow W_j)) - \mathbb{L}(x)\| > \tau \quad (3)
$$

其中 $\mathbb{L}$ 表示输出 logits，$\text{do}(\cdot)$ 表示激活补丁。对于这些干预，我们默认使用置换消融（Heimersheim and Nanda, 2024; Vig et al., 2020; Chan et al., 2022; Goldowsky-Dill et al., 2023）。

为了量化关键路径在参数状态 $\theta$ 和 $\theta'$ 之间的迁移，我们在计算图 $\mathcal{G}=\langle\mathcal{V},\mathcal{E}\rangle$ 上使用曼哈顿距离。具体而言，对于具有 $N$ 个组件的计算图 $\mathcal{G}=\langle\mathcal{V},\mathcal{E}\rangle$，我们将 $\mathcal{E}$ 中的每个边缘与其因果效应相关联，表示为 $\mathcal{E}=\{W_i \rightarrow W_j, I(W_i \rightarrow W_j)\}$。这种方法比离散指标（例如，汉明距离）更能有效地捕捉连续变化。电路距离（$CD$）定义为：

$$
CD = D_{\mathcal{G}}(\mathcal{G}^\theta, \mathcal{G}^{\theta'}) = \sum_{(W_i, W_j \in \mathcal{E})} \|I(W_i \rightarrow W_j)^\theta - I(W_i \rightarrow W_j)^{\theta'}\| \quad (4)
$$

为了考虑不同任务的 logits 基线差异，我们使用 $I(\cdot)$ 的最大经验范围对 $CD$ 进行归一化。最终，$CD$ 通过聚合所有组件中因果效应的绝对偏移来反映机制转换的程度。

### 3.2 电路稳定性（$CS$）

除了追踪机制迁移外，评估模型对机制的掌握程度也至关重要。

循旧图而航：大模型后训练中静态机制定位的陷阱

相似文章

架构而非规模：大语言模型中的电路局部化

灾难性遗忘的机制起源：为什么RL比SFT更好地保留电路？

大型语言模型中地理条件作用的意外影响

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

提交意见反馈