信念还是电路?上下文图学习的因果证据
摘要
本文使用主成分分析(PCA)和激活补丁等机制可解释性方法,在一个图随机游走任务上探究了大型语言模型是通过潜在结构推断还是局部模式匹配来进行上下文学习。
arXiv:2605.08405v1 公告类型:新文章
摘要:大型语言模型如何进行上下文学习?是通过匹配近期令牌的模式,还是通过推断潜在结构?我们利用一个简单的图随机游走任务来探究这个问题,该任务涉及两种竞争的图结构。原则上,该任务的答案是可判定的:要么模型跟踪全局拓扑,要么它复制局部转换。我们提出了两条证据,表明单一解释均不足以说明情况。首先,通过主成分分析(PCA)重构内部表示结构显示,在中间混合比率下,两种图拓扑被同时编码在正交的主子空间中。这种模式很难用纯粹的局部转换复制来解释。其次,残差流激活补丁和图差异引导对这种图族信号进行了因果干预:后期层的补丁几乎完全转移了对清晰图的偏好,而线性引导则将预测推向预期方向,并在规范匹配和标签打乱的对照组下失效。综上所述,我们的研究结果最符合双重机制解释,即真正的结构推断和归纳电路并行运作。
查看缓存全文
缓存时间: 2026/05/12 07:13
# 信念还是电路?情境内图学习的因果证据
来源: https://arxiv.org/html/2605.08405
###### 摘要
大型语言模型(LLM)是如何进行情境内学习(In-Context Learning, ICL)的?是通过匹配近期 token 的模式,还是通过推断潜在结构?我们使用一个在两个竞争性图结构之间进行随机游走的小型图任务来探究这一问题。原则上,该任务的答案是可判定的:要么模型追踪全局拓扑,要么它复制局部转换。我们提出了两条证据线,表明仅靠其中任何一种解释都不充分。首先,通过主成分分析(PCA)重建内部表示结构显示,在中间混合比例下,两种图的拓扑结构同时编码在正交的主子空间中。这种模式很难与纯粹的局部转换复制相协调。其次,残差流激活补丁(activation patching)和图差异引导(graph-difference steering)对这种图族信号进行了因果干预:晚期层的补丁几乎完全转移了对干净图的偏好,而线性引导使预测朝预期方向移动,但在范数匹配和标签打乱的对照实验中失效。综上所述,我们的发现最符合一种双重机制的解释,即真正的结构推断和归纳电路并行运作。代码可通过此链接获取 (https://anonymous.4open.science/r/do-llms-infer-graphs-C67A)。
机制可解释性,情境内学习
## 1 引言与相关工作
自大型语言模型(LLM)出现以来,情境内学习(ICL)一直是困扰研究社区的领域。在过去五年中,对 ICL 的 numerous 调查产生了有趣的结果:对齐(Anwar et al., 2024; Lin et al., 2023)、越狱(Polyakov and Kuznetsov, 2026)和演示选择(Qin et al., 2024)只是将其作为研究子领域的几个领域(Dong et al., 2024)。在机制可解释性(MechInterp)子领域内,对此话题尚未形成具体共识。Olsson et al. (2022) 最初将其提出为关于潜在结构的推断与浅层模式匹配电路之间的辩论。近年来,机制可解释性领域出现了大量关于 ICL 的研究,从将 ICL 框架化为对潜在概念的隐式贝叶斯推断的理论解释(Xie et al., 2022),到对归纳头形成和多样性的机制研究(Singh et al., 2024),再到表明 ICL 分解为可分离的任务架构和输入-输出绑定机制的因果证据(Kim, 2025)。
Park et al. (2025) 的最近工作为前者提供了引人注目的证据:以未知图上的随机游走轨迹作为小型任务,Llama-3.1-8B 在邻居预测准确率上表现出**急剧的相变**。这种转变导致其残差流几何结构重新组织,以镜像图的邻接结构。如果相变反映了潜在结构的推断,那么 LLM 维持着可以被机制探测的隐式概率世界模型。如果它反映的是归纳电路,则相同的行为特征只需要局部复制头,且不涉及全局表示的含义。
**贡献**。我们的贡献是三角定位这一持续辩论答案的第一步。(1)我们用复杂度加权的特定结构先验替代了 Bigelow et al. (2025) 的扁平对数先验,恢复了拓扑敏感结构偏差的定量特征。(2)我们将 Llama-3.1-8B 暴露于两个竞争性图的交错游走中,并显示信念账户预测的拓扑偏置证据积累成立,这与归纳电路账户预测的对称行为相反。(3)对残差流激活的 PCA 显示,在中间混合比例下,两种图拓扑均可在正交子空间中同时恢复。(4)激活补丁和引导在因果上将这种表示结构与 next-token 预测联系起来。最终,我们的结论是,关于 LLM 是“相信”还是“复制”的问题可能是一个虚假的二分法,而这种共存架构正是机制可解释性现在必须解释的内容。
## 2 背景
最近发布的关于 ICL 的研究采取了两种同时的方法来调查这个问题。Park et al. (2025) 使用了一个在十六词网格上进行随机游走的小型任务,其中节点是无语义关联的单词,边缘是网格中相邻单词对之间的连接。该论文表明,随着上下文长度的增长,Llama-3.1-8B 在邻居命中准确率上经历急剧相变,且节点 token 表示的层级 PCA 逐渐恢复真实的图拓扑。这被解释为存在隐式贝叶斯世界模型关于图结构的证据。
在 Park et al. (2025) 发表后,两篇博客文章加入了这场辩论。Arditi (2026) 确定了 Llama-3.1-8B 中实现归纳的特定注意力头,认为图 ICL 中的相变完全由这些头积累局部转换统计量来解释,无需假设全局结构推断。Ransome (2026) 复制了这些发现并将分析扩展到其他图拓扑。我们注意到,第二篇博文与我们的工作同时出现;我们建议读者参考这两者以获取关于机制辩论的互补观点。
除了围绕 Park et al. (2025) 工作的持续辩论外,Bigelow et al. (2025) 发表了一种针对 ICL 的理论贝叶斯动力学方法。这些作者在对数几率证据积累上拟合了一个 S 形参数函数到 LLM 准确率曲线,将模型视为维护关于数据来源的两个假设的潜在二元信念。他们发现了支持双重机制账户的证据,即贝叶斯更新和归纳电路均有所贡献。
## 3 行为模型
核心问题是 LLM 在 ICL 期间的行为看起来更像是积累关于潜在结构证据的贝叶斯推理者,还是复制近期 token 的模式匹配器。为了探究这一点,我们将信念动力学模型拟合到观察到的准确率曲线上,并问:恢复的参数是否讲述了与真实结构推断一致的故事?
### 3.1 一般框架
考虑一个 LLM 被呈现由 $K$ 个竞争性假设 $\mathcal{H}=\{H_1, \dots, H_K\}$ 之一生成的上下文,这些假设关于潜在的数据生成结构。我们将 LLM 建模为维护关于哪个假设处于活动状态的潜在信念,并随着上下文的积累更新该信念。对于每个假设 $H_k$,模型先验的怀疑程度由对数几率项 $b_k \in \mathbb{R}$ 控制,其中 $b_k < 0$ 编码初始怀疑。支持 $H_k$ 的证据以亚线性方式随上下文长度 $N$ 积累,给出在上下文长度 $N$ 时的预测准确率:
$$ \hat{p}_k(N) = p_{0,k} + (q_k - p_{0,k}) \sigma\left(b_k + \gamma_k N^{1-\alpha_k}\right), \quad (1) $$
其中 $p_{0,k}$ 是 $H_k$ 下的过渡前准确率,$q_k$ 是过渡后准确率,$\gamma_k > 0$ 控制证据强度,$\alpha_k \in (0,1)$ 捕获来自相关观察的递减回报。拐点 $N_k^* = (-b_k/\gamma_k)^{1/(1-\alpha_k)}$ 标记了 LLM 从怀疑转向在 $H_k$ 下承诺的上下文长度。
一个关键问题是什么决定了 $b_k$,即 LLM 对每个假设的初始偏好或反对。我们提出 $b_k$ 由 $H_k$ 的**复杂度**控制:更复杂的假设需要更多证据来克服先验。具体而言,我们参数化:
$$ b_k = b_0 - \lambda \cdot C(H_k), \quad (2) $$
其中 $b_0$ 是共享的基线对数几率,$\lambda \geq 0$ 是学习的惩罚权重,$C(H_k)$ 是假设 $H_k$ 的受最小描述长度(MDL)启发的复杂度度量。如果 $\hat{\lambda} > 0$,LLM 隐式惩罚更复杂的假设,这是复杂度敏感结构推断的特征,这是拓扑无关的模式匹配无法产生的。
### 3.2 实例化:竞争性图结构
我们使用 Park et al. (2025) 的图随机游走任务来实例化这一框架。LLM 被呈现由未知图 $G$ 上的随机游走生成的 token 序列,并必须预测下一个节点,即当前节点的有效邻居。两个竞争性假设是 $H_{\text{grid}}$ 和 $H_{\text{ring}}$:一个 $4 \times 4$ 网格(16 个节点,24 条边,度数 2-4)和一个 16 节点环(16 条边,均匀度数 2),每个图的节点分配不同的单 token 英语名词。
可观察的准确率 $\hat{p}_k(N)$ 是邻居命中概率,即模型在假设 $H_k$ 下预测下一个 token 为当前节点的有效图邻居的概率。每个图假设的 MDL 复杂度自然由其边列表编码的长度给出:
$$ C(G) = \|E(G)\| \cdot \lceil \log_2 \|V\| \rceil \text{ bits}, \quad (3) $$
得出 $C(\text{grid}) = 96$ 位和 $C(\text{ring}) = 64$ 位。网格的描述成本更高,因为它有更多的边。如果 $\hat{\lambda} > 0$ 且 $b_{\text{grid}}^0 < b_{\text{ring}}^0$,则 LLM 对更复杂的网格结构表现出更大的初始怀疑。
## 附录 A 模型拟合细节
### A.1 单图拟合
$\gamma > 0$ 控制每 token 的证据强度,$\alpha \in (0,1)$ 捕获来自相关游走步骤的递减回报。通过贝叶斯规则结合先验和似然,得到在上下文长度 $N$ 时预测的邻居命中准确率:
$$ \hat{p}(N) = p_0 + (q - p_0) \sigma\left(b + \gamma N^{1-\alpha}\right) \quad (11) $$
其中 $p_0$ 是过渡前邻居命中率(经验估计自 $N \leq 100$ 个 token),$q \in (p_0, 1]$ 是图模式成功率,$\sigma$ 是 sigmoid 函数。相变拐点为 $N^* = (-b/\gamma)^{1/(1-\alpha)}$,对应于对数几率跨越零且 LLM 从怀疑转向信念的上下文长度。
参数 $\boldsymbol{\theta} = (b, \gamma, \alpha, q)$ 通过最小化 $\hat{p}(N)$ 与观察到的准确率曲线之间的均方误差(MSE)来拟合,这在观察到的准确率上的加性高斯噪声模型下等价于最大似然估计(MLE)。我们使用 L-BFGS-B,进行 16 次随机重启,并设置盒约束 $b \in [-30, 30]$,$\gamma \in [10^{-6}, 50]$,$\alpha \in [0, 0.99]$,$q \in (p_0, 1]$。边界直接强制执行域约束;保留损失最低的重启,并在之后报告验证和测试 MSE。
### A.2 加权先验模型估计细节
联合目标最小化所有 $(\rho, k, N)$ 三元组的 MSE:
$$ \hat{\boldsymbol{\theta}} = \arg\min_{\boldsymbol{\theta}} \sum_{\rho} \sum_{k} \sum_{N \in \mathcal{C}} \left[ \hat{p}_{k, \text{obs}}(\rho, N) - \hat{p}_k(\rho, N; \boldsymbol{\theta}) \right]^2 \quad (12) $$
我们使用 L-BFGS-B,进行 24 次随机重启,并设置盒约束 $b_0 \in [-15, 15]$,$\lambda \in [-2, 2]$,$\gamma_k \in [10^{-6}, 50]$,$\alpha_k \in [0, 0.99]$,$q_k \in (p_{0,k}, 1]$。注意 $\lambda$ 的边界包括负值;$\hat{\lambda} < 0$ 意味着 LLM 更喜欢更复杂的图,这将证伪复杂度先验假设。
在高斯残差假设下,使用 AIC 和 BIC 在每图(8 个参数)和混合偏置(5 个参数)版本之间进行模型选择:
$$ \text{AIC} = n \cdot (\log(2\pi \cdot \text{MSE}) + 1) + 2k, \quad \text{BIC} = n \cdot (\log(2\pi \cdot \text{MSE}) + 1) + k \log n \quad (13) $$
其中 $n$ 是训练观察的数量,$k$ 是自由参数的数量。过渡前准确率 $p_{0,k}$ 通过对 $N \leq 100$ 个 token 的训练游走上的邻居命中准确率取平均来为每个图估计,然后汇集到每个词汇条件下的单个 $p_{0,\text{grid}}$ 和 $p_{0,\text{ring}}$ 以确认可识别性。
我们指出重叠拟合的一个局限性:优化器饱和了 $b_0$ 搜索范围的下限($\hat{b}_0 = -15.00$),表明它想要比允许值更负的值。因此,在此条件下,$\hat{\lambda}_{\text{overlap}}$ 和隐含的 $\hat{b}_{\text{grid}} - \hat{b}_{\text{ring}}$ 差距可能偏向于零;放宽边界或重新参数化 $b_0$ 是直接的后续步骤。
## 附录 B 表示图
参见标题
**图 2**:对所有混合比例 $\rho$ 的完整 PCA 分析套件,第一行显示蓝色网格重建边,第二行显示红色环边。
参见标题
**图 3**:中性分离词汇条件下的代表性类均值 PCA 快照。这些图为主文中讨论的第 26 层残差流几何结构提供了额外的视觉背景。
## 附录 C 因果干预细节
### C.1 提示对构造和指标
干净和损坏的提示是从不同的图族生成的,但在相同的当前节点结束。由于图假设是无向的,我们通过从该节点生成有效游走并反转它来采样以所需最终节点结束的随机游走。反转的游走具有相同的图支持,并且模型总是在最终位置进行评估,预测下一个图单词。
主要得分是方程 7 中的图族 logits 对比度。对于补丁,归一化效应为 $(\Delta_{\text{patch}} - \Delta_{\text{corrupt}}) / (\Delta_{\text{clean}} - \Delta_{\text{corrupt}})$。对于引导,归一化效应的计算类似,用引导指标替换 $\Delta_{\text{patch}}$,并使用目标和源提示指标作为端点。分母较小的行在原始 JSONL 中标记为不可用;在报告的补丁运行中未排除任何行。
### C.2 已见和未见边缘分割
对于每个最终 token,我们根据与最终节点相连的边是否在评估上下文中被观察到,对图邻居进行分割。“已见”集包含最终节点的真实图邻居,其边以任何方向出现。“未见”集包含其边未出现的真实图邻居。对于干净/损坏补丁,此分割是使用损坏上下文计算的,因此诊断询问干净激活干预是否有助于损坏提示未局部观察到的图邻居 logits。相似文章
架构而非规模:大语言模型中的电路局部化
本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。
LongAct:利用内在激活模式进行长上下文强化学习
LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。
将大型语言模型(LLM)中的身份形成建模为通过多实例关系交互驱动的超图演化,并测量激活空间中的结构分歧。
作者提出了一种新颖的实验框架,旨在通过多实例交互来研究大语言模型(LLM)的身份形成过程,将其视为超图的演化。该框架与标准的多智能体辩论不同,它关注的是激活空间中的结构差异,而非任务性能。
利用具备上下文学习能力的 LLM 进行算法理论物理研究
本文探讨了利用大型语言模型(特别是 Claude)结合计算机代数系统(Maple)来执行理论物理中的算法计算,例如分析宇宙学扰动。
大型语言模型中的推理源于受限推理流形
本文将大语言模型中的推理视为一种内在的动力学过程,发现推理时的表征会自组织成低维流形。文章提出了一种基于内部动力学的无标签诊断方法,以评估推理质量,表明有效的推理受到几何和信息约束的支配。