何时与多久?时间推理中的读出-中介角度
摘要
本文引入读出-中介角度,证明线性探针可以从语言模型激活中解码出与模型实际因果计算正交的信息,从而削弱了基于探针的可解释性。该发现跨模型规模和系列得到复现,揭示出使用探针进行机制理解或安全监控的一个根本性失败模式。
arXiv:2605.29126v1 公告类型:新
摘要:线性探针可以几乎完美地解码表示,却与模型如何使用该表示完全无关。在语言模型的日历日期持续时间推理任务中,一个 $\sin$/$\cos$ 探针从某一层的激活中恢复出一年中的第几天,但消融其方向对模型的答案没有影响——而消融同一层通过分布式对齐搜索(DAS)找到的四维子空间则会完全破坏性能。我们测量这两个子空间之间的角度——\emph{读出-中介角度}——发现它与两个随机子空间之间的角度(Haar均匀零假设)无法区分,这意味着探针学习到了与模型实际计算正交的方向。逆向工程电路揭示了原因:注意力头通过学习到的 QK 偏移量在 ${\pm}30$ 和 ${\pm}61$ 天处路由以月为粒度的上下文,然后 MLP 将 \emph{何时}(绝对日期)转换为 \emph{多久}(持续时间)——所有这些都在探针从未触及的因果子空间的下游。稀疏自编码器分解证实了这种分离:探针对齐和 DAS 对齐的特征编码了语义上不相交的概念,因果重叠可忽略不计。这种分离在四个规模($1.5$-$9\,$B)和两个模型系列中复现,并在另外两个领域(空间位移、符号算术)有初步证据,表明读出-中介正交性是基于探针的可解释性的一种普遍失败模式。这直接削弱了将探针部署为运行时安全监控的提议:探针可以在模型已静默放弃的方向上报告高置信度。
查看缓存全文
缓存时间: 2026/05/29 09:17
# 何时与多久?时间推理中的读出-中介角度 来源:https://arxiv.org/html/2605.29126 Shreyas Fadnavis Bioscope AI [email protected] &Praitayini Kanakaraj Bioscope AI [email protected] &Felix Wyss Bioscope AI [email protected] ###### 摘要 线性探针几乎可以完美地解码表征,但可能与模型如何使用该表征完全无关。在语言模型对日历日期持续时间的推理中,$\sin/\cos$ 探针从某一层的激活中恢复出“一年中的第几天”,但消融其方向对模型的答案没有任何影响——而在同一层,通过分布式对齐搜索(DAS)找到的四维子空间被消融时,模型性能完全崩溃。我们测量了这两个子空间之间的角度——*读出-中介角度*——发现它与两个随机子空间之间的角度(Haar均匀零假设)不可区分,这意味着探针学习到的方向与模型实际计算的方向正交。对电路进行逆向工程揭示了原因:注意力头通过学习的 QK 偏移量($\pm30$ 和 $\pm61$ 天)路由月粒度上下文,然后 MLP 将*何时*(绝对日期)转换为*多久*(持续时间)——所有这些都发生在探针从未触及的因果子空间下游。稀疏自编码器分解证实了这种分裂:与探针对齐和与 DAS 对齐的特征编码了语义上不相交的概念,因果重叠可忽略不计。这种分离在四个规模(1.5B–9B)和两个模型家族中重复出现,并在另外两个领域(空间位移、符号算术)中有初步证据,表明读出-中介正交性是探针基础可解释性的一种通用失败模式。这直接削弱了将探针部署为运行时安全监控器的提议:探针可以对模型已悄无声息放弃的方向报告高置信度。 ## 1 引言 问语言模型“从3月15日到6月22日有多少天?”它正确地回答:99天。第20层的 $\sin/\cos$ Ridge探针从残差流中解码两个日期,$R^2=0.996$(Gurnee and Tegmark, 2024 (https://arxiv.org/html/2605.29126#bib.bib7))——这正是用来论证模型*表征*日历时间的那类结果(Gurnee and Tegmark, 2024 (https://arxiv.org/html/2605.29126#bib.bib7); Marks and Tegmark, 2024 (https://arxiv.org/html/2605.29126#bib.bib32); Kantamneni and Tegmark, 2025 (https://arxiv.org/html/2605.29126#bib.bib8))。但消融探针的方向仅使准确率下降0.6个百分点;模型仍然像什么都没发生一样数出99天。同一层的等秩分布式对齐搜索(DAS)子空间则讲述了相反的故事:消融它使准确率完全崩溃(图1 (https://arxiv.org/html/2605.29126#S1.F1))。探针从模型不用于计算的方向上读出了正确答案。我们通过测量两个子空间之间的主角度来量化这一点——我们称之为*读出-中介角度*。在 $\bar{\theta}=88^\circ$ 时,它匹配从 Haar 均匀分布中抽取的两个随机子空间的期望值(在 $(d,k)=(2304,2)$ 时 $\mathbb{E}[\bar{\theta}]=88.3^\circ$,命题2 (https://arxiv.org/html/2605.29126#Thmproposition2)):该探针携带的关于模型计算的信息不比同秩随机方向更多。 五年的研究工作一直在质疑探针准确性是否意味着机制相关性(Hewitt and Liang, 2019 (https://arxiv.org/html/2605.29126#bib.bib21); Elazar et al., 2021 (https://arxiv.org/html/2605.29126#bib.bib17); Ravichander et al., 2021 (https://arxiv.org/html/2605.29126#bib.bib22); Mueller et al., 2026 (https://arxiv.org/html/2605.29126#bib.bib24), 2025 (https://arxiv.org/html/2605.29126#bib.bib25); Canby et al., 2025 (https://arxiv.org/html/2605.29126#bib.bib26));读出-中介角度提供了缺失的工具——一个说明探针*离计算有多远*的数字,并配有一个零假设说明“远”意味着什么。 对因果子空间进行逆向工程揭示了二者为何正交。边界注意力头实现了 $\pm30$ 和 $\pm61$ 天的 QK 偏移——单月和双月的步长,能够覆盖任何多月的持续时间(图1 (https://arxiv.org/html/2605.29126#S1.F1))。MLP 层随后执行两个阶段的转换:第18–19层读取日历位置(*何时*);第20–25层将其转换为持续时间(*多久*),MLP SAE——功能上等同于转录器——在这个边界上显示出单调的 DAS 对齐梯度。稀疏自编码器特征在词汇层面证实了这一分裂:与探针对齐的特征在诸如“十月”这样的概念上触发;与 DAS 对齐的特征在“过去24小时”上触发。这两个特征集具有零因果重叠(附录 S50 (https://arxiv.org/html/2605.29126#A50))。时间特征分析(Lubana et al., 2026 (https://arxiv.org/html/2605.29126#bib.bib33))解释了这种几何结构:DAS 中介与上下文可预测结构对齐(在 Haar 零假设之上 $7\times$),而探针位于随机云中——持续时间计算存在于从上下文累积的激活部分,而非当前 token(图4 (https://arxiv.org/html/2605.29126#S5.F4)C–D)。 这种分离并非特定于某个模型、规模或领域。它在四个模型(1.5B–9B)、两个架构家族和另外两个推理领域(空间位移、符号算术)中重复出现——每个都在 Haar 零假设角度。在 Pythia 1.4B 上,第0步时探针 $R^2=0.956$:未训练的网络根据探针的标准“表征”了日期,然而边界头、DAS 下降和循环性都只在训练过程中出现——探针跟踪的是维度容量,而非机制学习。 ### 贡献: - • 读出-中介角度和 Haar 随机零假设,以及三个将角度与消融效应联系起来的命题(§3 (https://arxiv.org/html/2605.29126#S3))。 - • 在四个规模(1.5B–9B)、两个家族、三个领域中的最大探针-DAS 分离——随规模扩大而加剧(§4 (https://arxiv.org/html/2605.29126#S4), §6 (https://arxiv.org/html/2605.29126#S6))。 - • 完整的电路追踪:边界头、两阶段 MLP 转录器链、不相交的 SAE 特征,以及基于 TFA 的正交性解释(§5 (https://arxiv.org/html/2605.29126#S5))。 - • 六项实验电池展示该分离破坏了基于探针的安全监控器(§6 (https://arxiv.org/html/2605.29126#S6))。 图1:关于持续时间查询(示意图)的读出-中介分离。给定“从3月15日到6月22日有多少天?”,模型部署了两个功能上正交的子空间。*间谍P*:探针子空间 $U_P$ 被动解码两个日期;消融它使准确率变化 -0.6 个百分点。*间谍M*:DAS 中介 $U_M$ 通过月边界跳转计数出99天;消融它使准确率降至0%。这两个子空间几乎正交($\bar{\theta}=88^\circ$),匹配 Haar 随机零假设——探针携带的关于计算的信息不比噪声多。 ## 2 可解码性与使用之间的差距 探针能够解码的内容与模型因果使用的内容之间的差距已有充分记录。Gurnee and Tegmark (2024 (https://arxiv.org/html/2605.29126#bib.bib7)) 从 Llama-2 中解码出空间和时间坐标,$R^2 > 0.9$,但明确指出这“并不暗示模型实际使用了这些表征”。Hernandez et al. (2024 (https://arxiv.org/html/2605.29126#bib.bib3)) 使这一差距具体化:他们定义了一个忠实度指标,发现许多关系在探针上准确,但在生成时并未被忠实地解码。几项工作试图缩小这一差距——将探针与因果干预相结合(Tak et al., 2025 (https://arxiv.org/html/2605.29126#bib.bib5); Feng et al., 2025 (https://arxiv.org/html/2605.29126#bib.bib4)),用解码器 LLM 替换固定探针(Pan et al., 2026 (https://arxiv.org/html/2605.29126#bib.bib44)),以及质疑干预本身(Grant et al., 2026 (https://arxiv.org/html/2605.29126#bib.bib45))——但没有一个提供单个数字来说明探针方向离因果方向有多远,或提供零假设来说明“远”意味着什么。 诊断性批评加剧了问题但没有解决它。控制任务(Hewitt and Liang, 2019 (https://arxiv.org/html/2605.29126#bib.bib21))、遗忘探针(Elazar et al., 2021 (https://arxiv.org/html/2605.29126#bib.bib17))以及最近的审计(Ravichander et al., 2021 (https://arxiv.org/html/2605.29126#bib.bib22); Mueller et al., 2026 (https://arxiv.org/html/2605.29126#bib.bib24), 2025 (https://arxiv.org/html/2605.29126#bib.bib25); Canby et al., 2025 (https://arxiv.org/html/2605.29126#bib.bib26))都质疑从准确性到机制的推断步骤,但止步于测量分歧。概念擦除方法——INLP 和 LEACE(Belrose et al., 2023 (https://arxiv.org/html/2605.29126#bib.bib18))——试图通过移除探针方向来缩小差距,然而它们的擦除子空间位于 Haar 零假设约 $1.5^\circ$ 范围内(附录 S41 (https://arxiv.org/html/2605.29126#A41)):擦除探针找到的内容并不擦除模型使用的内容。 我们的电路级分析建立在三个工具家族之上:DAS(Geiger et al., 2024 (https://arxiv.org/html/2605.29126#bib.bib9); Sun et al., 2025 (https://arxiv.org/html/2605.29126#bib.bib2); Mueller et al., 2025 (https://arxiv.org/html/2605.29126#bib.bib25))用于识别因果承载子空间,激活修补(Nanda et al., 2023 (https://arxiv.org/html/2605.29126#bib.bib10); Syed et al., 2024 (https://arxiv.org/html/2605.29126#bib.bib28))用于追踪信息流,以及通过 NeuronPedia(Lin, 2023 (https://arxiv.org/html/2605.29126#bib.bib1))分解的 SAE(Cunningham et al., 2024 (https://arxiv.org/html/2605.29126#bib.bib11); Lieberum et al., 2024 (https://arxiv.org/html/2605.29126#bib.bib12))用于在词汇层面解释特征。我们使用 MLP SAE 作为功能转录器(Templeton et al., 2024 (https://arxiv.org/html/2605.29126#bib.bib39))来追踪每个 MLP 层写入残差流的内容,并使用时间特征分析(Lubana et al., 2026 (https://arxiv.org/html/2605.29126#bib.bib33))将激活分解为上下文可预测和新颖组件——最终解释正交性的结构区分。最直接地,Gurnee et al. (2026 (https://arxiv.org/html/2605.29126#bib.bib6)) 展示了注意力头在日期流形上实现 QK 扭曲旋转;我们迈出下一步,询问这些投影中哪些是因果承载的,哪些是统计影子。扩展相关工作见附录 S10 (https://arxiv.org/html/2605.29126#A10)。 ## 3 读出-中介角度:测量与理论 ### 两个问题,两个子空间。 可解码性与使用之间的差距之所以出现,是因为探针和因果方法对同一层回答了不同的问题。给定任务属性 $z$ 和层 $L$,*探针子空间* $U_P \in \mathbb{R}^{k \times d}$ 是在缓存的激活上训练的循环 Ridge 回归器的 top-$k$ 张成空间——它问*信息在哪里?* *DAS 子空间*(Geiger et al., 2024 (https://arxiv.org/html/2605.29126#bib.bib9))通过 QR 分解可训练矩阵来参数化 $U$,并在每次前向传播中通过消融钩子 $x \mapsto x - U^\top U x$ 置零 $U$ 来最小化任务 NLL——它问*计算在何处易受攻击?* 同一层,同秩 $k$,不同的优化目标:一个隔离的是*可读的*,另一个是*承载的*(符号总结见附录 S54 (https://arxiv.org/html/2605.29126#A54))。 *读出-中介角度* $\bar{\theta}(U_P, U_M) = \frac{1}{k}\sum_i \arccos \sigma_i(U_P U_M^\top)$ 测量了这两个答案之间的距离。接下来的三个命题建立了为什么这个角度通常很大(命题1 (https://arxiv.org/html/2605.29126#Thmproposition1))、零假设期望是什么(命题2 (https://arxiv.org/html/2605.29126#Thmproposition2)),以及角度如何控制我们实际测量的可观测量——消融效应(命题3 (https://arxiv.org/html/2605.29126#Thmproposition3))。 ###### 命题1(读出-中介正交性,非正式)。设 $f: \mathbb{R}^d \to \mathbb{R}$ 为可微任务输出,$z(x)$ 为与 $x$ 相关的标量。探针方向最大化 $I(u^\top x; z)$——$x$ 中的*二阶矩*量。中介最大化 $\mathbb{E}|f(x) - f(x - u u^\top x)|$——$\nabla_x f$ 中的*一阶矩*量。两者仅在 $\nabla_x f \propto u_P$ 时重合。否则它们通常是不同的。 *证明概要。* 探针求解 Rayleigh 商 $\max_{\|u\|=1} (u^\top \mathbf{c})^2 / (u^\top \Sigma u)$,其中 $\mathbf{c} = \mathbb{E}[xz]$,得到 $u_P = \Sigma^{-1} \mathbf{c} / \|\cdot\|$——由数据协方差设定。消融效应的一阶泰勒展开给出 $u_M = \arg\max u^\top G u$,其中 $G = \mathbb{E}[\nabla_x f \nabla_x f^\top]$ 为梯度协方差——由网络的输出灵敏度设定。重合需要 $\Sigma^{-1} \mathbf{c}$ 是 $G$ 的顶级特征向量:数据几何与网络几何之间的非典型谱对齐,深度网络没有结构性理由满足这一点(完整证明见附录 S22 (https://arxiv.org/html/2605.29126#A22))。 ### 命题1 (https://arxiv.org/html/2605.29126#Thmproposition1) 的实证检验。 如果中介与 $\nabla_x f$ 的一阶矩对齐,那么直接计算梯度子空间应该恢复出比探针更接近 DAS 的方向。我们在 Gemma 2 2B 上验证这一点,对每个提示计算 $g_i = \nabla_{h_{L^\star}} \mathrm{NLL}(y^\star | x_i)$。梯度子空间比 Haar 零假设($\bar{\theta}=85.3^\circ$)更接近中介 $2.3^\circ$,而其与探针的角度处于零假设值($88.9^\circ$)。梯度倾向于中介但在有效秩76上分散;DAS 从这个分散信号中提炼出 $k=4$ 的因果核心(附录 S2 (https://arxiv.org/html/2605.29126#A2))。命题1 (https://arxiv.org/html/2605.29126#Thmproposition1) 告诉我们预期探针和中介之间会出现分歧——但没说是多少。在高维中,答案是鲜明的:任何两个低秩子空间默认几乎正交。 ###### 命题2(随机子空间之间的零假设角度)。对于独立的 $k \times d$ Stiefel-均匀矩阵 $U, V$,主角度余弦遵循 Jacobi 系综 $J(k,k,d-k)$,且 $\mathbb{E}\sum_i \cos^2 \theta_i = k^2 / d$:每个余弦平方集中在 $k/d$,这是 $\mathbb{R}^d$ 中随机 $k$ 平面投影的 Johnson–Lindenstrauss 速率(精确;MC 验证见附录 S20 (https://arxiv.org/html/2605.29126#A20))。在 $(d,k)=(2304,2)$ 时,$\mathbb{E}[\bar{\theta}] = 88.3^\circ$。 *证明概要。* 根据 Haar 旋转不变性,固定 $V$ 为前 $k$ 个恒等行;$UV^\top$ 的奇异值随后遵循 Jacobi 系综 $J(k,k,d-k)$。Collins–Matsumoto 迹恒等式给出 $\mathbb{E}\sum_i \cos^2 \theta_i = k^2 / d$:应用 Jensen 逆余弦可得期望。在 $(d,k)=(2304,2)$ 时,$\mathbb{E}[\bar{\theta}] = \frac{1}{2} \cdot 2 \cdot \arccos(\sqrt{2/2304}) \approx 88.3^\circ$。对于 $k=4$,$\mathbb{E}[\bar{\theta}] = 86.4^\circ$。
相似文章
监控内部独白:探针轨迹揭示推理动态
本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。
线性探针在语言模型隐藏状态中检测的是任务格式,而非推理模式
本文证明,基于LLM隐藏状态的线性探针检测到的是任务格式混淆因素(例如来源身份、回答长度),而非不同的推理模式。通过残差化和因果引导,表明高探针准确率源于表面特征,而非计算结构。
Polar Probe线性解码LLM中的语义结构
本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。
预测阅读时间的探针研究
研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。
推理模型并非只是思考更久,其运作轨迹也不同
本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征,探究经推理训练的语言模型是否仅仅分配更多计算资源(更长的思维链),还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后,他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式,而不仅仅是计算量的多少。