线性探针在语言模型隐藏状态中检测的是任务格式,而非推理模式
摘要
本文证明,基于LLM隐藏状态的线性探针检测到的是任务格式混淆因素(例如来源身份、回答长度),而非不同的推理模式。通过残差化和因果引导,表明高探针准确率源于表面特征,而非计算结构。
arXiv:2606.02907v1 公告类型:新
摘要:对大型语言模型(LLM)隐藏状态的线性探针被广泛用于声称模型学习不同推理类型的独特表示。我们通过在三项覆盖经典三分法的基准测试中探测Qwen3-14B来检验这一说法:LogiQA 2.0(演绎推理)、ARC-Challenge(归纳推理)和$\alpha$NLI(溯因推理)。在第40层中的第32层,线性探针达到了100%的交叉验证准确率,且几何结构分离良好(内在维度:20.6、28.5、33.6;凸包污染$\leq$1.5%)。然而,这种分离完全是由格式混淆因素驱动的。对来源身份、选项数量和回答长度进行残差化处理后,准确率降至随机水平。痕迹-锚点相似性表明任务之间的推理在很大程度上是共享的(42.5%一致性对比33.3%随机),且使用随机对照($n=20$)的因果引导显示几何结构与推理模式之间没有功能联系($p=0.286$)。因此,高探针准确率反映的是任务格式而非计算结构,这促使在机制可解释性中常规进行格式去混淆。
查看缓存全文
缓存时间: 2026/06/03 09:35
# 线性探针在语言模型隐藏状态中检测到的是任务格式而非推理模式 来源:https://arxiv.org/html/2606.02907
###### 摘要
对大型语言模型(LLM)隐藏状态进行线性探针分析,被广泛用于声称模型为不同推理类型学习了不同的表示。我们通过在三项基准测试上探测Qwen3-14B来检验这一说法,这三项基准测试涵盖了经典的三种推理类型:LogiQA 2.0(演绎推理)、ARC-Challenge(归纳推理)和αNLI(溯因推理)。在40层中的第32层,线性探针达到了100%的交叉验证准确率,并具有良好分离的几何结构(本征维度:20.6、28.5、33.6;凸包污染率 ≤ 1.5%)。然而,这种分离完全由格式混淆因素驱动。通过对源身份、选项数量和响应长度进行残差化处理,探针准确率降至随机水平。轨迹-锚点相似性分析表明,不同任务间的推理过程在很大程度上是共享的(一致性42.5%,随机水平33.3%),并且使用随机对照(n=20)的因果引导实验显示,几何结构与推理模式之间不存在功能上的关联(p = 0.286)。因此,高探针准确率反映的是任务格式而非计算结构,这促使在机制可解释性研究中应将格式去混淆作为常规操作。
## 1 引言
大型语言模型(LLM)在执行需要演绎、归纳和溯因推理的任务中表现出了卓越的性能(Brown 等人,2020;Wei 等人,2023;Yang 等人,2025)。理解这些系统的一个基本问题是,它们是否会针对不同的推理模式发展出**不同的内部计算策略**,或者无论任务类型如何,都采用统一的方法。回答这个问题对于研究人员如何评估、解释和改进LLM的逻辑推理能力具有直接意义,这也是研究界关注的核心问题(Huang and Chang,2023;Ahn 等人,2024)。
线性探针分析——在冻结的隐藏状态上训练线性分类器以预测目标属性——已成为研究此类内部结构的标准工具(Alain and Bengio,2018;Belinkov 等人,2017;Conneau 等人,2018)。当探针从隐藏状态预测推理类型达到高精度时,标准的解释是模型已经为每种推理模式发展了几何上可分离的表示(Li 等人,2024;Cosentino and Shekkizhar,2024)。这种解释支撑着越来越多的机制可解释性工作,这些工作试图在Transformer架构中识别“推理回路” (Olsson 等人,2022;Nanda 等人,2023)。
然而,这种解释建立在一个很少被检验的假设之上:即探针检测到的是**与推理相关的**结构,而不是与推理标签相关的**表面特征**。当不同的推理模式来自不同的数据集时——这在多任务推理评估中是标准做法(Liu 等人,2023;Bhagavatula 等人,2020;Clark 等人,2018)——隐藏状态必然会编码词汇、提示结构和格式上的分布差异,这些差异与推理标签完全混淆。
#### 本文贡献。
1. **格式混淆因素分解**。我们引入了一种残差分析流程,将格式特征(源身份、选项数量、响应长度)从隐藏状态中回归掉。探针准确率从100%降至随机水平——证明了整个分离是由格式驱动的(第5.2节)。
2. **轨迹-模式一致性分析**。我们展示了模型在所有推理类型上达到了86%的准确率,但轨迹-模式一致性仅为42.5%(随机水平为33.3%),表明它并未根据任务类型调整其推理策略(第5.3节)。
3. **带随机基线的因果对照**。我们使用随机方向对照(n=20)进行了引导向量实验,确认观察到的几何结构与推理模式选择没有因果联系(p = 0.286;第5.4节)。
4. **方法论建议**。我们建议,在基于探针的推理可解释性研究中,应将格式去混淆和随机方向对照作为标准实践。
## 2 相关工作
#### LLM中的逻辑推理。
经典的推理三分法——演绎、归纳和溯因——在LLM评估文献中受到了广泛关注。演绎推理基准包括LogiQA(Liu 等人,2023)和FOLIO(Han 等人,2024);归纳推理通过ARC(Clark 等人,2018)和类比任务(Webb 等人,2023)进行评估;溯因推理基准包括αNLI(Bhagavatula 等人,2020)和AbductionRules(Young 等人,2022)。虽然LLM在单个基准测试上表现良好,但对它们跨类型**如何**进行推理的系统性比较仍然有限。关键的是,所有这类比较都使用每个推理模式的独立数据集——这正是产生我们所识别的混淆因素的设计。
#### 线性探针及其陷阱。
引入线性探针是为了评估神经网络是否发展出可线性访问的表示(Alain and Bengio,2018;Belinkov 等人,2017)。该技术已被扩展用于探测句法结构(Hewitt and Manning,2019)、事实知识(Meng 等人,2023)和与推理相关的属性(Li 等人,2024;Marks and Tegmark,2023)。然而,Hewitt and Liang(2019)以及Benotti and Blackburn(2021)警告说,探针准确率可能反映的是探针的复杂度而非表示的质量。我们的工作将此批评扩展到推理领域,证明**完美**的探针准确率可能完全由任务格式产生。
#### 可解释性中的因果方法。
激活修补(Vig 等人,2020;Meng 等人,2023)、引导向量(Turner 等人,2024;Li 等人,2024)和表示工程(Zou 等人,2025)建立了表示与行为之间的因果联系。我们贡献了**随机方向对照**——测试目标引导是否优于等幅度的随机扰动——这在大多数先前的引导研究中是缺失的,但对于建立方向性至关重要。
## 3 方法论
我们的流程包括五个阶段:(1) 多源数据集构建,(2) 带隐藏状态提取的推理,(3) 带流形几何结构的逐层线性探针,(4) 格式混淆因素分析,以及 (5) 带随机方向对照的因果引导。所有超参数要么从数据中推导得出,要么由实验设计设定——没有手动调优的值。
### 3.1 多源推理数据集
我们通过从为每种经典推理模式设计的基准测试中采样,构建了一个平衡的三类数据集(N=750,每类250个):
- •**演绎推理**:LogiQA 2.0(Liu 等人,2023)——需要规则应用和条件推理的形式逻辑推理。四选一格式,带有段落上下文。
- •**归纳推理**:ARC-Challenge(Clark 等人,2018)——需要从观察模式中归纳总结的科学问题。四选一格式。
- •**溯因推理**:αNLI(Bhagavatula 等人,2020)——给定两个观察结果,选择最佳解释它们的假设。二选一格式。
推理模式标签通过**数据集来源**分配——即每个基准测试预期的推理类型——而不是通过事后分类。这种多源设计有意模仿了推理评估中的标准实践。我们承认,基准测试到推理模式的映射并不完美——ARC问题可能涉及混合的推理类型——但需要注意的是,这种不完美**加强**了我们的论点:如果映射是有噪声的,而探针仍然能达到100%的准确率,这进一步表明它们检测到的是源身份而非推理模式(Sahoo 等人,2026)。
### 3.2 模型与推理
我们评估了Qwen3-14B(Yang 等人,2025),一个140亿参数的纯解码器Transformer,具有L=40层和隐藏维度d=5120,以bfloat16精度加载。对于每个任务,我们构建一个统一的提示(附录A),指示其进行逐步推理,并在标签中给出最终答案。我们使用贪婪解码,预算为2048个令牌。Qwen3-14B是一种混合思考模型,会在生成最终答案之前生成内部......推理块。我们设置 DISABLE\_THINKING=True,并在分析之前从所有生成的文本中剥离这些块。因此,所有隐藏状态、推理轨迹和输出置信度分数都对应于模型的 **非思考**推理模式。这是一个有意的方法论控制:思考模式的轨迹会引入模式特定的语言化结构,这本身会混淆隐藏状态的几何结构。非思考模式将输入驱动的表示与输出驱动的风格分离开来。
对于每个任务,我们提取:(i) 在每个层 ℓ ∈ {0, ..., L} 的最后一个输入令牌处的隐藏状态 hᵢ⁽ℓ⁾ ∈ ℝᵈ;(ii) 带有预测答案和推理轨迹的生成文本 yᵢ;以及 (iii) 输出置信度 cᵢ,即令牌概率的几何平均值。只有正确回答的任务才用于几何分析。
### 3.3 逐层线性探针
在每个层 ℓ,我们训练一个线性探针(逻辑回归,L2正则化,C=1.0)从 hᵢ⁽ℓ⁾ 预测推理模式标签 yᵢ ∈ {D, I, A}:
ŷᵢ = argmaxₖ (W⁽ℓ⁾ hᵢ⁽ℓ⁾ + b⁽ℓ⁾)ₖ (1)
通过分层5折交叉验证进行评估。最佳层 ℓ* 根据最大准确率选择。我们还在 ℓ* 处计算流形几何:通过TwoNN计算本征维度(Facco 等人,2017)、通过邻域SVD计算局部曲率、模式间分离比以及基于KNN的凸包污染。完整细节见附录C。
### 3.4 格式混淆因素分析
核心方法论贡献是一个四阶段流程,用于区分基于格式和基于推理的探针准确率:
#### (i) 源预测。
一个相同的线性探针从隐藏状态预测数据集来源(LogiQA, ARC, αNLI)。如果源准确率 ≈ 模式准确率,则探针无法区分这两个标签。
#### (ii) 选项数量探针。
仅使用答案选项数量(2 vs. 4)作为输入的逻辑回归,测试这个单一的标量是否能够部分分离模式。
#### (iii) 格式控制比较。
我们仅限制在4选1任务(LogiQA + ARC)上并重新评估探针。如果分离仍然存在,则表明除了选项数量之外,词汇或风格差异也起作用。
#### (iv) 残差分析。
我们构建一个格式特征向量 fᵢ = [源独热编码, 选项数量,|yᵢ|] 并拟合岭回归来从格式特征预测隐藏状态。残差 rᵢ = hᵢ⁽ℓ*⁾ - ĥᵢ 移除了所有线性格式信息。然后我们对残差进行模式和源的探针分析。如果残差探针准确率 ≈ 随机水平,则原始分离完全由格式驱动。
### 3.5 轨迹-模式一致性
独立于探针分析,我们衡量模型的**推理行为**是否与预期模式匹配。我们为每种模式定义捕获可观察轨迹行为的锚点描述(例如,演绎推理:“逐步应用已知规则”;完整锚点见附录B)。锚点和轨迹使用模型最后一层的隐藏状态进行嵌入。每个轨迹被分配给具有最高余弦相似度的模式。显著高于随机水平(1/K = 33.3%)的一致性将表明模型会根据任务类型调整其策略。
### 3.6 带随机方向对照的因果引导
为了检验几何分离是否与推理有**因果**联系,我们应用激活引导(Turner 等人,2024)。对于每个模式对 (mₛ, mₜ),引导向量为 v̂ₛ→ₜ = (μₜ - μₛ) / ||μₜ - μₛ||。在生成过程中,在层 ℓ* 处的一个前向钩子将 α* · v̂ₛ→ₜ 添加到所有位置。幅度 α* 通过使用Otsu阈值法的相干性扫描学习(附录D)。
#### 随机方向对照。
我们采样 N_rand 个随机方向,其中 N_rand = max(5, min(20, 2 · n_steered)) 来源于被引导的评估任务数量(上限为20)。在实践中,当 n_steered ≥ 10 时,N_rand = 20,这在所有报告的实验中均成立。对于每次试验 i,我们采样 v_rand ∼ 𝒩(0, I_d),归一化到单位长度,并在同一层应用相同的 α*。这测试了效果是特定于质心差方向,还是由任何等幅度的扰动产生。经验 p 值使用拉普拉斯修正:p = (k + 1) / (N_rand + 1),其中 k 是匹配或超过目标度量的随机方向数量。
#### 冲突注入。
我们同时向不同模式注入两个引导向量:h̃ᵢ⁽ℓ*⁾ = hᵢ⁽ℓ*⁾ + α* · (v̂₁ + v̂₂)。相似文章
大语言模型中欺骗探测探头的压力测试:可伸缩性、鲁棒性与欺骗表征的几何特性
本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。
它们在思考什么?大语言模型中概念的界定、探测与追踪
本文提出了一种界定概念的方法,并训练线性探测器在大语言模型的嵌入中检测这些概念,以四个示例概念在三个模型上进行验证。该工作旨在实现对LLM内部表示的可扩展监控。
Polar Probe线性解码LLM中的语义结构
本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。
探究大语言模型中的最简阶段结构:通用依存关系无法表达的内容
本文研究大语言模型是否编码了通用依存关系(UD)无法捕捉的句法抽象(如阶段边界),通过在wh-移动刺激上设计UD距离不变的结构探针,在13个LLM中发现了阶段结构表示的证据,且这些表示具有因果活性。
监控内部独白:探针轨迹揭示推理动态
本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。