HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本文介绍了 HyperLens，一种高分辨率探针，可通过追踪层间的细粒度置信度轨迹来量化大型语言模型（LLMs）的认知努力。研究表明，复杂任务需要更高的认知努力，并展示了监督微调（SFT）如何降低这种努力，从而可能导致性能下降。

arXiv:2605.05741v1 公告类型：新文章摘要：尽管大型语言模型（LLMs）在各种任务上表现强劲，但由于现有分析工具的分辨率有限，其推理动态仍缺乏充分理解。在本研究中，我们发现了 Transformer 架构中的一种内在放大机制：更深层的网络本质上会放大逐层置信度的微小变化，从而提供细粒度的置信度轨迹。基于这一见解，我们引入了 HyperLens，这是一种旨在追踪置信度轨迹并量化推理过程中认知努力的高分辨率探针。在各类 LLM 和数据集上，HyperLens 揭示了置信度轨迹的一致性发散，从而将复杂任务与简单任务区分开来。我们将这一模式抽象为一种量化的认知努力指标。我们的分析揭示了一个基本规律：复杂任务始终需要更高的认知努力。最后，我们对标准监督微调（SFT）的一个常见副作用进行了机制性诊断：它会降低认知努力，从而导致域内任务的性能下降。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:45

# HyperLens：利用细粒度置信度轨迹量化大语言模型中的认知努力

来源：https://arxiv.org/html/2605.05741

###### 摘要

尽管大语言模型（LLMs）在各种任务中均表现出强大的性能，但由于现有分析工具的分辨率有限，人们对其推理动态的了解仍然不足。在本工作中，我们发现了 Transformer 架构中的一种内在放大机制：更深的层本质上会放大层间置信度的微小变化，从而提供细粒度的置信度轨迹。基于这一见解，我们引入了 **HyperLens**，这是一种高分辨率探针，旨在追踪置信度轨迹并量化推理过程中的认知努力。在对 88 个 LLMs 和 88 个数据集的评估中，HyperLens 揭示了置信度轨迹的一致性发散，从而将复杂任务与简单任务区分开来。我们将这种模式抽象为一个定量的认知努力指标。我们的分析揭示了一个基本原则：复杂任务始终需要更高的认知努力。最后，我们对标准监督微调（SFT）的一个常见副作用进行了机制性诊断：它可能会降低认知努力，从而损害领域内任务的性能。

机器学习, ICML

## 1 引言

虽然大语言模型（LLMs）展现出了卓越的能力，但理解其**推理动态**（即内部状态如何演变）对于现实世界的鲁棒性至关重要。解读这种动态的一个主要范式是通过层间投影来监测**置信度的演变**（nostalgebraist, 2020; Schuster et al., 2022; Wang, 2025; Belrose et al., 2023）。这种信号已被证明在各种任务中有效，如幻觉和越狱检测（Chuang et al., 2023; Lin et al., 2026），以及早退策略（Xi et al., 2020; Chen et al., 2023）。

> **图 1 说明**：Qwen2.5-7B 在不同焦距深度下，面对简单（CoNaLa (Yin et al., 2018)）与困难（APPS (Hendrycks et al., 2021a)）编码任务的置信度轨迹。三个子图的置信度分别来源于：(1) 零焦距深度（等价于 Logit Lens）；(2) 包含单个浅层焦距深度；(3) 包含五层的足够焦距深度。

直观地说，置信度的轨迹应反映模型的**认知努力**。具体而言，对于答案显而易见的基础任务（例如，知识检索），内部置信度应迅速收敛；而复杂任务（例如，困难的数学问题）则需要更长的低置信度“挣扎”阶段才能找到解决方案。然而，使用当前探测方法的观察结果未能验证这一直觉，无论任务难度如何，经常产生无法区分的轨迹。我们将这种失败归因于现有探针**分辨率**的局限性，这限制了其效用，使其只能检测最明显的异常（例如，突然的峰值/崩溃或稳定的变化）。

现有的探针主要依赖静态投影（Alain and Bengio, 2016; Ghandeharioun et al., 2024; Pale et al., 2023），其中最著名的是 **Logit Lens**（Alain and Bengio, 2016），它通过最后的解嵌入层直接解码隐藏状态。这些方法依赖于一个强有力的假设，即中间表示与输出空间线性对齐。不幸的是，由于**各向异性**（Ethayarajh, 2019; Timkey and Van Schijndel, 2021）和**表示漂移**（Geva et al., 2021; Voita et al., 2019b），这些方法充当了**短视观察者**：如果没有适当的焦距校正，它们无法有效地解析潜在信号。

为了解决这一局限性，另一类工作，如 **Tuned Lens**（Belrose et al., 2023）及其他方法（Cunningham et al., 2023; Rajamanoharan et al., 2024; Ghandeharioun et al., 2024），引入了外部**学习适配器**来纠正投影错位。然而，它们不可避免地充当了**有偏失真滤波器**：外部训练给原始信号引入了系统性失真（Hewitt and Liang, 2019; Voita and Titov, 2020）。

不同于当前短视或有偏的工具，我们发现了 Transformer 层中固有的**自放大机制**（第 3 节）。我们证明，与其直接解码隐藏状态，不如在投影之前将其通过一系列未来层传播，这样可以放大推导出的置信度。我们将这些未来层的数量称为**焦距深度**（focal depth）。基于此基础，我们提出了高分辨率探针 **HyperLens**，它揭示了一个符合我们直觉的关键现象：**加深焦距深度会放大置信度，其幅度受任务内在难度的约束**。

如图 1 所示，在零焦距深度下（即等价于 Logit Lens），简单任务和困难任务在所有层中的置信度轨迹均无法区分。将焦距深度增加 1 会引入全局放大，但轨迹仍然纠缠在一起。值得注意的是，当我们把焦距深度增加到足够水平时，简单任务和困难任务的置信度轨迹清晰分离。简单任务表现出更快速的上升，而困难任务则在低置信度状态下停留更长时间。这种发散表明，足够的放大使得模型内部的认知努力变得可观察。

为了量化这一点，我们引入了**细化面积（Ω）**，定义为放大后的置信度轨迹**上方**的面积，作为生成最终输出所需认知努力的精确度量。直观地说，更困难的任务需要更多的认知努力来生成最终输出，因此具有更高的 Ω。例如，在代码任务中，Qwen2.5-7B 的 Ω 从 1.78（简单）显著增加到 3.05（困难）（见图 1 (3)）。

在对 88 个模型和 88 个数据集的全面评估中（见第 5 节）证实，任务难度始终与更高的 Ω 相关。除了稳健的测量外，HyperLens 还为**监督微调（SFT）**的副作用提供了新见解（第 6 节）。我们发现了一种“盲目自信”现象：简单的 SFT 会导致领域内任务上 Ω 的异常下降，从而损害性能。这表明模型学会了跳过低置信度的“挣扎”阶段，在不充分考虑的情况下直接跳转至输出结果。

总之，本文的贡献包括：

1.  我们提出了 **HyperLens**，一种高分辨率探针，用于可视化和量化模型的认知努力。利用 HyperLens，我们清晰地区分了简单和困难任务的置信度轨迹，揭示了复杂任务需要更长的低置信度阶段。
2.  我们正式表征了 Transformer 固有的自放大机制，证明增加焦距深度会严格放大置信度，从而确保高分辨率视图。
3.  通过应用 HyperLens，我们发现简单的 SFT 在面对领域内任务时会因削减认知努力而导致“盲目自信”问题，为 SFT 模型中经常观察到的性能下降提供了解释性说明。

## 2 相关工作

**推理动态解释**侧重于从理论上理解内部状态的演变。直观地说，推理包括两个阶段：(1) 将输入转换为高维潜在空间；以及 (2) 将潜在状态映射到词汇空间以生成下一个 token（Olsson et al., 2022; Voita et al., 2019a; Elhage et al., 2021）。

超越这一高层分解，越来越多的研究侧重于更深入的分析。例如，Shai et al. (2024) 从几何角度证明残差流在层间有效地执行贝叶斯更新。Tiberi et al. (2024) 将推理过程建模为核重整化流，从热力学角度形式化了预测器统计量的演变。

**探测方法**。为了解码这些内部动态，研究人员提出了一系列**探测方法**来观察内部状态。根据是否依赖额外参数，这些探测方法可分为静态探测和参数化探测。静态探测方法包括广泛采用的 Logit Lens（nostalgebraist, 2020）及其变体，如 Ye et al. (2025)，它使用交叉查询语义修补和基于余弦的代表性透镜来解释隐式推理现象。在本工作中，我们专注于静态探测方法，并主要将我们的方法与广泛采用的 Logit Lens 进行比较。

参数化探测方法可分为两类：一类如线性探测（Alain and Bengio, 2016），利用额外训练来探索特定概念的特征（Cunningham et al., 2023; Rajamanoharan et al., 2024）。这类方法通常是任务驱动的，识别潜在空间中对应于人类可解释概念的特定特征。另一类如 Tuned Lens（Belrose et al., 2023）和 Patchscopes（Ghandeharioun et al., 2024），则利用额外模型作为适配器来纠正静态探针的固有缺陷。然而，正如 Hewitt and Liang (2019) 和 Voita and Titov (2020) 所述，这些方法不可避免地会引入系统性失真。

**应用**。基于上述对推理动态的解释，研究人员提出了多种现实世界的应用，通常分为两类：(1) 检测异常行为，以及 (2) 提高模型性能。首先，通过监测内部状态，研究人员可以有效检测幻觉和越狱尝试等安全风险（Lin et al., 2026; Chia et al., 2025; Borah et al., 2025）。例如，Yao et al. (2024) 提出了组件级解码（即知识电路），并用它来分析并解释语言模型的行为，如幻觉和上下文学习。此外，通过解释获得的见解有助于优化模型效率和性能。例如，推理时干预（ITI）（Li et al., 2023）识别激活空间中的“真实性”方向，并沿这些向量移动推理动态以增强真实答案的生成。同样，Chuang et al. (2023) 利用早期层和晚期层分布之间的对比，在解码过程中放大事实信号并抑制幻觉。

## 3 内在放大机制

### 3.1 公式化

**推理动态**。考虑一个具有 $N$ 个 Transformer 层 $\{f_1, f_2, \dots, f_N\}$ 和词汇空间 $\mathcal{V}$ 的大语言模型。推理动态被定义为一个自回归过程，将给定的输入 token 转换为词汇上的概率分布。令 $X_t \in \mathbb{R}^d$ 为第 $t$ 个 token 的输入嵌入。内部状态通过残差映射 $\mathcal{F}$（包含 Attention 和 FFN 模块）逐层演变。第 $i$ 层的内部状态 $H_{i,t} \in \mathbb{R}^d$ 递归定义为：

$$
H_{i,t} = f_i(H_{i-1,t}) = H_{i-1,t} + \mathcal{F}_i(H_{i-1,t}), i \in \{1, \dots, N\}, \quad (1)
$$

其中 $H_{0,t} = X_t$ 是初始输入嵌入。为了生成最终输出，最后一个内部状态 $H_{N,t}$ 通过线性解嵌入矩阵 $W_U \in \mathbb{R}^{|\mathcal{V}| \times d}$ 投影回词汇空间。最终概率分布 $p_t \in \mathcal{P}(|\mathcal{V}|) = \{x \in \mathbb{R}^{|\mathcal{V}|} \mid x \ge 0, \mathbf{1}^\top x = 1\}$ 通过以下公式获得：

$$
p_t = \text{Softmax}(W_U H_{N,t}). \quad (2)
$$

为简便起见，当不会产生混淆时，我们省略下标 $t$ 和 $i$，将 $H_{i,t}$ 简写为 $H_i$ 或 $H$。

**置信度轨迹**是解释大语言模型推理动态最常用的信号之一。对于长度为 $T$ 的生成序列，我们将层间置信度 $\mathcal{C}_i$ 定义为内部预测 token 的 Top-K 概率的期望值。形式上：

$$
\mathcal{C}_i = \frac{1}{T} \sum_{t=1}^{T} \text{Top-K}(p_{i,t}). \quad (3)
$$

$p_{i,t}$ 是由第 $i$ 层预测的第 $t$ 个 token 的概率，可以通过解码函数 $\mathcal{D}: \mathbb{R}^d \to \mathcal{P}(\mathcal{V})$ 获得，即 $p_{i,t} = \mathcal{D}(H_{i,t})$。现有方法对 $\mathcal{D}$ 有不同的实例化。静态 Logit Lens 使用带有 softmax 的最后解嵌入矩阵，即 $\mathcal{D}(H) = \text{Softmax}(W_U H)$，而在其他可调节方法（如 Tuned Lens）中，$\mathcal{D}$ 是一个学习的仿射变换。置信度轨迹则是所有 $N$ 层中预测 token 的期望置信度。

**具有不同焦距深度 $m$ 的解码函数**。与先前的静态探测方法不同，我们将解码函数 $\mathcal{D}$ 从最后的解嵌入矩阵推广为模型最后 $m$ 层（以及解嵌入投影）的组合。形式上：

$$
\mathcal{D}_m(H) = \text{Softmax}(\mathcal{D}_m(H)), \quad (4)
$$

其中 $\mathcal{D}_m$ 是模型最后 $m$ 层和解嵌入投影的组合。形式上：

$$
\mathcal{D}_m(H) = W_U(f_N \circ \cdots \circ f_{N-m+1}(H)). \quad (5)
$$

为简便起见，我们将 $\mathcal{D}_m$ 定义为...

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

相似文章

通过探针目标微调，让LLM真正表达其自信程度。[研究]

超越困惑度：面向LLM测试时训练中部署记忆声明的行为评估框架

SkillLens：面向成本高效型大模型智能体的自适应多粒度技能复用

别让我的LLM崩溃：注意力层剪枝对解释忠实性与置信度校准的影响

校准过度自信而不牺牲置信度：面向LLMs的探针条件化头部干预

提交意见反馈