语言模型如何失败：承诺性与持续性推理失败的词元级特征

arXiv cs.CL 2026/06/08 04:00 论文

reasoning-failures token-level uncertainty language-models failure-detection llm-safety

摘要

本文通过词元级不确定性信号，刻画了语言模型在推理中失败的两种不同过程——承诺性失败与持续性不确定性，并展示了其对自一致性及失败检测策略的启示。

arXiv:2606.06635v1 公告类型：新摘要：语言模型在推理中的失败通过不同过程产生，并在推理轨迹中留下可识别的特征。我们利用词元级不确定性信号刻画这些失败，发现它们通过两种经验可区分的过程出现。第一种是承诺性失败，即模型在推理轨迹早期锁定一条错误的推理路径。一个关键的诊断特征是承诺点，超过该点后考虑额外词元反而会损害而非帮助失败检测。第二种是持续性不确定性，不确定性在此过程中持续累积，需要完整轨迹才能最好地区分失败与成功的完成。这些特征在23个模型-数据集配置中复现，该框架的可证伪预测在23个案例中的20个成立，远高于两种失败模式下的随机水平。最后，我们证明该失败模式框架对自一致性具有直接影响，能够识别何时不确定性信号对其起补充作用，以及何时可以选择性地跳过。这些结果为理解LLM推理失败何时可检测以及相应调整检测策略提供了基础。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:19

# 语言模型如何失败：承诺性与持续性推理失败的令牌级表征
来源：https://arxiv.org/html/2606.06635
Tanvi Thoria¹, Kiana Jafari², Marc R. Schlichting², Mykel J. Kochenderfer¹,²,

¹斯坦福大学计算机科学系 ²斯坦福大学航空与航天系，通讯作者：[email protected] (https://arxiv.org/html/2606.06635v1/mailto:[email protected])

###### 摘要

语言模型推理中的失败通过不同过程显现，这些过程在推理轨迹中留下可识别的特征。我们利用令牌级不确定性信号来表征这些失败，发现它们通过两种经验上可区分的过程产生。第一种是承诺性失败，模型在推理轨迹早期就锁定了一个错误的推理路径。其核心诊断特征是承诺点，超过该点后，考虑更多令牌反而会损害而非帮助失败检测。第二种是持续不确定性，不确定性在整个过程中不断累积，需要完整轨迹才能最好地区分失败与成功完成。这些特征在23个模型-数据集配置中复现，该框架的可证伪预测在23个案例中的20个成立，在两种失败模式中均显著高于随机水平。最后，我们展示了我们的失败模式框架对自一致性有直接影响，可识别不确定性信号何时补充自一致性，以及何时可以选择性地跳过。这些结果为理解LLM推理失败何时变得可检测以及相应调整检测策略提供了基础。

语言模型如何失败：承诺性与持续性推理失败的令牌级表征

Tanvi Thoria¹, Kiana Jafari², Marc R. Schlichting², Mykel J. Kochenderfer¹,²,
¹斯坦福大学计算机科学系
²斯坦福大学航空与航天系，
通讯作者：[email protected] (https://arxiv.org/html/2606.06635v1/mailto:[email protected])

## 1 引言

1. 令牌分布
2. 时间信号
所以，答案必须是4
生成的令牌序列
25
P(x)
P(x)
前缀大小 \(T\)
值
监控信号：熵、边际、负对数似然、核集或近持平
在前缀窗口上聚合
完整轨迹基线
\(T^*\) (承诺点)
早期峰值
前缀窗口大小 \(T\)
PR-AUC(\(T\))
情况A：承诺性失败
完整轨迹基线
前缀窗口大小 \(T\)
PR-AUC(\(T\))
情况B：持续不确定性
情况A
情况B

图1：我们的框架计算LLM推理轨迹前缀上的令牌级不确定性信号，以诊断模型如何以及何时失败。

检测语言模型何时会在复杂推理任务上失败是一个持续的挑战，对部署可靠性有直接影响。现有的失败检测方法，如自一致性 (Wang et al., 2023 (https://arxiv.org/html/2606.06635#bib.bib3)) 和不确定性量化 (Kadavath et al., 2022 (https://arxiv.org/html/2606.06635#bib.bib13); Farquhar et al., 2024 (https://arxiv.org/html/2606.06635#bib.bib20))，将失败视为二元预测任务。这些方法可以有效地检测模型何时可能失败，但它们没有描述失败出现的过程。我们认为这个过程不是单一的，将其视为单一会限制我们对模型如何失败的理解以及我们做出适当响应的能力。

如果推理失败通过不同过程发展，那么单一的检测策略不可能在所有情况下都是最优的。考虑一个模型在其推理轨迹结束前就承诺了错误方法，并在多次完成中一致地复现它。在这种情况下，自一致性会错误地以高置信度确认错误答案，额外的采样无法恢复失败信号。相反，对于一个在整个推理过程中保持真正不确定性的模型，跨完成进行聚合将是正确的方法。这两种不同情况需要不同的检测策略，但现有方法无论情况如何都应用相同的方法。描述失败发展的过程，而不是将失败视为二元结果，是构建能够相应适应的检测方法的前提。

描述失败如何显现需要观察模型的推理过程，而不仅仅是其结果。最近的工作通过机制方法在这方面取得了进展，例如探测内部激活以显示错误答案在表达之前是可解码的 (Boppana et al., 2026 (https://arxiv.org/html/2606.06635#bib.bib14))，扭曲推理步骤以识别对最终答案的因果影响 (Ye et al., 2026 (https://arxiv.org/html/2606.06635#bib.bib24))，以及对模型表示进行干预以显示早期承诺限制了纠正的有效性 (Zur et al., 2025 (https://arxiv.org/html/2606.06635#bib.bib16))。这些方法揭示了模型失败的结构，但它们需要访问模型权重和内部表示。这限制了它们应用于封闭API的领先模型，如GPT-4o和Gemini，在这些模型中只有输出令牌是可访问的。如果没有对模型内部的访问，相同的失败结构应该可以从外部度量（如令牌级信号）中观察到。

我们提出了一个框架，通过思维链轨迹上的令牌级不确定性信号来表征推理失败，只需要单次完成的对数概率。该框架识别出两种失败模式：承诺性失败和持续不确定性，每种模式在轨迹上都有独特的不确定性轨迹。在跨越五个模型家族和四个推理领域的23个模型-数据集配置中，该框架的可证伪预测在23例中的20例成立。我们的框架需要适中的失败率：极端情况会产生不可靠的分类信号，而封闭API的限制限制了可用的对数概率。

本文做出以下贡献。(1) 我们提出令牌级不确定性信号预测两种不同的失败模式，对LLM推理失败如何显现进行分类。我们经验验证了这些失败模式是可证伪的，并在不同模型和任务上可复现。(2) 我们识别了承诺点：推理轨迹中令牌级不确定性对失败最具预测性的位置，标志着模型锁定推理路径的点。(3) 我们概述了失败框架的实际意义，表明失败模式特征可以预测何时自一致性有效，以及何时单次完成不确定性特征提供补充信号。

## 2 相关工作

#### LLM中的不确定性估计。

LLM在多选任务上校准良好，可以估计其自身答案正确的概率 (Kadavath et al., 2022 (https://arxiv.org/html/2606.06635#bib.bib13))。语义熵根据意义而非表面形式对生成进行聚类，以产生用于幻觉检测的不确定性度量，代价是每次查询需要五到十次生成 (Farquhar et al., 2024 (https://arxiv.org/html/2606.06635#bib.bib20))。对齐调整已被证明可以锐化输出分布，分支因子减少二到五倍，在最早位置减少多达一个数量级 (Yang et al., 2025 (https://arxiv.org/html/2606.06635#bib.bib5))。这些方法将不确定性视为答案级别或输出分布的静态属性。我们转而研究令牌级不确定性信号如何沿推理轨迹演变，并表明它们的预测能力是非均匀的。

#### 自一致性作为失败检测基线。

验证LLM推理的主要基线是自一致性：对多个思维链进行采样并取多数投票答案 (Wang et al., 2023 (https://arxiv.org/html/2606.06635#bib.bib3))；语义熵同样需要重复采样 (Farquhar et al., 2024 (https://arxiv.org/html/2606.06635#bib.bib20))。这些多完成方法在模型不确定性表现为样本间分歧时是有效的，但它们在结构上对我们识别的承诺性失败机制视而不见：当模型在推理轨迹早期承诺了错误推理路径时，它会在多次完成中一致地产生相同错误答案，自一致性无法区分这些情况与真正正确的情况。我们的令牌级不确定性信号与自一致性互补，并且仅需单次完成即可操作。

#### CoT忠实性。

思维链提示 (Wei et al., 2022 (https://arxiv.org/html/2606.06635#bib.bib1); Kojima et al., 2022 (https://arxiv.org/html/2606.06635#bib.bib19)) 引出逐步推理轨迹并显著提升多步性能。可见的CoT与模型内部计算之间的关系存在争议 (Lanham et al., 2023 (https://arxiv.org/html/2606.06635#bib.bib21); Turpin et al., 2023 (https://arxiv.org/html/2606.06635#bib.bib22); Young, 2026 (https://arxiv.org/html/2606.06635#bib.bib23))。

我们分析了在标准零样本提示下生成的CoT轨迹；这些轨迹是否忠实反映内部计算与我们的经验主张正交，我们的主张关注可见轨迹中可观察的结构。

#### 轨迹级结构。

最近的工作描述了推理轨迹中与失败相关的结构。轨迹长度本身是一个置信度估计器，其与准确性的关系因推理后训练而改变 (Device et al., 2025 (https://arxiv.org/html/2606.06635#bib.bib2))，并且CoT长度与问题复杂性之间的相关性脆弱，源于对训练分布的近似回忆而非自适应计算 (Palod et al., 2025 (https://arxiv.org/html/2606.06635#bib.bib18))。在步骤层面，跨推理步骤的熵轨迹形状已被认为比其标量幅度更具诊断性 (Zhao, 2026 (https://arxiv.org/html/2606.06635#bib.bib17))。我们在两个方面有所不同。首先，我们通过一个最终前分析明确控制长度混淆，该分析剥离答案标记后的令牌。其次，我们在令牌级别上对累积前缀窗口进行操作，而不是在步骤层面，发现幅度特征比形状本身携带更多预测信号。

#### 关于早期承诺的并行工作。

一个并行的研究方向已通过多种方法学视角将早期承诺确立为LLM推理中的公认现象。对大型推理模型的激活探测显示，最终答案在口头表达之前就可以从内部激活中解码 (Boppana et al., 2026 (https://arxiv.org/html/2606.06635#bib.bib14))；反事实破坏识别出链长70-85%处的推理视界 (Ye et al., 2026 (https://arxiv.org/html/2606.06635#bib.bib24))；重采样识别出具有非均匀重要性的分叉令牌 (Bigelow et al., 2025 (https://arxiv.org/html/2606.06635#bib.bib15))；激活干预在承诺前最有效 (Zur et al., 2025 (https://arxiv.org/html/2606.06635#bib.bib16))。我们从三个轴补充了这一研究方向。首先，我们仅从对数概率中提取令牌级不确定性信号进行操作，不需要模型权重、反事实干预或重复采样。这种方法使得该方法可在对数概率约束下部署于封闭API模型，正如我们在GPT-4o和Gemini-2.5Pro上展示的那样。其次，我们表征了两种性质不同的失败模式：承诺性和持续性，并在23个（模型，数据集）配置上进行了双向统计验证。第三，我们将分析扩展到标准推理模式CoT模型，补充了该方向先前工作中对推理模型的关注。

## 3 方法

语言模型的思维链揭示了它如何产生最终答案，并且在校准良好的情况下，应该能提供关于该答案是否错误的信息（图1 (https://arxiv.org/html/2606.06635#S1.F1)）。我们分析推理轨迹上的令牌级不确定性信号，以表征模型失败的结构。

### 3.1 LLM推理中的失败模式

我们将模型失败定义为模型中最终提取的答案不正确的任何轨迹。如果模型推理的结构决定了最终的失败，那么跨该轨迹的令牌级信号的进程应该表征失败如何以及何时发生。

我们提出这种进程采用两种性质不同的形式之一。在第一种失败模式，*承诺性失败*中，模型在推理轨迹早期就锁定了一个错误的推理路径。失败变得明显的时间早于模型推理的过程，其不确定性信号在轨迹前缀上比在完整序列上信息量更大。在第二种，*持续不确定性*中，模型从未承诺一个推理路径。不确定性在整个轨迹中单调累积，需要完整的推理路径来区分失败的轨迹和成功的轨迹。这两种模式在不确定性如何跨推理轨迹发展方面产生性质不同的特征，我们将形式化并经验检验这些特征。

### 3.2 承诺点

如果模型早期锁定推理路径，很可能存在一个可以观察到这一点的令牌位置。我们将该位置定义为承诺点：推理轨迹中不确定性信号对模型失败信息量最大的点。

超过承诺点后，模型已经选择了推理路径，后续的不确定性是下游噪音而非关于最终结果的信号。在持续不确定性机制中，不存在这样的承诺点，因为预测能力单调增加，完整轨迹比任何前缀都更具信息量。

### 3.3 不确定性特征

如果模型已经锁定了推理路径，其令牌分布应反映其减少的不确定性，因为模型不再探索多条路径。为了揭示这些失败模式，我们计算推理轨迹前缀上的以下信号，下面将其形式化为早期窗口。

令 \(p^{(t)} = (p_1^{(t)}, p_2^{(t)}, \ldots)\) 表示位置 \(t\) 的令牌概率分布，其中 \(p_{(1)}^{(t)} \geq p_{(2)}^{(t)} \geq \cdots\) 是排序后的概率。对于长度为 \(L\) 的推理轨迹，我们定义早期窗口 \(\mathcal{W}_T = \{1, \ldots, \min(T, L)\}\) 并计算每个令牌位置 \(t\) 处的以下不确定性信号。

熵：顶部-\(K\) 分布的离散度 (Kadavath et al., 2022 (https://arxiv.org/html/2606.06635#bib.bib13))：\(\mathcal{H}_t = -\sum_i p_i^{(t)} \log p_i^{(t)}\)

边际：顶部两个概率之间的差值 (Scheffer et al., 2001 (https://arxiv.org/html/2606.06635#bib.bib25))：\(\mathcal{M}_t = p_{(1)}^{(t)} - p_{(2)}^{(t)}\)

负对数似然：顶部令牌的置信度：\(\mathcal{L}_t = -\log p_{(1)}^{(t)}\)

核集：捕获概率阈值 0.9 所需的令牌数 (Holtzman et al., 2020 (https://arxiv.org/html/2606.06635#bib.bib26))：\(\mathcal{N}_t = \min\{k: \sum_{i=1}^k p_{(i)}^{(t)} \geq 0.9\}\)

近持平：顶部-\(K\) 中在 \(p_{(1)}^{(t)}\) 的 90% 以内的比例：\(\mathcal{T}_t = \frac{1}{K} \sum_{i=1}^K \mathbb{1}[p_{(i)}^{(t)} \geq 0.9 \cdot p_{(1)}^{(t)}]\)

语言模型如何失败：承诺性与持续性推理失败的词元级特征

相似文章

量化LLM推理中的无声失败：基于分类法的空洞收敛与失败模式转变分析

脆弱的思考：大型语言模型如何处理思维链扰动

指令层级失效之处：诊断与修复推理语言模型中的故障

@rohanpaul_ai: 非常有趣的工作——语言模型不仅会在输出表面产生不良结果；它们还会经历内部状态…

当思维链更明智时：多轮推理模型中的失败模式

提交意见反馈