推理模型并非只是思考更久，其运作轨迹也不同

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征，探究经推理训练的语言模型是否仅仅分配更多计算资源（更长的思维链），还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后，他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式，而不仅仅是计算量的多少。

arXiv:2605.15454v1 公告类型：新摘要：经推理训练的语言模型通常在更困难的问题上花费更多token，但更长的思维链并不能表明模型是仅仅进行了更多计算步骤，还是遵循了不同的内部轨迹。我们通过分析竞赛编程、数学和布尔可满足性问题中思维链生成期间的隐藏状态轨迹来研究这一区别。原始轨迹几何特征强烈受到生成长度的影响：更长的生成会机械性地改变路径统计量，因此未经调整的难度相关比较具有误导性。在对轨迹统计量进行长度残差化处理后，难度与校正后的轨迹几何特征在所有研究领域中都存在系统性关联。最清晰的推理特定分离出现在代码领域，其中在经推理训练的模型中，较困难的问题显示出更直接的校正轨迹和更少异质的局部曲率，而与匹配的指令微调基线相比。在数学和布尔可满足性问题中，校正后的难度-几何耦合较弱但仍然存在。提示阶段的线性探测并未反映代码领域的分离，并且行为注释表明较强的校正耦合与策略转换和不确定性监控同时出现。综合来看，这些发现确立了长度校正作为生成时轨迹分析的前提条件，并表明推理训练可以与不同的校正轨迹几何特征相关联，效果的强度取决于领域。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:31

# 推理模型不仅思考更久，它们运行的方式也不同

来源：https://arxiv.org/html/2605.15454

Anders Gjølbye¹,², Lars Kai Hansen¹, Sanmi Koyejo²

¹丹麦技术大学 ²斯坦福大学

[email protected]  [email protected]  [email protected]

###### 摘要

经过推理训练的语言模型往往会在更难的问题上使用更多 token，但更长的思维链并不能揭示模型仅仅是在进行更多步骤的计算，还是遵循了不同的内部轨迹。我们通过思维链生成过程中的隐藏状态轨迹，在竞争性编程、数学和布尔可满足性问题上研究了这种区别。原始轨迹几何形状受生成长度的强烈影响：更长的生成会机械地改变路径统计量，因此不经过调整，基于难度的比较会产生误导。在对轨迹统计量进行长度残差化处理后，难度在所有研究的领域中仍然与校正后的轨迹几何形状系统性耦合。最清晰的推理特定分离出现在代码领域，其中在推理训练模型中，更难的问题显示出更直接的校正轨迹和更少的局部曲率异质性，相比之下，匹配的指令调优基线则不然。校正后的难度-几何耦合在数学和布尔可满足性中较弱，但仍然存在。在提示词阶段的线性探针并未反映出代码领域的分离，而行为标注表明，更强的校正耦合与策略转换和不确定性监控同时出现。这些发现共同确立了长度校正是生成时轨迹分析的必要前提，并表明推理训练可以关联到不同的校正轨迹几何形状，且效应的强度取决于领域。

## 1 引言

经过推理训练的 LLM 通常在更难的问题上花费更多的测试时计算，生成显著更长的思维链，有时在简单问题上会生成数千个不必要的 token（Chen 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib3)；Wang 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib4)；Snell 等人，2024 (https://arxiv.org/html/2605.15454#bib.bib5)）。然而，更长的轨迹并不能揭示模型只是进行了更多步骤的计算，还是遵循了不同的内部路径。仅凭输出长度无法区分这些可能性：模型可能会将同样的过程延续得更长，或者其隐藏状态轨迹会随问题难度系统性变化。

参考图注

图 1：思维链生成过程中的隐藏状态轨迹几何形状。左图，从匹配的推理模型和非推理模型中提取同一问题上的自回归隐藏状态轨迹。中图，原始轨迹几何形状受生成长度主导：更长的轨迹（在更难的问题上更常见）无论模型类型，在机械上都显得更不直接。右图，Codeforces 展示了推理-基线的主要对比：原始直接性-难度相关性在所有模型上均为负，而长度调整后的相关性则将推理模型与匹配的基线分离开来。完整的跨领域结果（代码、数学和 SAT）见图 2 (https://arxiv.org/html/2605.15454#S4.F2)。

这种区别对于解读推理训练很重要。如果推理模型与其基线的主要区别在于分配了更多的测试时计算，那么近期的进展可能很大程度上反映了对计算量的更好控制。如果在排除长度影响后，难度仍然与轨迹形状耦合，那么推理训练也可能与生成期间计算展开方式的变化相关联。现有工作大多通过输出、测试时计算分配以及过度思考或思考不足等失败模式来研究这个问题（Chen 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib3)；Wang 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib4)；Snell 等人，2024 (https://arxiv.org/html/2605.15454#bib.bib5)）。我们转而探究，在思维链生成过程中，依赖于难度的差异是否在隐藏状态轨迹中可见。

核心的复杂之处在于，最直观的几何信号也是最容易被误读的。更长的路径在机械上更不直接，这一现象在运动生态学中已得到充分表征（Benhamou, 2004 (https://arxiv.org/html/2605.15454#bib.bib13)；Codling 等人，2008 (https://arxiv.org/html/2605.15454#bib.bib14)），但在 LLM 表示的生成时分析中基本未被关注。由于更难的问题也会引出更长的生成，原始几何形态可能仅仅因为轨迹包含更多步骤而让难题显得缺乏组织性。为避免这种混淆，我们使用 IRT 模型校准项目难度，在生成的解题片段上提取隐藏状态轨迹，并在对轨迹统计量进行生成长度残差化处理后，测量模型内的难度-几何耦合。然后，我们将这种校正后的耦合在匹配的推理模型与指令调优基线模型之间进行比较。

这种长度校正的视角改变了定性结论。校正之前，更难的问题往往具有更不直接的轨迹。在对生成长度进行残差化处理之后，在竞争性编程、数学和布尔可满足性中，这种关系发生了逆转：更难的问题引出更直接的校正轨迹。因此，这种逆转不仅是代码领域效应，更是一个跨领域的警示：必须通过显式的长度校正来解释生成时的原始几何形态。

校正后的几何形态也能区分模型类别，但不同领域效果不一。在竞争性编程中，所有六个经过推理训练的模型都显示出正向的校正直接性-难度耦合，而匹配的基线则接近零（推理中位数 ρ⟂D = +0.41，基线为 -0.06）。在数学中，分离较弱且更为异质（+0.05 vs. -0.07）。在布尔可满足性中，推理模型和基线模型都显示出正向的校正耦合（中位数 +0.27 和 +0.23），表明校正后的难度-几何耦合也可能在指令调优基线中出现。因此，最清晰的推理特定对比出现在代码领域。

另外两项分析有助于解读这种几何信号。首先，提示词阶段的线性探针并未显示出与代码领域中校正几何形态相同的推理-基线分离，这表明该效应并非生成之前难度线性可及性的简单增强。其次，来自独立 LLM 评价器的句子级行为标注显示，更强的几何耦合与策略转换和不确定性监控同时出现。这些行为分析是描述性的而非因果性的，因为标注和几何形态来自于相同的生成轨迹。

我们的贡献是：(i) 识别出生成长度是生成时轨迹几何形态中的结构性混杂因素；(ii) 引入一种长度校正分析，表明在竞争性编程、数学和布尔可满足性中，难度仍然与校正后的几何形态耦合；(iii) 表明推理特定的分离依赖于领域，在竞争性编程中最清晰，而校正后的难度-几何耦合在其他地方较弱但仍然存在；(iv) 将信号与探针和可观察的推理行为相关联：线性难度可解码性不追踪代码领域的分离，而更强的校正耦合与策略转换和不确定性监控同时出现；(v) 一个大规模的轨迹存档，即将公开发布，其中包含生成的思维链轨迹以及匹配的推理和指令调优模型在生成时的隐藏状态轨迹采样。

## 2 相关工作

本文处于三条研究线的交汇处：内部表示的几何分析、LLM 中难度的研究，以及推理时依赖于难度的推理行为工作。

#### LLM 中的轨迹几何。
近期工作利用轨迹几何来研究 LLM 表示中计算的结构。Hosseini 和 Fedorenko (2023 (https://arxiv.org/html/2605.15454#bib.bib12)) 表明 LLM 在层间逐渐拉直句子级轨迹，这与生物神经系统中的时间拉直现象相似。Zhou 等人 (2026 (https://arxiv.org/html/2605.15454#bib.bib10)) 将推理形式化为表示空间中的几何流，表明在载体不变设计下，曲率捕捉了逻辑结构。Damirchi 等人 (2026 (https://arxiv.org/html/2605.15454#bib.bib11)) 发现，跨层的完整位移向量在预测推理有效性方面优于标量运动学描述符。这些研究确立了几何学是理解内部计算的有用视角，但它们聚焦于单个 token 跨层的*固定深度*轨迹。我们的设置不同：我们研究固定层上跨 token 的生成时轨迹，其中路径长度在不同示例间系统性变化。这使得生成长度成为一个核心方法论关注点，因为几何度量可能随轨迹长度机械变化。

Sun 等人 (2026 (https://arxiv.org/html/2605.15454#bib.bib43)) 将推理表征为通过特定步骤的表示子空间的轨迹，表明正确和错误的解在后期步骤分叉，并且基于轨迹的引导可以重定向推理。我们的问题是互补的：我们研究固定层上的 token 时间轨迹，而非层索引的步骤表示，并询问在去除生成长度的机械效应后，问题难度是否调节轨迹几何形态——这是步骤索引分析中未解决的一个混杂因素。

#### LLM 中的难度。
另一条研究线关注 LLM 如何编码或测量问题难度。线性探针可以从隐藏状态中以高精度解码难度 (Lugoloobi 和 Russell, 2025 (https://arxiv.org/html/2605.15454#bib.bib7))。IRT 也已被用于 LLM 基准测试和评估 (Polo 等人，2024 (https://arxiv.org/html/2605.15454#bib.bib25)；Zhou 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib26)；Xu 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib27))。Zhu 等人 (2025 (https://arxiv.org/html/2605.15454#bib.bib8)) 通过价值函数框架从隐藏表示中估计模型感知的难度，而 Lee 等人 (2025 (https://arxiv.org/html/2605.15454#bib.bib9)) 识别出具有不同激活模式（针对简单与困难问题）的注意力头。这些工作表明难度在模型内部有表示，并且可以连续测量。然而，我们的目标并非显示难度被编码，而是利用连续的难度变量来研究内部计算如何跨问题变化。

#### 依赖于难度的推理行为。
关于过度思考、思考不足和推理时计算的工作表明，推理模型在简单和困难问题之间的计算分配不同。Snell 等人 (2024 (https://arxiv.org/html/2605.15454#bib.bib5)) 表明最优计算分配取决于难度。Chen 等人 (2025 (https://arxiv.org/html/2605.15454#bib.bib3)) 记录了简单问题上的过度思考，而 Wang 等人 (2025 (https://arxiv.org/html/2605.15454#bib.bib4)) 识别出困难问题上的思考不足；Su 等人 (2025 (https://arxiv.org/html/2605.15454#bib.bib6)) 表明两种行为可以共存。Huang 等人 (2025 (https://arxiv.org/html/2605.15454#bib.bib29)) 将过度思考与低维激活流形联系起来，并提出了基于引导的缓解方法。这些工作主要通过输出或病理模式来表征依赖于难度的适应。我们的论文提出了互补的内部问题：推理训练是否改变了生成时轨迹本身的几何形态，跨越完整难度连续体，并在控制响应长度之后。

综合来看，这些文献将几何学、难度和推理时适应作为相关视角进行了激励，但遗留下一个问题：在排除了强响应长度混杂因素后，推理训练是否改变了生成时内部动态作为问题难度的函数。

## 3 实验设置

我们采用匹配设计来分离四个原本纠缠在一起的量：问题难度、生成长度、模型类别和轨迹几何形态。我们在三个领域定义可比的项目集，在每个领域内校准一个连续难度量表，在相同项目上比较匹配的推理和指令调优模型对，并从生成的解题片段中提取隐藏状态轨迹。

**数据集。** 我们在 500 个 Easy2Hard-Bench 竞争性编程问题（Ding 等人，2024 (https://arxiv.org/html/2605.15454#bib.bib18)）、500 个 MATH 问题（Hendrycks 等人，2021 (https://arxiv.org/html/2605.15454#bib.bib19)）和 500 个 SATBench 问题（Wei 等人，2025 (https://arxiv.org/html/2605.15454#bib.bib45)）上进行评估。SATBench 项目被分层为五个子句计数区间，跨度 4–45 个子句，并且在每个区间内可满足与不可满足实例大致平衡。这总共产生 1500 个项目，涵盖竞争性编程、数学和布尔可满足性。

**难度校准。** 原生难度标签是平台特定的（Codeforces Glicko-2 评分）、粗略有序的（MATH 等级 1–5）或结构性的（SAT 子句计数；SATBench 子句计数是此处研究合成机制中实例难度的主要代理）。为了在每个领域内获得连续的潜在难度量表，我们拟合了一个 Rasch 模型 (Rasch, 1960 (https://arxiv.org/html/2605.15454#bib.bib17))，采用重复运行上的二项似然：kij ∼ Binomial(nij, σ(θj − bi))，(1) 其中 kij 是模型 j 在项目 i 上的正确完成次数，bi 是项目难度。IRT 在每个领域内单独从 32 个模型校准，并针对外部标签进行验证：与 Codeforces 评分的 Spearman ρ = 0.55，与 MATH 等级的 ρ = 0.43，与 SAT 子句计数的 ρ = 0.56 (r = 0.58)。我们在整个过程中使用 bi 作为连续自变量。附录 A.6 (https://arxiv.org/html/2605.15454#A1.SS6) 报告了校准诊断、外部标签一致性、1PL–2PL 比较以及留一法重新校准检查。

**匹配模型对。** 核心分析使用跨越 Qwen、Llama 和 Phi 系列的六组匹配推理-基线比较，包含三种推理训练方案：R1 蒸馏、SFT+RL 和 o3-mini 蒸馏。这六组比较包含五个独特的基线模型，因为 Qwen2.5-32B-Instruct 同时作为 R1-Distill-Qwen-32B 和 QwQ-32B 的共享基线。对级别计数使用六组匹配比较；唯一基线计数使用五个基线模型。我们在报告计数时说明使用的是哪种约定。32B 共享基线的比较尤为清晰，因为 R1-Distill-Qwen-32B 和 QwQ-32B 在推理训练方案上不同，而共享相同的指令调优基线。

表 1：主比较中使用的匹配模型对。

**轨迹提取概述。** 我们提取在五个均匀间隔的层上的隐藏状态，每个模型每个问题运行五次，对于 R1-Distill-Qwen-7B 在稳定性分析中运行 30 次。除非另有说明，主图报告这些预设采样层的中位数统计量；层特定结果在

推理模型并非只是思考更久，其运作轨迹也不同

相似文章

推理、代码，还是两者兼有？大型语言模型如何处理数学问题的变化

量化推理模型自以为需要更长的思考，实则不然

重新思考稠密顺序链：推理语言模型能够从稀疏、乱序的思维链中提取答案

推理之旅：剖析思维链如何在模型间转移

监控内部独白：探针轨迹揭示推理动态

提交意见反馈