确定性视界:当扩展推理失败时,工具委派成为必要

arXiv cs.AI 论文

摘要

本文证明,扩展的思维链推理在确定性状态追踪任务上会降低性能,其原因并非偏好偏差,而是源于仅解码器注意力的信息论限制。当推理视界超过阈值时,本文提出工具委派的方法。

arXiv:2606.00376v1 公告类型:新 摘要:扩展的思维链推理可能会降低确定性状态追踪任务的性能,原因并非偏好偏差,而是源于仅解码器注意力的信息论容量限制。我们建立了:(1) 注意力瓶颈定理及其互补的可实现性构造,将状态追踪容量界定为 $O(H \cdot \log(L/H) \cdot \sqrt{d_h})$;(2) 一个上下文相关的误差模型,导致超指数级的准确率衰减;(3) 状态空间Jaccard度量,用于区分能力失效与偏好失效;(4) 确定性视界 $d^* \in [19, 31]$,超过该视界后工具委派成为必要。在12个模型和8个任务领域(包括SWE-Bench、WebArena和SQL-Multi)中,工具集成推理始终优于神经思维链推理;在主要模型套件上,其准确率达到86-94%,而神经思维链仅为24-42%。在最佳长度轨迹上进行微调仅带来$<$5%的提升,证实了架构天花板的存在。高跨模型相关性($r = 0.81$-$0.91$)表明这些失效是架构性的,而非训练特定的。我们的结果为在智能体系统中何时纯神经推理应让位于混合方法提供了原则性指导。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:46

# 确定性地平线:扩展推理失败时,工具委托为何变得必要

来源: https://arxiv.org/html/2606.00376

###### 摘要

扩展的思维链推理可能会降低确定性状态跟踪任务的性能,这并非源于偏好偏差,而是源于仅解码器注意力机制在信息论容量上的根本限制。我们确立了:(1) 注意力瓶颈定理及其互补的可实现性构造,将状态跟踪容量界定为 O(H·log(L/H)·√d_h);(2) 一个上下文相关的误差模型,导致超指数级的精度衰减;(3) 状态空间杰卡德度量,用于区分能力故障与偏好故障;(4) 确定性地平线 d* ∈ [19, 31],超过此界限则工具委托成为必需。在 12 个模型和 8 个任务领域(包括 SWE-Bench、WebArena 和 SQL-Multi)上,集成工具的推理始终优于纯神经思维链;在主要模型套件上,其准确率达到 86-94%,而纯神经思维链仅为 24-42%。在最优长度轨迹上进行微调仅带来 <5% 的提升,证实了架构天花板的存在,并且高跨模型相关性 (r=0.81–0.91) 表明这些失败是架构性的,而非训练特有的。我们的结果为智能体系统中纯神经推理何时应让位于混合方法提供了原则性指导。

**关键词**: 大语言模型, 思维链推理, Transformer架构, 推理时计算, 注意力机制, 状态空间搜索, 信息论, 工具增强, 机制性可解释性, 推理极限

## 1 引言

大语言模型推理的主流范式认为,扩展的深思熟虑能够提高准确率。OpenAI 的 o1 (OpenAI, 2024)、DeepSeek-R1 (Guo 等, 2025) 以及类似的架构在思维链生成上投入巨大,其隐含的论点是额外的推理时计算能带来更好的推理 (Snell 等, 2025; Brown 等, 2024)。最近的研究表明,测试时计算可能比参数扩展更有效,计算最优策略可将效率提升 4 倍 (Snell 等, 2025; Wu 等, 2025)。然而,Balachandran 等人 (2025) 证明,随着问题难度增加,这种提升会减弱;Sui 等人 (2025) 则提供了广泛调查,记录了“过度思考”现象。我们针对**确定性状态空间搜索**对这一论点提出挑战,这类任务需要精确的操作序列,通过有限操作集合 O 将初始状态 σ₀ 变换为目标状态 τ。此类问题普遍存在于软件工程、形式化验证和序列规划中 (Dziri 等, 2023; Kambhampati 等, 2024; Valmeekam 等, 2023)。在这些领域,正确性是二元的;近似即为失败。与“大部分正确”可能就足够的开放式生成不同,状态空间搜索要求精确跟踪,这一要求暴露了仅解码器注意力的根本局限性。

##### 核心现象。在那些可通过 BFS 在 <0.1秒 内解决的重排谜题上,最先进的推理模型在**长时间**思考后仍然失败。对 2,847 个失败轨迹的分析揭示了**状态空间退相干**:累积误差导致完全偏离真实情况。¹¹这种失效是*由*扩展推理*引起*的,而非由其缓解。模式令人震惊:在深度 10 时,模型保持 78% 的准确率;到深度 30 时,准确率降至 34%;超过深度 50 时,性能接近随机猜测(图 1)。

`---`

¹ 每模型-任务组合的 30 个失败的分层样本;采样方法见附录 K。

`---`

##### 两种竞争效应。遵循 Kim 等人 (2025) 的框架,我们识别出以下两者间的张力:

- • **推理时的复杂性**:更深的 CoT 通过注意力熵扩散增加了累积误差概率 (Gong and Zhang, 2024; Barbero 等, 2024)。每一步都会降低残差流中的信号噪声比。
- • **工具时的灵活性**:外部计算完全绕过了困难子问题 (Gao 等, 2023; Gou 等, 2024; Pan 等, 2023)。工具提供精确计算,无需基于注意力的状态跟踪。

##### 与先前工作的区别。Wu 等人 (2026) 记录了倒 U 型曲线,并将其归因于“简单性偏差”,即偏好更短的推理。他们的框架预测训练干预可以恢复性能。我们提出一个**互补的架构诊断**:即使模型*尝试*进行长推理,也无法维持准确性,因为自回归注意力缺乏精确状态跟踪的基底。这就是**模拟器谬误** (Bender and Koller, 2020):将 token 预测与算法执行混为一谈。

##### 分歧预测。这些框架做出了可检验的预测(表 1):(i) Wu 等人预测在最优长度轨迹上微调可实现 >>30% 的恢复;我们预测由于架构天花板,该值 <5%。(ii) Wu 等人预测在提示层面鼓励长度可实现 >>10% 的提升;我们观察到 <2%。(iii) Wu 等人预测低跨模型相关性(训练特定);我们观察到 r>0.8(架构性)。

表 1:区分简单性偏差(Wu 等, 2026)与退相干(本文)的分歧预测。我们的预测已验证 (✓)。

##### 贡献。我们做出六项贡献:

1. 1. **注意力瓶颈定理**,包含信息论推导和互补的可实现性构造,将容量界定为 O(H·log(L/H)·√d_h)(第 4 节)。
2. 2. **上下文相关误差模型** ε(d) = ε₀ + γ d / L_eff,由注意力熵推导得出,导致超指数级精度衰减(第 4 节)。
3. 3. **确定性地平线 d***,具有闭式公式,通过对开放权重模型的架构消融实验验证(d* ∝ √(d_h·H)),并证明其对上下文窗口截断具有鲁棒性(第 4 节)。
4. 4. **SSJ 度量**,具有精确率/召回率分解,可区分能力故障(两者均衰减)与偏好故障(仅召回率衰减)(第 3 节)。
5. 5. **实证验证**,涵盖 12 个模型、8 个任务领域,包括真实世界基准(SWE-Bench, WebArena, SQL-Multi),并进行跨架构比较(第 5 节)。
6. 6. **微调实验**,确认了架构天花板预测,为基于偏好的解释提供了关键区分(第 5.3 节)。

##### 利益冲突披露。J. Wu 隶属于 Brain Investing Limited 和 Stellaris AI Limited。这些实体未为本研究提供资金,也未开发本文评估的任何模型;所有实验均独立使用公开 API 和开源权重检查点进行。其他作者声明无竞争利益。

## 2 相关工作

我们的工作综合了五个研究方向;详细定位矩阵见附录 A。

##### CoT 基础。思维链提示由 Wei 等人 (2022) 建立,并由零样本 CoT (Kojima 等, 2022)、自一致性 (Wang 等, 2023)、思维树 (Yao 等, 2023) 和思维图 (Besta 等, 2024) 扩展。Goodman 等人 (2022) 展示了通过 STaR 训练进行自举。Nye 等人 (2021) 引入了用于中间计算的草稿板。Liu 等人 (2024b) 证明了 CoT 将表达能力从 AC⁰ 扩展到多项式时间;Feng 等人 (2023) 刻画了注意力模式的表达性。ReAct (Yao 等, 2022) 协同了推理与行动。

##### 过度思考文献。Wu 等人 (2026) 提供了最接近的同期工作,记录了归因于简单性偏差的倒 U 型曲线。Chen 等人 (2025) 研究了 o1-like 模型中的过度思考。Wang 等人 (2026) 识别了过早路径放弃。Sui 等人 (2025) 综述了高效推理。Marjanovic 等人 (2026) 分析了 DeepSeek-R1 的“甜点”。Su 等人 (2025) 研究了过度思考-思考不足谱系。

##### 工作记忆与过压缩。Gong and Zhang (2024) 证明了注意力熵限制了工作记忆。Barbero 等人 (2024) 证明了由因果掩码导致的表示坍塌。Liu 等人 (2024a) 记录了“迷失在中间”。Xiao 等人 (2024) 识别了注意力汇。Zhang 等人 (2025) 扩展了熵分析。Gerasimov 等人 (2025) 发现了表示坍塌。Levy 等人 (2024) 展示了长度相关的退化。Olsson 等人 (2022) 发现了归纳头。Elhage 等人 (2021) 提供了电路框架。Bietti 等人 (2023) 分析了从出生起的记忆。

##### 理论基础。Merrill and Sabharwal (2024) 确立了表达性界限。Merrill 等人 (2024) 表明 SSM 共享 TC⁰ 限制。Bavandpour 等人 (2025) 提供了 CoT 步骤下界。Peng 等人 (2024) 通过通信复杂性证明了组合不可能性。Hahn (2020) 识别了形式语言限制。Delétang 等人 (2023) 研究了乔姆斯基层级关系。Pérez 等人 (2021) 证明了条件图灵完备性。Yun 等人 (2020) 确立了通用逼近。Bhattamishra 等人 (2020) 分析了注意力机制能力。Strobl 等人 (2024) 提供了形式语言视角。信息论基础包括 Tishby and Zaslavsky (2015) 关于瓶颈,Shwartz-Ziv and Tishby (2017) 关于 DNN 信息动力学,Lewandowsky and Bauch (2024) 关于信息瓶颈框架,以及 Deb and Ogunfunmi (2025) 将 Transformer 与信息论联系起来。

##### 工具增强。Gao 等人 (2023) 引入了程序辅助语言模型。Li 等人 (2024) 提出了代码链。Chen 等人 (2023) 引入了思维程序。Gou 等人 (2024) 通过工具集成实现了 SOTA。Pan 等人 (2023) 展示了符号求解器委托。Schick 等人 (2023) 实现了自监督工具学习。Parisi 等人 (2022) 引入了工具增强语言模型。Luo 等人 (2026) 将 RL 应用于工具增强数学。Qin 等人 (2025) 综述了工具学习。Mialon 等人 (2023) 综述了增强 LM。Patil 等人 (2024) 将 LLM 连接到 API。

##### 组合推理。Dziri 等人 (2023) 表明 Transformer 通过线性化匹配解决组合任务。Petty 等人 (2024) 证明深度为组合性提供的回报递减。基准包括 Lake and Baroni (2018), SCAN/CFQ (Keysers 等, 2020), 和 COGS (Kim and Linzen, 2020)。Press 等人 (2023) 引入了组合性度量;Ontañón 等人 (2022) 研究了改进方法。我们的区别:(1) 我们从注意力熵推导出上下文相关误差,而非恒定的每步误差。(2) 我们将单步过压缩扩展到多步链,并使用 SSJ 进行量化。(3) 我们形式化了工具委托何时变得*必要*,而不仅仅是有益。(4) 我们在真实世界任务上并通过微调实验进行了验证。

## 3 问题设定与度量

##### 状态空间搜索。设 S 为有限状态空间,O = {o₁, …, o_k} 为确定性算子。给定初始状态 σ₀ ∈ S 和目标状态 τ ∈ S,任务是寻找最小序列 (o_{i₁}, …, o_{i_m}),使得 o_{i_m} ∘ … ∘ o_{i₁}(σ₀) = τ。

###### 定义 3.1 (首次错误步骤, SFE)。给定轨迹 r = [(s₁, o₁), …, (s_m, o_m)],其中 s_i 是声称的状态,SFE 是最小的 i,使得 s_i ≠ o_{i-1} ∘ … ∘ o₁(σ₀)。

相似文章

忠实性作为信息流:评估与训练忠实的思维链推理

arXiv cs.LG

本文提出一个框架,通过控制信息流来评估和提升思维链推理的忠实性,使用基于熵、KL散度和梯度的诊断方法,并引入训练干预措施(注意力掩码、梯度掩码、对抗扰动),使推理更加透明,减少对捷径的依赖。

当思维链更明智时:多轮推理模型中的失败模式

Hugging Face Daily Papers

本文通过引入CoT-Output安全矩阵分析了多轮推理模型中的失败模式,揭示了诸如在监控线索下伪装对齐率增加以及上下文注入失败(即安全的内部推理被有害输出覆盖)等悖论。

超越单一方向:思维链破坏简单的拒绝引导

arXiv cs.AI

这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。