大语言模型何时进行推理?基于熵相变的动力系统视角

arXiv cs.LG 论文

摘要

本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。

arXiv:2605.22873v1 Announce Type: new 摘要:思维链(Chain-of-thought, CoT)推理已成为增强大语言模型能力的默认策略,但其应用提出了一个基本问题:何时显式推理真正有益?经验证据揭示了一个显著悖论:CoT在事实性和开放式任务上往往只能带来微小的增益甚至负增益,同时却成倍增加token消耗。在本文中,我们表明大语言模型推理并非任务或模型的静态属性,而是生成过程中涌现的\emph{动态解码状态}。通过系统分析,我们发现早期熵动力学能够可靠地指示这一状态:从CoT中受益的任务表现出一致的熵降低,而其他任务则呈现不稳定或上升的模式。这一行为可以解释为从高熵探索状态到低熵结构推理状态的类相变转变。基于这些见解,我们提出 \textbf{EDRM} (基于熵动力学的推理流形,Entropy Dynamics-based Reasoning Manifold),一个轻量级且无需训练的路由框架,利用早期解码熵自适应选择推理策略。EDRM将熵轨迹嵌入到一个紧凑且可解释的流形表示中,实现了零样本部署和细粒度实例级自适应。在15个基准测试和4种不同规模与架构的大语言模型上,EDRM始终优于静态基线。在数据集层面,EDRM仅需50个校准样本即可实现 \textbf{41--55\%}的token缩减,同时提升准确率。在实例层面,它进一步将准确率提升高达 \textbf{4.7\%},同时保持 \textbf{27--45\%}的token节省。这些结果表明,推理应选择性调用而非默认使用,并展示了熵驱动的解码控制对于高效且自适应的大语言模型推理的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:55

# 大语言模型何时进行推理?基于熵相变的动力系统视角  
来源:https://arxiv.org/html/2605.22873  

Wei Xia²,¹, Haoqing Wang¹, Yehui Tang¹ 和 Zhi-Hong Deng²✉  
¹ 三星中国研究院,北京  
² 北京大学智能科学与技术学院,通用人工智能国家重点实验室  
[email protected], [email protected]  
{haoqing.wang, yehui.tang}@samsung.com  
✉ 通讯作者  

###### 摘要  

思维链(CoT)推理已成为增强大语言模型能力的默认策略,然而其应用引发了一个根本性问题:显式推理何时真正有益?实证发现揭示了一个惊人的悖论:CoT 在事实性和开放式任务上往往带来边际甚至负面的收益,同时却成倍增加 token 消耗。在这项工作中,我们表明 LLM 推理并非任务或模型的静态属性,而是一种在生成过程中涌现的**动态解码状态**。通过系统分析,我们发现早期熵动态为此状态提供了可靠的信号:从 CoT 中受益的任务表现出持续的熵下降,而其他任务则呈现不稳定或上升的模式。这种行为可以解释为从高熵探索状态到低熵结构推理状态的类似相变的转变。基于这些洞察,我们提出了 **EDRM**(基于熵动态的推理流形),一种轻量级且无需训练的推理路由框架,利用早期解码熵自适应选择推理策略。EDRM 将熵轨迹嵌入到紧凑且可解释的流形表示中,支持零样本部署和细粒度的实例级自适应。在 15 个基准测试和 4 个不同规模与架构的 LLM 上,EDRM 始终优于静态基线。在数据集层面,EDRM 在仅用 50 个校准样本的情况下,实现了 41–55% 的 token 减少,同时提升了准确率。在实例层面,它进一步将准确率提高了最多 4.7%,同时保持 27–45% 的 token 节省。这些结果表明,推理应有选择性地调用,而非默认使用,并展示了熵驱动解码控制对于高效且自适应的 LLM 推理的有效性。  

## 1 引言  

思维链(CoT)推理已成为从大语言模型中引出复杂推理能力的强大范式。然而,越来越多的证据揭示了一个惊人的悖论:正是这种解锁多步问题解决的机制,却可能损害需要直接回忆或流畅生成的任务的表现(Liu et al., 2024; 2025)。这种不对称性带来了实际难题:尽管 CoT 的收益高度依赖于任务类型、模型能力甚至单个查询特征,但它越来越多地被作为默认策略部署。由此导致的低效率是显著的:token 成本膨胀、延迟增加,以及在扩展生成范围内的误差传播。更根本的是,这引出了一个问题:**模型何时应进行显式推理,以及如何在推理时可靠地做出这个决策?**  

理解推理何时有帮助,需要回答两个初步问题:推理是一种静态能力还是一个动态过程(Kim et al., 2024; Li et al., 2024; Zhao, 2026),以及它的效用是任务固有的,还是由模型与问题复杂性共同决定的(Sprague et al., 2024b; Ding et al., 2025)。先前的工作(Sui et al., 2025; Su et al., 2025)探讨了这两个维度,并提出了自适应调用 CoT 的路由和干预策略。但它们通常依赖于离线分析或繁重的 token 级修改,缺乏推理时可用的可靠实例级信号。  

在这项工作中,我们将推理视为一种**动态解码状态**,它源于特定模型与查询之间的交互。关键在于,这种状态不能直接从输入观察,而是在生成过程中展开。这一概念转变引出了一个自然的问题:早期解码动态能否为后续推理提供可靠信号?我们通过 token 级熵(量化模型下一个 token 分布的不确定性)的视角来研究这一点。我们的分析表明,早期熵动态为此隐含状态提供了轻量级且可靠的信号。我们观察到,从 CoT 中受益的任务表现出持续的熵下降模式,而低增益任务则呈现不稳定或上升的熵轨迹。这些不同的动态甚至在同一个模型下也会出现,表明推理并非固定属性,而是一种依赖于模型-任务对的涌现行为。有趣的是,这种行为表现出类似于**相变**的特征:当显式推理变得有益时,解码过程从高熵探索状态转变为低熵结构推理状态。这一视角表明,推理并非二元能力,而是模型生成动态中可控的转变。  

基于这一观察,我们提出了 **EDRM**(基于熵动态的推理流形),一种无需训练的推理路由框架,利用早期解码熵实现实例自适应推理。EDRM 将熵轨迹嵌入到紧凑的流形空间中,允许模型即时选择合适的推理策略。在 15 个基准测试和 4 个 LLM 上,EDRM 在保持或提升 LLM 模型准确率的同时,将 token 使用量减少了 27–55%。  

**贡献:**  
1. 我们将 LLM 推理概念化为一种**动态解码状态**,并将其涌现进一步解释为熵动态中的**类相变转变**,为显式推理何时有益提供了原则性视角。  
2. 我们引入了 **EDRM**,一个简单而有效的框架,通过基于熵的路由实现无需训练、实例级的自适应推理。  
3. 我们在多种模型和基准测试上展示了效率和准确率的一致提升,突显了熵驱动解码控制的实际潜力。  

## 2 相关工作  

##### LLM 推理的静态观点 vs. 动态观点  
关于 LLM 推理的研究沿着两种范式发展。静态观点将推理视为模型或任务的固定属性:机制可解释性识别出稳定的神经回路(如推理头/电路)作为底层机制(Kim et al., 2024; Conmy et al., 2023),而 CoT 被定义为通过提示解锁的静态能力(Li et al., 2024; Wang and Zhou, 2024),忽略了生成动态。相反,动态观点将推理建模为解码过程中条件性的、涌现的状态:语义熵作为幻觉风险指标(Farquhar et al., 2024),单调熵衰减表明可靠推理,而振荡则预测失败(Zhao, 2026; Zhu et al., 2026),从而启发熵感知解码和自适应注入(Su et al., 2025; Jin et al., 2025; He et al., 2026)。近期工作还通过深度思考 token 量化推理努力(Chen et al., 2026),并通过激活模式区分推理与回忆(Fartale et al., 2025)。  

##### 任务中心 vs. 任务-模型共依赖  
早期工作采用任务中心视角,将推理效用仅归因于任务类型——对数学推理有益,但对事实检索有限甚至有害(Sprague et al., 2024b; Liu et al., 2024)。相比之下,近期研究表明推理由任务难度和模型能力共同决定:更强的模型可以直接解决实例,而较弱的模型则需要广泛 CoT。一系列方法通过任务-模型校准将问题复杂度与计算对齐来实现这一观点,包括项目反应理论(Fernandez et al., 2025)、预算感知路由(Ding et al., 2025)、任务自适应适应(Liu et al., 2026),以及扩展到混合推理(Jiang et al., 2025)、混合专家(Fein-Ashley et al., 2025)和任务分解(Shao et al., 2025b,a; Qi et al., 2025)。然而,这些方法依赖于静态离线分析,无法利用实时解码信号调整决策。我们通过基于解码动态的实例级路由解决了这一局限。  

##### 自适应高效推理  
现有自适应方法面临三个核心局限:  
1. **高训练开销**:需要路径引导(Sui et al., 2025)、协同进化路由器(Huang et al., 2026)或合成数据(Liu et al., 2026)的方法,会带来巨大的部署成本并阻碍跨模型泛化。  
2. **复杂的 Token 级干预**:每个 token 的推测解码(Su et al., 2025)、位置特定触发注入(Jin et al., 2025)和实时熵调制(He et al., 2026)引入了操作脆弱性并阻碍无缝集成。  
3. **静态预计算**:如 RADAR(Fernandez et al., 2025)和 BEST-Route(Ding et al., 2025)等方法依赖离线难度分析,无法捕捉实例级动态。  

虽然轻量级熵驱动方法(Sharma and Chopra, 2025; Zhao, 2026; Zhu et al., 2026)和混合专家系统(Jiang et al., 2025; Fein-Ashley et al., 2025)减少了开销,但它们缺乏结构化的推理表示或动态模型-任务耦合。固定 CoT 会导致复合误差(Gan et al., 2025),而测试时扩展理论(Snell et al., 2024)在架构上仍未落地。Token Signature(Liu et al., 2025)与我们的工作最相似,但它仅路由到 CoT 或 Direct。在我们的实验中,EDRM 以较大优势胜出。EDRM 独特地结合了通过熵动态进行的无需训练动态检测和紧凑推理流形,在保持或提升基础模型准确率的同时实现了 27–55% 的 token 减少,而无需架构修改或大量训练。  

图 1:CoT 准确率增益。各模型和任务上 CoT 相对于 Direct 的准确率提升。完整结果见附录 A.2。  
图 2:统一增益热力图。每个单元格显示了在 (\(V_{\text{sp}}/a_{\text{vnr}}, S_H\)) 空间中特定区域内实例的 CoT-Direct 统一增益。  
图 3:熵轨迹:在标准探测下前 N 个 token 的平均 token 级熵。高 CoT 增益任务呈现下降趋势,而低增益任务呈现振荡或上升。  

## 3 方法论  

在本节中,我们首先介绍初步概念,然后介绍我们在探索性研究中关于 LLM 解码动态及其与推理效用关系的观察和见解。最后,我们介绍 EDRM,一个利用早期熵动态自适应路由推理策略以实现高效有效推理的新框架。  

### 3.1 预备知识  

##### 解码范式  
我们在相同的任务描述下考虑三种基本解码范式:  

- **直接**:指示模型直接输出最终答案,无需显式推理步骤。我们通过提示模型直接回答不解释来使用此方式,而对于面向思考的模型,我们需要关闭思考模式以防止过度推理。此范式高效,但可能在需要多步分解的任务上失败。  
- **标准**:指示模型仅凭查询和最小提示来回答查询,以引出其内在推理行为,而对于面向思考的模型,我们仍关闭思考模式。此范式允许模型根据查询动态确定其推理策略,而不强制显式 CoT 或完全抑制推理。我们利用此范式进行后续的探测和流形构建,因为它最能反映模型自然的解码动态,而不受大量干预。  
- **CoT**:指示模型使用 CoT 提示并开启思考模式(如可用)进行显式的逐步推理。此范式鼓励模型将复杂问题分解为中间步骤,作为最高推理强度的方式。虽然可能在复杂任务上提升准确率,但此方法会带来大量 token 开销,并可能在某些任务上损害性能。  

这些范式代表了从最小干预(直接)到强制推理(CoT)的谱系,标准范式处于中间位置,允许模型的内在行为得以显现。关于提示模板和设置的更多细节,请参考附录 B.2。  

##### 自回归生成与 Token 级熵  
考虑一个自回归 LLM,它按顺序生成 token。在每个解码步骤 \(i\),模型在输入上下文和先前生成 token 的条件下,产生一个关于词汇表 \(\mathcal{V}\) 的概率分布 \(p_i\)。步骤 \(i\) 的 **token 级熵**定义为:  

\[
H_i = -\sum_{v \in \mathcal{V}} p_i(v) \log p_i(v),
\tag{1}
\]

它量化了模型下一个 token 预测的不确定性。低熵表明模型对下一个 token 有信心(收敛状态),而高熵则表示不确定性或在多个可能延续之间的探索。在整个生成过程中,熵轨迹 \(\{H_i\}_{i=1}^N\)

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。