DyCon: 通过演化难度建模的动态推理控制
摘要
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。
arXiv:2606.07108v1 Announce Type: new
摘要:大型推理模型(LRMs)的最新进展通过迭代反思、探索和执行复杂任务展示了显著的性能提升,但由于冗余推理导致的低效率问题,即所谓的“过度思考”。现有的缓解方法要么依赖静态难度估计,要么需要特定任务的训练,因此无法适应推理过程中的动态复杂性。在这项工作中,我们通过实验证明,问题难度在整个推理过程中动态演化,并且线性地编码在LRM的步骤级嵌入中。基于这一发现,我们提出了DyCon,一种无需训练的框架,利用潜在步骤级表示来显式建模动态演化的任务难度,从而实现对推理深度的动态控制以缓解过度思考问题。在从4B到32B的四个模型上进行的广泛实验,以及在数学推理、通用问答和编程任务的十二个基准测试中,结果表明DyCon通过减少冗余步骤显著提高了推理效率,且不牺牲准确性或泛化能力。项目页面和代码可在 https://github.com/yu-lin-li/DyCon 获取。
查看缓存全文
缓存时间: 2026/06/08 09:14
# DyCon: 通过演化难度建模实现动态推理控制
来源:https://arxiv.org/html/2606.07108
李育林¹ 甄慧玲³ 秦立波¹ 韦舟俊⁴ 朴京华²,⁵ 田卓涛¹,⁴ 李勇²,⁴ 张民¹,⁴
###### 摘要
近期大型推理模型(LRMs)通过迭代反思、探索和执行复杂任务取得了显著的性能提升,但由于冗余推理导致的效率低下问题(即“过度思考”)依然存在。现有缓解方法要么依赖静态难度估计,要么需要特定任务训练,因而无法适应推理过程中动态变化的复杂度。在本文中,我们通过实验证明,问题难度在整个推理过程中是动态演化的,并且线性编码在LRM的步骤级嵌入中。基于这一发现,我们提出了DyCon,一种无需训练的框架,利用潜在的步骤级表示显式建模演化中的任务难度,从而实现对推理深度的动态控制以缓解过度思考问题。在从4B到32B的四个模型、以及涵盖数学推理、通用问答和编程任务的十二个基准测试上进行的大量实验表明,DyCon通过减少冗余步骤显著提升了推理效率,且不牺牲准确率或泛化能力。项目页面和代码见 https://github.com/yu-lin-li/DyCon。
机器学习,ICML
¹哈尔滨工业大学(深圳) ²中关村实验室 ³华为诺亚方舟实验室 ⁴深圳循环经济研究院 ⁵清华大学
## 1 引言
近期大型推理模型(LRMs)在复杂推理任务(如数学问题求解和代码生成)上表现出强劲性能(Guo 等,2025;Team,2025;Yang 等,2025a)。这些性能提升主要源于模型在推理过程中迭代反思、探索和执行的能力(Chen 等,2025)。然而,现有工作揭示,虽然链式思维(CoT)推理(Wei 等,2022)在困难问题上大幅提高了准确性,但当前的LRMs缺乏对该机制的精准控制。因此,即使在简单或已经解决的问题上,它们也常常执行冗余的反思和探索,这种现象被称为“过度思考”(Chen 等,2024)。这种低效不必要地延长了推理轨迹,并可能引入额外的幻觉(Sun 等,2025),成为LRM实际部署的关键瓶颈。

图1:定量比较。我们的方法在多个数学推理基准和四种模型架构(4B–32B)上一致优于先前方法(Yang 等,2025b;Wang 等,2025a;Ma 等,2025),同时在不牺牲准确率的情况下减少了token使用量。
解决过度思考问题本质上需要在一旦完成充分探索时就终止推理。尽管已有一些方法被提出来识别合适的终止点,但它们通常在适应不同问题难度方面表现不足。具体来说,TrimR(Linet 等,2025a)和FlashThink(Jiang 等,2025)依赖外部模型来评估推理充分性。然而,这些策略对所有输入应用统一标准,忽略了问题特定的难度,因此无法相应地调整终止点。其他方法(Yang 等,2025b;Fu 等,2025)利用手工设计的指标来度量模型的不确定性并决定何时终止推理。这些方法虽然直观,但严重依赖人工先验和经验阈值,限制了它们在复杂度不同的问题上的泛化能力。

图2:推理过程中问题难度的动态演化与潜层编码。(a)自评难度在归一化推理步骤上的动态演化。蓝色曲线表示平均难度评分,阴影区域表示标准差。问题难度呈现一致下降趋势,证实了其在推理过程中的动态特性。(b)从步骤嵌入对归一化问题难度进行线性回归预测。以剩余推理长度作为演化难度的代理,预测结果与实际难度高度吻合,具有高R²分数(即统计学中的决定系数),表明存在强线性关系,并证实步骤嵌入编码了潜在的难度知识。
另一个方向(Zhang 等,2025a;Lou 等,2025;Huang 等,2025c)采用监督微调(SFT)或强化学习(RL),配合专门整理的数据集训练模型隐式推断问题难度并决定推理过程在何处终止。尽管有潜力,但这类方法对数据的数量和质量敏感,且容易陷入模式崩溃(Lou 等,2025)。因此,一个关键问题出现了:我们如何显式建模任务难度,以自适应地决定何时终止或扩展推理过程,从而在提高简单问题推理效率的同时确保复杂问题的充分探索?
#### 关键观察。
虽然近期研究(Sheng 等,2025;Nguyen 等,2025;Zhao 等,2025)已尝试估计问题难度,但它们通常基于初始问题或 `<s>` token的嵌入在推理过程开始前分配静态难度分数。因此,这些方法局限于样本级估计,无法捕捉难度在推理过程中本身的动态演化。然而,如图2(a)所示,我们观察到问题难度并非静态,而是在推理过程中动态演化。当推理路径保持有效时,随着CoT逐步分解和澄清问题,难度逐渐降低。反之,如果推理出现偏差,误导性或干扰性CoT内容会导致难度持续高企甚至增加。这一观察促使我们探索一种细粒度的、步骤级的度量标准,能够显式建模并准确捕捉推理过程中问题难度的动态变化。此外,图2(b)所示的结果表明,LRMs中步骤级的难度信息可以编码在每个推理步骤的嵌入中,并且与实际问题难度呈现出线性相关性。这表明LRMs在其嵌入空间中固有地拥有关于动态演变难度的潜在知识。受此发现启发,我们提出疑问:能否利用这种潜在知识,在不同样本之间以及整个推理过程中自适应地评估难度,从而促进更高效的推理?

图3:DyCon 概述。(a)演化难度的显式建模:在离线推理中,从模型输出中提取步骤嵌入,并附带剩余长度信息构建拟合集。对这些长度进行对数变换和归一化,创建一个有界难度目标,用于拟合线性回归器作为难度估计器。(b)难度感知的动态推理控制:在在线推理过程中,该估计器动态预测步骤级难度,指导logit干预,根据演化难度降低反思相关token的概率。这种自适应机制在高难度时促进更深层推理,在简单情景下鼓励提前终止,有效优化推理深度。
#### 我们的解决方案。
在这项工作中,我们引入了DyCon,一种无需训练的、具有演化难度感知的高效推理机制。DyCon利用LRM表示中的潜在知识来建模样本间和推理内部的难度动态。我们在一个小的已见数据集上拟合一个线性回归器,将推理步骤嵌入映射到问题难度。在推理过程中,该回归器在每个推理步骤估计难度,捕捉细粒度的复杂度变化。在这些估计的指导下,DyCon动态调整反思关键词的logits。如果估计难度较低,表明推理充分,则降低反思关键词的logits以加速收敛。反之,如果估计难度较高,则增加这些logits以鼓励更深层的反思。这种机制可以实现基于潜在知识的对推理长度的动态控制,在不牺牲复杂问题探索的前提下提高简单任务的推理效率。在从4B到32B的四个模型、以及涵盖数学推理、通用问答和编程任务的十二个基准测试上进行的大量实验,证明了DyCon的有效性和强泛化能力。总结起来,我们的贡献如下:
- • 我们通过实验验证了LRMs中的问题难度在推理过程中动态演化。我们的分析揭示了步骤嵌入与步骤级难度之间的线性相关性,表明LRMs固有地拥有能够显式建模这种演化难度的潜在知识。
- • 为了实现推理行为的动态控制,我们提出了DyCon,一种无需训练的演化难度感知动态推理控制机制。通过使用轻量级线性回归器从步骤嵌入估计难度,DyCon基于这种潜在知识动态调整反思相关关键词的logits,在推理过程中有效平衡探索与效率。
- • 跨不同模型和任务的大量实验表明,DyCon在不牺牲准确性的情况下有效减少了冗余推理,展示了其在各种问题复杂度和领域中的强泛化能力和鲁棒性。
## 2 背景与动机
### 2.1 预备知识
本研究通过显式建模步骤级难度来有效推理,实现推理行为的自适应调整以缓解过度思考。在本节中,我们介绍阐述动机和方法细节所需的预备知识。
#### LRMs的推理。
给定输入问题 q,大型推理模型(LRM)自回归生成一个 token 序列 y = (y₁, ..., y_T):p_θ(y | q) = ∏_{t=1}^T p_θ(y_t | q, y_{<t})。遵循 Wang 等人(2025a),我们将每个 "\n\n" 的出现视为步骤边界。t_s 和 t_end 分别表示第 s 个步骤边界和终止 token 的索引。
#### 推理步骤的表示。
为了实现对推理行为的细粒度控制,我们研究单个推理步骤的潜在表示。考虑一个由 L 层组成的 LRM,其中第 ℓ 层、token 位置 t 的 d 维隐藏状态记为 h_t^{(ℓ)} ∈ ℝ^d。由于解码过程中使用的因果注意力掩码,每个步骤边界(即 "\n\n")处的隐藏状态 h_{t_s}^{(ℓ)} 固有地编码了来自前面步骤的上下文信息(Chen 等,2025)。因此,我们将第 s 个推理步骤在第 ℓ 层的步骤嵌入 e_s^{(ℓ)} 定义如下:
e_s^{(ℓ)} := h_{t_s}^{(ℓ)}. (3)
#### 估计步骤级难度的代理。
较难的任务需要更深入的探索,而较简单的任务则受益于更快的收敛。先前工作通常使用整体推理长度作为任务难度的代理(Sheng 等,2025;Su 等,2025b)。然而,难度在整个推理过程中往往有所变化,不同阶段可能面临不同的挑战。因此,细粒度控制需要估计步骤级的难度。为此,我们提出在每个步骤边界处定义的一个步骤级代理:
r_s := t_end - t_s, (4)
其中 t_s 表示第 s 个步骤边界(即 "\n\n")处的索引,t_end 表示 `<eos>` token 的索引。直观上,r_s 测量从当前步骤边界到推理轨迹结束的剩余长度。较大的 r_s 表明仍有大量推理工作待完成,暗示更具挑战性的情况;而较小的 r_s 则表明推理过程接近终止。
### 2.2 关键观察
现有的高效推理方法(Linet 等,2025a;Yang 等,2025b)专注于识别最佳终止点以避免不必要的推理步骤。这些方法假设问题难度在整个推理过程中保持静态(Sheng 等,2025;Zhao 等,2025)。然而,我们观察到问题难度在推理过程中是动态演化的,并且发现大型推理模型(LRMs)在其内部表示中固有地编码了这种演化难度作为潜在知识。下面我们详细阐述观察结果。
#### 难度随推理进展而演化。
理论上,如果模型遵循有效的推理路径,问题难度可能会降低,而无效路径则可能通过引入噪声或混乱来增加难度。为了经验性地验证这一假设,我们在 MATH-500(Lightman 等,2023)基准测试中的第5级问题上进行了实验,这些问题通常需要扩展的 CoT,从而允许进行细粒度分析。具体来说,在每个推理步骤之后,我们提示模型在3分制上自我评估当前难度:1(几乎解决)、2(仍有一些不确定性)或3(缺少关键见解)。(详见附录 D.6)。如图2(a)所示,对所有样本归一化并聚合后的平均自评难度显示出明显的下降趋势并伴有波动。值得注意的是,这一现象在四个不同的模型系列(1.5B–32B参数)中一致出现。因此,准确识别终止点需要仔细监测难度演化。利用这一现象进行推理控制的实际应用则需要显式相似文章
DyCo-RL: 动态跨模态协调用于视觉推理
本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。
定制课程:基于动态数据-模型兼容性的以学生为中心的推理蒸馏
提出数据-模型兼容性(DMC)指标,用于评估推理数据集在蒸馏过程中与学生模型的匹配程度。实验表明,DMC与蒸馏性能强相关,且基于DMC动态选择数据集可进一步提升推理能力。
LEAD:用于大型语言模型的长度高效自适应与动态推理
LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标,在训练过程中动态调整推理效率,提高了数学推理的准确性并减少了输出长度。
努力是上限而非旋钮:推理预算不会调节人类与大推理模型之间的认知成本对齐
本文测试了改变推理时的推理努力是否会影响大推理模型思维链长度与人类反应时间之间的对齐。结果表明,对齐对于努力扰动具有不变性,表明这是一种训练时实现的成就。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。