CAT: 大型推理模型高效推理的置信自适应思考
摘要
CAT 引入了一个框架,利用模型自身置信信号,根据问题难度自主调整推理长度,减少过度思考,提高大型推理模型的推理效率。
arXiv:2607.00862v1 Announce Type: new
摘要:大型推理模型(LRMs)通过利用长思维链(CoT)轨迹在复杂任务上取得了显著成功,然而,它们常在简单查询上表现出过度思考,导致大量令牌开销和推理效率降低。然而,现有压缩方法主要采用统一长度缩减或依赖粗粒度难度估计,往往导致在困难问题上的性能下降。为了解决这一局限,我们提出了置信自适应思考(CAT),这是一个将模型内在的自身置信信号作为置信度纳入偏好优化过程的框架,该框架根据问题难度自主调节推理长度。实验结果表明,CAT 在多个基准测试和不同基模型上的推理准确率持续优于最先进的基线方法。我们的工作使 LRMs 能够有效压缩置信响应,同时对不确定响应进行深入思考,为实际工业场景中平衡准确性和延迟提供了一种潜在的稳健解决方案。
查看缓存全文
缓存时间: 2026/07/02 05:38
# CAT:面向大型高效推理模型的置信度自适应思考
来源:https://arxiv.org/html/2607.00862
Qizhi Jiang¹ Shuo Wang¹ Pei Ke¹,²,∗ Yuhang Song¹ Ke Qin¹,² ¹电子科技大学智能协同计算实验室,成都,中国 ²四川省泛在智能与可信服务重点实验室 {jiangqizhi, 202422900227}@std.uestc.edu.cn, [email protected] [email protected], [email protected]
###### 摘要
大型推理模型(LRMs)通过利用长思维链(CoT)轨迹在复杂任务上取得了显著成功,但它们常常在简单查询上表现出过度思考,导致显著的 token 开销和推理效率降低。然而,现有的压缩方法主要采用统一的长度缩减或依赖粗粒度的难度估计,往往导致在困难问题上的性能下降。为解决这一局限,我们提出置信度自适应思考(CAT)框架,该框架将模型内在的自我确定性信号作为置信度融入偏好优化过程,从而根据问题难度自主调节推理长度。实验结果表明,CAT 在不同基座模型的多个基准测试中,始终在推理准确率上优于最先进的基线方法。我们的工作使 LRMs 能够在自信的回答上有效压缩,同时对不确定的回答进行深思,为实际工业场景中平衡准确率和延迟提供了一种潜在的稳健解决方案。
CAT:面向大型高效推理模型的置信度自适应思考
Qizhi Jiang¹ Shuo Wang¹ Pei Ke¹,²,∗ Yuhang Song¹ Ke Qin¹,² ¹电子科技大学智能协同计算实验室,成都,中国 ²四川省泛在智能与可信服务重点实验室 {jiangqizhi, 202422900227}@std.uestc.edu.cn, [email protected] [email protected], [email protected]
††∗通讯作者。
## 1 引言
近年来,大型推理模型(LRMs)迅速涌现,并在复杂的自然语言处理(NLP)任务上取得了显著进展,例如 OpenAI-o1(OpenAI, 2024)和 DeepSeek-R1(DeepSeek-AI, 2025)。这些模型具备生成长推理链的能力,在数学竞赛等具有挑战性的推理问题上展现出强大潜力(Xu et al., 2025)。然而,尽管 LRMs 严重依赖长思维链(CoT)轨迹来出色地完成困难任务,它们往往会对简单输入产生冗余推理和自我反思,导致明显的过度思考和 token 开销(Chen et al., 2024; Feng et al., 2025; Liu et al., 2025; Sui et al., 2025)。这种行为导致冗长的思考链,增加了计算成本并降低了整体推理效率。因此,如何使 LRMs 根据输入难度动态调整 token 消耗越来越受到关注,这决定了 LRMs 在实际工业可用性上准确率与延迟之间的平衡(Shen et al., 2025a)。
现有方法主要集中在推理压缩和长度控制上,大多将缩短推理链作为主要目标(Qu et al., 2025),并对所有查询应用统一的推理 token 缩减(Xia et al., 2025; Chen et al., 2024; Ma et al., 2025; Munkhbat et al., 2025)。虽然这类方法可以显著减少生成长度,但它们通常在困难问题上会导致不可忽视的性能下降,因为复杂任务仍然需要足够的推理深度和长度来维持准确答案(Muennighoff et al., 2025; Zeng et al., 2024)。另一类方法则采用难度自适应推理来缓解简单实例上的过度思考和困难实例上的思考不足之间的不平衡。这类方法倾向于根据模型性能动态调整输出 token 的预算(Shen et al., 2025a)。
然而,现有的自适应推理工作仍面临粗粒度难度估计的严峻挑战。当前方法利用模型输出的准确率来衡量问题难度并粗略确定输出长度(Shen et al., 2025a)。我们认为,这种粗粒度估计严重依赖外部标签,并且仅对答案提供部分评估,而非衡量 LRMs 生成的整个推理链的质量。
为解决这一局限,我们提出 CAT(Confidence-Adaptive Thinking,置信度自适应思考),一种由模型内在置信度驱动的自适应推理框架。受近期关于从模型内部 token 分布进行质量估计的工作启发(Fu et al., 2025; Geng et al., 2024; Fadeeva et al., 2024),我们的主要思想是利用自我确定性(Kang et al., 2025)作为内在的细粒度指标,来区分高质量的推理轨迹和错误的推理轨迹。首先,CAT 采用自我确定性作为模型内在的置信度度量,来估计生成推理轨迹的质量,这反映了问题难度。基于不同轨迹之间置信度和长度的分离,我们进一步构建偏好数据,使模型捕捉问题难度与输出长度之间的关系。其次,我们设计了置信度加权偏好优化(CWPO)方法,该方法用置信度对原始偏好优化目标进行加权。这鼓励模型在高置信度下压缩推理步骤,同时在必要时保留必要的探索,从而减轻简单案例的过度思考,并保持推理性能,尤其是在困难案例上。
总之,我们的主要贡献如下¹:
- 我们引入了置信度自适应思考(CAT)框架,将高效推理的范式从外部监督转变为内在置信度感知。CAT 使推理模型能够自主感知问题难度并调节其思考深度。
- 我们提出了置信度加权偏好优化(CWPO)目标,该目标基于置信度与长度的校准比率动态加权原始目标。CWPO 减轻了过度思考,同时保留了模型在必要时探索复杂推理路径的能力。
- 我们在三个具有挑战性的基准上进行了大量实验,展示了 CAT 在推理效率与推理准确率之间平衡方面优于最先进基线方法的优越性能。
## 2 相关工作
大型推理模型的高效推理。近期研究越来越关注大型推理模型中的过度思考现象(Sui et al., 2025; Wu et al., 2025; Wang et al., 2025)。现有的高效推理方法通常可分为两类。第一类涉及训练策略,以使 LRMs 具备生成简洁推理链的能力,涵盖从监督微调(Cui et al., 2025; Xia et al., 2025)到强化学习(Shen et al., 2025a; Aggarwal and Welleck, 2025; Luo et al., 2025; Yu et al., 2025)。第二类包括推理时方法,例如提示工程(Han et al., 2025; Renze and Guven, 2024; Nayab et al., 2024)、任务路由(Chuang et al., 2025; Ong et al., 2025)、隐空间压缩(Hao et al., 2024; Shen et al., 2025b)和动态解码(Sun et al., 2024; Zhang, 2025)。
与现有关于高效推理训练方法的工作相比,我们的工作利用模型的置信度作为问题难度的估计,而不是仅仅依赖外部奖励模型和外在度量。这充分利用了模型的内在属性来实现自适应推理。
置信度在 LRMs 中的应用。近期工作表明,模型置信度可能指示推理链的质量(Fu et al., 2025; Geng et al., 2024; Kang et al., 2025; Fadeeva et al., 2024)。作为反映置信度的代表性指标之一,自我确定性(Kang et al., 2025)主要被应用于 Best-of-N 选择(Fu et al., 2025)。相比之下,我们的工作将自我确定性作为模型的自置信度来自我评估所生成推理链的质量,通过偏好优化指导自适应思考,而不仅仅是将其注入推理阶段。
参见图注 图1:CAT 框架概览。
## 3 方法论
### 3.1 任务定义与方法概述
给定一个输入问题 $x$,我们的目标是获得一个推理轨迹 $y$,该轨迹包含多步推理过程和最终答案。在准确性的前提下,要求 $y$ 对于简单问题变得简短,而对于困难问题,在必要时变得冗长。
我们框架的概览如图1所示。首先,我们为每个问题采样多个推理轨迹,并通过一次专门的前向传递计算它们的路径级自我确定性分数作为置信度(第3.2.1节)。其次,我们基于置信度和长度构建偏好对,并应用动态选择来优先选择信息量更大的监督信号(第3.2.1节)。最后,我们使用置信度加权偏好优化目标对基础 LRM 进行微调,该目标结合置信度和长度进一步调节偏好强度,实现条件性长度调控(第3.2.2节)。
### 3.2 置信度自适应思考
我们的置信度自适应思考框架包括两个阶段:置信度感知偏好标注和置信度加权偏好优化。第一阶段旨在将置信度作为内在信号融入,构建细粒度的偏好对;第二阶段则进一步利用置信度来增强偏好优化目标。
#### 3.2.1 置信度感知偏好标注
为构建偏好数据集,我们首先从基础推理模型中为问题 $x$ 采样 $K$ 条推理轨迹 $\{y^{(k)}\}_{k=1}^{K}$,每条轨迹是一个 token 序列 $y^{(k)} = \left(y^{(k)}_1, \dots, y^{(k)}_{n_k}\right)$,长度为 $n_k$。此阶段的目标是构建偏好数据集 $\mathcal{D} = \{(x, y_w, y_l, s)\}$,其中 $y_w$ 和 $y_l$ 分别表示相同输入 $x$ 的获胜轨迹和失败轨迹,$s$ 表示置信度校准后的偏好分数。
##### 自我确定性作为内在置信度。
为捕捉推理过程中模型的内在置信度,我们遵循 Kang et al. (2025) 采用自我确定性,它也可以作为轨迹级别的质量度量。形式化地,假设 $\bm{p}_\theta(\cdot \mid x, y_{\leq i})$ 表示第 $i$ 个位置的下一个 token 分布,$V$ 表示词汇表大小,$\mathcal{U}$ 表示 $V$ 上的均匀分布,则自我确定性(SC)可以计算如下:
$$
\text{SC}(x, y) = -\frac{1}{nV} \sum_{i=1}^{n} \sum_{j=1}^{V} \log\!\Big(V \cdot \bm{p}_\theta(j \mid x, y_{\leq i})\Big)
$$
(1)
这对应于衡量 $D_{\mathrm{KL}}\!\bigl(\mathcal{U}\,\|\,p_\theta(\cdot \mid x, y_{\leq i})\bigr)$ 并平均该量在 $i$ 上的值。直观上,与均匀分布的更大散度意味着更尖锐(因此更确定)的预测分布,从而导致更高的 SC。相反,更接近均匀分布的分布更平坦,表示更大的不确定性,从而产生较低的 SC。
##### 偏好对构建。
我们考虑每个轨迹的三个重要因素来构建偏好数据集:(i) 答案的正确性,(ii) 长度,以及 (iii) 基于公式(1)中 SC 的内在置信度。我们强调 SC 是对外部因素的补充,它评估轨迹级别的细粒度质量,并决定成对偏好的强度。
受 Shen et al. (2025a) 启发,我们将偏好对分为两类:简洁对(CPs),由两个正确的轨迹组成,其中首选的更短;深思对(DPs),由两个错误的轨迹组成,其中首选的更长。与先前使用每问题固定预算或外部难度估计来校准偏好强度的方法不同,CAT 仅使用模型内部证据来调节成对偏好分数 $s$。
对于每个输入问题 $x$ 及其 $K$ 个候选推理路径,我们考虑长度和自我确定性的间隔来获取偏好分数 $s$。具体来说,给定一个候选对 $(x, y_w, y_l)$,我们首先计算自我确定性、长度和正确性方面的间隔:
$$
\Delta r = r(y_w) - r(y_l)
$$
(2)
$$
\Delta \mathrm{SC} = \mathrm{SC}(x, y_w) - \mathrm{SC}(x, y_l)
$$相似文章
何时信任工具?工具集成数学推理的自适应工具信任校准
本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。
置信度感知对齐让推理型大语言模型更加可靠
本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。
CALIBER:语言模型中推理前后的置信度校准
本文介绍了CALIBER,一种通过获取推理前后的置信度估计并匹配信息状态的监督目标来校准推理语言模型置信度的方法。它在多个基准测试上显著降低了期望校准误差(最多52.5%),并取得了强劲的Brier分数和AUROC。
大型模型优势所在:约束引导推理的首要地位
本文介绍了AdvCluster,一个自动化框架,用于识别和分类大型语言模型相对于小型模型在数学、物理、化学和编程基准测试中的推理优势。研究发现,大型模型在约束引导推理方面表现更佳——识别和组织约束以排除不可行路径并验证中间步骤。
当进一步推理无益时停止:推理模型中的注意力状态自适应生成
本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。