驾驭思考者:用于自适应LLM推理的条件熵塑造

arXiv cs.CL 论文

摘要

本文介绍了条件熵塑造(CES)框架,该框架动态控制LLM中令牌级别的响应熵,以平衡推理深度和简洁性,在数学基准测试上实现更高的准确率同时缩短响应长度。

arXiv:2605.19358v1 公告类型:新 摘要:基于熵的深度推理已成为提升大型语言模型(LLM)推理能力的一个有前景的方向,但现有方法往往要么不加区分地增加响应长度,要么以牺牲准确率为代价缩短响应。为了更好地平衡这一权衡,我们引入了条件熵塑造(CES)框架,该框架动态控制令牌级别的响应熵,使LLM能够在简单问题上生成简洁的解决方案,同时在难题上鼓励更深入的探索。CES基于DAPO构建,使用令牌级别的熵作为不确定性信号,并应用条件双向策略:它对正确推理路径上的高熵"分叉点"令牌进行惩罚以提高简洁性,并在错误路径上奖励这些令牌以鼓励探索和错误纠正。我们在DeepSeek-R1-Distill-7B上实现CES,并在12个数学基准上进行评估。与DAPO相比,CES在缩短响应长度的同时持续提高平均准确率,补充实验在较小的1.5B主干模型和域外基准上显示出类似趋势。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:25

# 驯服思考者:面向自适应LLM推理的条件熵塑形
来源: https://arxiv.org/html/2605.19358

Shuyu Wei1,\*,Jian Sun2,\*,Delai Qiu2,Yining Wang2,Shengping Liu2,Jiaen Liang2, Ying Fu2,Wei Huang2,Jitao Sang1,†  
†1北京交通大学 交通数据挖掘与具身智能北京市重点实验室  
2云知声智能科技股份有限公司  
\*共同第一作者。  
†通讯作者。

###### 摘要

基于熵的深度推理已成为提升大型语言模型推理能力的一个有前景的方向,但现有方法通常要么不加区分地增加响应长度,要么以牺牲准确性为代价缩短响应。为了更好地平衡这一权衡,我们引入了**条件熵塑形**,一个动态控制标记级响应熵的框架,使LLM能在简单问题上产出简洁的解,同时在困难问题上鼓励更深入的探索。CES构建于DAPO之上,将标记级熵作为不确定性信号,并应用一种条件双向策略:对于正确推理路径上的高熵"分叉点"标记予以惩罚以提高简洁性;对于错误路径上的高熵标记则给予奖励以鼓励探索和纠错。我们在DeepSeek-R1-Distill-7B上实现了CES,并在12个数学基准上进行了评估。与DAPO相比,CES在缩短响应长度的同时持续提升了平均准确率;补充实验在更小的1.5B骨干模型和域外基准上也显示了类似趋势。

## 1 引言

近年来,大型语言模型在复杂推理任务(如数学推导、代码生成和逻辑规划)中展现出了卓越的能力 [Wei et al. (2022)](https://arxiv.org/html/2605.19358#bib.bib1);[Kojima et al. (2022)](https://arxiv.org/html/2605.19358#bib.bib2)。以DeepSeek-R1 [Guo et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib3)、Qwen3系列 [Yang et al. (2025a)](https://arxiv.org/html/2605.19358#bib.bib4) 和OpenAI o3系列为代表的先进推理模型,利用显式的思维链提示来模拟类似人类的思考过程,从而实现了强大的问题解决能力。然而,正是这种实现高性能的机制,与另一个关键需求——计算效率——之间引入了根本性的矛盾。显式生成推理步骤虽然对复杂任务的准确性至关重要,但本质上会增加生成的token数量,导致高延迟和计算成本,从而可能阻碍实际应用。这凸显了该领域的核心难题。一方面,为了达到尽可能高的性能,鼓励模型探索详细的推理路径;另一方面,这可能导致显著的效率低下,这种现象常被称为"过度思考",即模型对诸如"2+3等于多少?"这样的琐碎问题也会产生不必要冗长的思维过程 [Chen et al. (2024)](https://arxiv.org/html/2605.19358#bib.bib5);[Ma et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib6);[Yang et al. (2025b)](https://arxiv.org/html/2605.19358#bib.bib7)。(见图1说明)

图1:CES流程概览。

一个新颖的研究方向——我们称之为**基于熵的深度推理**——通过利用标记级熵来分析和引导推理过程。一项研究揭示,CoT中少数几个高熵标记通常充当推理路径中的关键"分叉点",是决策的关键杠杆 [Wang et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib8)。他们仅对前20%的高熵标记进行模型训练,并报告其性能超过了在所有标记上训练的效果。另一项研究表明,奖励高熵标记可以鼓励模型探索并显著提高推理准确性 [Cheng et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib9)。同时,类似的工作将高协方差标记识别为强化学习中导致"熵崩溃"的主要原因 [Cui et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib25)。他们限制更新以维持探索,最终提高了模型的推理准确性。虽然这些方法成功提升了模型性能,但随之而来的副作用是进一步延长了思维过程,从而加剧了"过度思考"现象并增加了推理成本。

与此同时,另一条研究路线专注于通过强化学习提升推理效率,旨在缩短响应并实现按需思考。早期的尝试包括相对不够灵活的方法,例如事后剪枝已生成的思维 [Muennighoff et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib13) 或训练模型遵守人工指定的长度预算 [Aggarwal and Welleck (2025)](https://arxiv.org/html/2605.19358#bib.bib17)。更多方法被设计为采用更细粒度的强化学习策略来实现简洁的目标。例如,GRPO-LEAD [Zhang and Zuo (2025)](https://arxiv.org/html/2605.19358#bib.bib15) 惩罚那些比平均长度更长的正确响应。AdaCoT [Lou et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib26) 使用强化学习来学习一个基于查询复杂度的最优策略以触发整个CoT过程,而 Ada-R1 [Luo et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib27) 首先合并长CoT和短CoT模型,然后使用双层偏好训练来为给定问题选择最合适的推理风格。虽然这些方法在缩短长度方面有效,但它们可能面临一个关键的权衡:效率的提升往往以牺牲那些真正需要深思熟虑的复杂问题的性能为代价。这呈现出一个明显的困境:提升效率的方法可能损害准确性,而提升准确性的方法可能损害效率。

受近期在标记级熵方面进展的启发 [Wang et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib8);[Cheng et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib9);[Cui et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib25),我们的工作旨在通过将模型的探索行为**条件化**于其推理路径的正确性来解决这一权衡。相比之下,之前的工作 [Cheng et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib9) 无论推理正确与否都应用单一、固定的策略。基于这一核心洞察,我们提出了新颖的框架**条件熵塑形**。CES 运行在解耦裁剪与动态采样策略优化强化学习框架 [Yu et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib10) 之上,并根据其推理正确性智能地调节模型的探索行为。如图1所示,CES 引导模型:

1.  **抑制探索**:当生成的推理路径**正确**时,CES 对该路径内熵最高的标记施加惩罚。这鼓励模型变得更加自信和高效,将其思维过程提炼为简洁、直接的解决方案。
2.  **鼓励探索**:相反,当路径**错误**时,CES 奖励相同这些高熵的"分叉点"标记。这激励模型探索替代路径,并纠正其有缺陷的逻辑。

在12个数学基准上的实证结果表明,CES 平均而言同时提升了准确性和效率。

本文的主要贡献如下:

*   我们引入了 CES,一种新颖的强化学习机制,为 LLM 推理实现了条件性和双向性的控制策略。
*   我们在12个数学基准上证明,相对于 DAPO,CES 改善了平均准确率-效率的权衡。我们进一步通过在小规模的1.5B骨干模型和域外基准上的附加实验展示了 CES 的鲁棒性。
*   我们提供了对 CES 学习行为的全面分析,揭示了它如何发展出一种自适应的、"按需"的推理策略,策略性地分配计算资源。

## 2 方法

我们提出的方法 CES 在 DAPO 框架中引入了一种新颖的优势塑形机制。DAPO 是一种旨在激发 LLM 复杂推理的强化学习算法,它已经整合了几项关键技术来稳定训练并提升在长 CoT 场景下的性能。CES 在此基础上,通过引入一个显式机制来管理探索(为了准确性)与简洁(为了效率)之间的权衡。它通过基于两个因素动态重塑标记级优势信号来实现这一点:给定模型响应的正确性及其组成标记的生成熵。具体来说,对于正确响应,CES 惩罚高熵标记以鼓励更直接和简洁的推理路径。相反,对于错误响应,它奖励高熵标记以刺激探索并促进错误纠正。

### 2.1 预备知识:DAPO 框架

DAPO 通过一系列专为大规模强化学习定制的技术,增强了群体相对策略优化算法 [Shao et al. (2024)](https://arxiv.org/html/2605.19358#bib.bib20)。对于给定的提示 $x$,策略 $\pi_{\theta}$ 生成一组 $N$ 个响应 $Y=\{y_1, y_2, \ldots, y_N\}$。DAPO 目标函数的核心是通过最大化组内"获胜者"响应相对于"失败者"响应的优势来学习偏好。完整的目标函数如下:

\[
\mathcal{J}_{\text{DAPO}}(\theta)=
\mathbb{E}_{\begin{subarray}{c}
(q,a)\sim\mathcal{D},\\ \{o_i\}\sim\pi_{\theta_{\text{old}}}
\end{subarray}}
\Bigg[
\frac{1}{\sum_{i=1}^G|o_i|}
\sum_{i=1}^G
\sum_{t=1}^{|o_i|}
\min\bigl(r_{i,t}(\theta)\hat{A}_{i,t},
\operatorname{clip}\!\bigl(r_{i,t}(\theta), 1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}}\bigr)\hat{A}_{i,t}\bigr)
\Bigg]
\]

与我们工作相关的 DAPO 关键组件包括:

*   **群体相对优势** $\hat{A}_{i,t}$:响应 $y_i$ 的优势通过将其奖励 $R_i$ 相对于其组 $\{R_j\}_{j=1}^G$ 内的均值和标准差进行归一化来计算。这个经群体归一化的优势随后被应用于响应 $y_i$ 中的每一个 token $t$。
*   **标记级策略梯度损失**:DAPO 的目标通过批次中的总 token 数 $\sum_{i=1}^G|o_i|$ 进行归一化,确保每个 token 对最终损失的贡献相等,无论其所属序列的长度如何。这防止了较短的序列被较长的序列所掩盖。

CES 直接在 DAPO 目标函数中使用的优势计算 $\hat{A}_{i,t}$ 层面进行干预。

### 2.2 条件熵塑形 (CES)

CES 修改每个标记的优势信号,以向模型提供更细致的引导。该过程包括三个步骤。

#### 2.2.1 步骤 1:初始组级计算

对于给定的提示 $x$,我们使用策略 $\pi_{\theta}$ 生成一个响应集合 $Y=\{y_1, y_2, \ldots, y_N\}$。我们为每个响应分配一个复合奖励 $R(y_i)$,它是两个二元组件的总和:一个基于最终答案正确性的准确率奖励 $r_{\text{acc}}(y_i) \in \{0,1\}$,以及一个用于遵守……结构的格式奖励 $r_{\text{fmt}}(y_i) \in \{0,1\}$。总奖励为 $R(y_i) = r_{\text{acc}}(y_i) + r_{\text{fmt}}(y_i)$。对我们的条件机制至关重要的组准确率 $a$,仅基于正确性奖励计算:
\[
a = \frac{1}{N} \sum_{i=1}^N r_{\text{acc}}(y_i)
\]
响应 $y_i$ 中任何标记的初始、未经过塑形的优势是标准的组归一化优势,使用总奖励 $R(y_i)$ 计算:
\[
A_i = \frac{R(y_i) - \text{mean}(\{R(y_j)\}_{j=1}^N)}{\text{std}(\{R(y_j)\}_{j=1}^N)}
\]

#### 2.2.2 步骤 2:动态选择高熵标记

随后,我们计算标记级熵。给定前一个 token $y_{i, <j}$,当前 token $y_{i,j}$ 的熵 $H(t_j | y_i, <j)$ 定义为其词汇分布上可能性的不确定性:

我们使用基于阈值的策略来选择哪些 token 将受到 CES 的影响。我们按熵降序对所有 token 进行排序,然后在每个响应内选择前 $p$%(例如,$p=20$)的 token 作为"高熵"标记。只有这些选定的高熵 token 会接收修改后的优势。其余 token 保留其原始优势 $A_i$。

#### 2.2.3 步骤 3:条件优势塑形

核心机制在于如何根据响应的正确性修正所选高熵 token 的优势 $A_i$。我们引入一个条件塑形系数 $\alpha_i$,其定义如下:

对于每个响应 $y_i$:
*   如果响应**正确** ($r_{\text{acc}}(y_i) = 1$):对于每个选定的高熵 token,应用塑形系数 $\alpha_i = -\beta_1$,其中 $\beta_1 > 0$ 是一个惩罚项。
*   如果响应**错误** ($r_{\text{acc}}(y_i) = 0$):对于每个选定的高熵 token,应用塑形系数 $\alpha_i = +\beta_2$,其中 $\beta_2 > 0$ 是一个奖励项。

CES 优势信号修改如下:
\[
A'_{i,j} = A_i + \alpha_i \cdot \mathbb{1}_{\text{token } j \text{ 是高熵}} \cdot H(t_j | y_i, <j)
\]

注意,塑形强度与 token 的原始熵 $H(t_j | y_i, <j)$ 成比例。这确保了在"分叉点"具有最高不确定性的 token 受到最强的调整。超参数 $\beta_1, \beta_2 > 0$ 缩放基于熵的塑形的幅度。这个最终的标记级优势 $A'_{i,j}$ 替代了 DAPO 目标函数(公式 1)中的原始 $\hat{A}_{i,t}$,从而将我们细粒度的控制信号注入到学习过程中。CES 的详细伪代码在附录中给出。

## 3 实验设置

### 3.1 骨干模型与基线

我们的实验是在先进推理模型的背景下进行的。我们选择了强大的开源模型 DeepSeek-R1-Distill-Qwen-7B [Guo et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib3) 作为我们的骨干模型,该模型以其强大的长链推理能力而闻名。为了隔离我们提出方法的影响,我们建立了三个基线进行比较:

1.  **原始 R1-7B**:未经任何强化学习微调的预训练 DeepSeek-R1-Distill-Qwen-7B 模型。
2.  **DAPO 基线** (关键基线):使用不含 CES 模块的 DAPO 算法进行微调的同一骨干模型。这是我们的主要基线,用于直接衡量 CES 带来的改进。
3.  **DAPO 配合"熵优势"**:我们将 CES 与之前的工作 [Cheng et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib9) 进行比较。他们的工作引入了一种"熵优势",无条件地将基于熵的优势添加到所有 token,以鼓励更具探索性的推理路径,主要目标是提高推理任务的性能。这为我们旨在平衡准确性和效率的条件性、双向性方法提供了清晰的对比。

表 1:关键数学数据集上的准确率和响应长度比较。每类中的最佳结果以**粗体**显示。"Acc"和"Len"分别代表每个基准4次评估的平均准确率和平均响应长度。(表格内容略)

### 3.2 训练细节

我们利用 OpenRLHF 框架 [Hu et al. (2024)](https://arxiv.org/html/2605.19358#bib.bib22) 执行 DAPO 训练,专注于解决数学问题的领域。由于资源限制,我们的训练集仅包含从 DeepMath 数据集 [He et al. (2025)](https://arxiv.org/html/2605.19358#bib.bib23) 随机抽取的 2500 个训练样本。所有实验均在 2 块具有 80GB 内存的 NVIDIA A800 GPU 上进行。值得注意的是,我们在......时禁用了 DAPO 的动态采样特性。

相似文章

大语言模型何时进行推理?基于熵相变的动力系统视角

arXiv cs.LG

本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

Hugging Face Daily Papers

ACTS (Agentic Chain-of-Thought Steering) formulates LLM reasoning control as a Markov decision process where a controller agent adaptively steers a frozen reasoner during inference using reasoning strategies and steering phrases. The approach achieves comparable accuracy to full-thinking models with significant token savings, enabling controllable accuracy-efficiency trade-offs.