提示微调:数据越少,推理能力越强
摘要
本文提出了一种名为“提示微调”(Hint Tuning)的数据高效方法,该方法根据问题难度校准推理深度,从而减少推理模型中的标记使用量。在仅需1K个自标注样本的情况下,该方法在 Qwen3-Thinking 和 DeepSeek-R1-Distill 等模型上实现了显著的标记减少(24%-66%)。
arXiv:2605.08665v1 公告类型:新论文
摘要:大型推理模型通过扩展的思维链实现高精度,但生成的标记数量比实际所需多出5到8倍,并且无论问题难度如何,都统一应用冗长的推理。我们提出了提示微调(Hint Tuning),这是一种数据高效的方法,旨在教会模型校准推理深度。我们的核心洞察是:对应的指令模型可作为理想的问题难度探测器。通过测试指令模型在不同指导水平下能解决哪些问题,我们自动构建了涵盖三种状态的训练数据:无提示(直接回答)、稀疏提示(最小前缀)和全提示(完整推理)。这将抽象的难度标注挑战转化为指令模型与推理模型之间可度量的一致性检查。仅使用1K个自标注样本,提示微调在主流推理模型(Qwen3-Thinking、DeepSeek-R1-Distill)的多个规模(4B-32B)上实现了24%-66%(平均31.5%)的标记减少,同时在五个基准测试上保持了具有竞争力的准确率。与需要大规模蒸馏数据集或昂贵强化学习的方法不同,我们通过简单地与指令模型的能力对齐,实现了更高的效率。
查看缓存全文
缓存时间: 2026/05/12 06:56
# Hint Tuning:数据越少,推理能力越强
来源: https://arxiv.org/html/2605.08665 Siqi Fan1 Minghao Li2 Xiaoqian Ma2 Xiusheng Huang2 Zhuo Chen2 Bowen Qin3 Liujie Zhang2 Shuo Shang1 Weihang Chen2
1 电子科技大学 2 小红书有限公司 3 新加坡国立大学
###### 摘要
大型推理模型通过扩展的思维链(chain-of-thought)实现了高精度,但其生成的 token 数量比必要多了 5–8 倍,并且无论问题难易程度如何,都统一应用冗长的推理过程。我们提出了 **Hint Tuning**,这是一种数据高效的方法,旨在教会模型校准推理深度。我们的核心洞察是:**对应的指令模型(instruct model)充当了理想的能力探针**。通过测试指令模型在不同引导下的解题能力,我们自动构建了涵盖三种状态的训练数据:**无提示(No-Hint)**(直接回答)、**稀疏提示(Sparse-Hint)**(最小前缀)和**全提示(Full-Hint)**(完整推理)。这将抽象的难度标注挑战转化为指令模型与推理模型之间可衡量的 consistency check(一致性检查)。仅使用 1K 个自标注样本,**Hint Tuning** 在主流推理模型(Qwen3-Thinking, DeepSeek-R1-Distill)上实现了 24–66% 的 token 减少量(平均 31.5%),涵盖多种规模(4B–32B),同时在五个基准测试上保持了具有竞争力的准确率。与需要大规模蒸馏数据集或昂贵强化学习(RL)的方法不同,我们通过简单地与指令模型的能力对齐实现了卓越的效率。
参见标题
**图 1:** DeepSeek-R1-Distill-Qwen-7B 上的 **Hint Tuning** 效率。
## 1 引言
思维链(CoT)提示 \(Wei et al., (https://arxiv.org/html/2605.08665#bib.bib9); Kojima et al., (https://arxiv.org/html/2605.08665#bib.bib29)\) 已成为激发大型语言模型推理能力的主导范式。最近的工作表明,CoT 遵循测试时缩放定律 \(Snellet al., 2024 (https://arxiv.org/html/2605.08665#bib.bib27); OpenAI, 2024 (https://arxiv.org/html/2605.08665#bib.bib28)\):随着推理轨迹变长,准确率提高,从而在复杂的数学任务上取得突破 \(Jaech et al., 2024 (https://arxiv.org/html/2605.08665#bib.bib2); DeepSeek-AI, 2025 (https://arxiv.org/html/2605.08665#bib.bib1)\)。然而,这种能力引入了一种新的低效现象:**模型在所有问题上都会进行冗长的推理,无论其难度如何。**
参见标题
**图 2:** 推理模型通过过度阐述浪费 token。(a) 示例:相同的答案,不同的冗长度。(b) 系统比较:在所有四种正确性场景中,指令模型使用的 token 少 55–88 倍。(c–d) 借助部分提示,指令模型仅需 27.5% 的片段(episodes)和 11.9% 的 token 即可成功。
如图 2 (https://arxiv.org/html/2605.08665#S1.F2) 所示,在四种正确性场景下比较指令模型和推理模型,发现指令模型始终使用少得多的 token。即使两者都成功,推理模型也会通过冗长的自我反思 \(Chen et al., 2024 (https://arxiv.org/html/2605.08665#bib.bib24); Sui et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib25)\) 生成多出 55–88 倍的 token,在不增加推理价值的情况下浪费计算资源。
#### 标注瓶颈。
训练模型以适应推理深度需要监督信号来指定“多少思考是适当的”。现有方法在互补的方式上 struggle 于这一挑战:
* **事后压缩**方法 \(Kang et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib31); Xia et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib32); Chen et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib15)\) 通过启发式方法或外部模型修剪冗余步骤,但重要性是上下文相关的:同一短语在一个问题中可能是必不可少的,在另一个问题中则是冗余的。
* **推理过程中**的方法 \(Han et al., 2025b (https://arxiv.org/html/2605.08665#bib.bib33); Liu et al., 2024b (https://arxiv.org/html/2605.08665#bib.bib34); Ma et al., (https://arxiv.org/html/2605.08665#bib.bib5)\) 通过 token 预算或步骤跳过生成简洁的推理,尽管统一策略在处理不同复杂度的问题时往往失效。
这两类方法都避免了**带长度惩罚的 RL** \(Luo et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib3); Arora and Zanette, 2025 (https://arxiv.org/html/2605.08665#bib.bib23); Aggarwal and Welleck, 2025 (https://arxiv.org/html/2605.08665#bib.bib14); Zhang et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib7)\) 的成本,后者需要仔细调整惩罚系数和奖励缩放,其计算开销显著高于 SFT \(Sui et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib25); Schulman et al., 2017 (https://arxiv.org/html/2605.08665#bib.bib42)\);此外,固定的惩罚会导致简单问题上过度压缩,而在困难问题上压缩不足。
#### 指令模型作为能力探针。
我们的核心洞察是,对应的指令模型充当了理想的能力探针。如果指令模型可以在极少或无需推理引导的情况下解决问题,那么推理模型就不应生成长篇大论的思维链。通过从推理模型的轨迹中逐步增加推理**片段**(episodes)$^1$ 来探测指令模型,我们将问题分为三种认知状态:
1. **状态 I(无提示)**:指令模型无需任何提示即可成功,因此推理模型应直接给出答案。
2. **状态 II(稀疏提示)**:指令模型仅在前几个片段(“最小有效提示”)的帮助下即可成功,因此推理模型应仅生成这一必要前缀。
3. **状态 III(全提示)**:即使有大量提示,指令模型仍失败,因此推理模型应生成完整的 deliberative reasoning(深思熟虑的推理)以确保准确性。
#### Hint Tuning:通过对齐实现效率。
基于这种自标注,我们提出了 **Hint Tuning**。与必须通过昂贵探索来*发现*效率的 RL 方法不同,我们将其框架化为一个*对齐*任务:使推理模型的输出长度与指令模型的能力边界对齐。这将“多少推理才够”这一界定不清的问题转化为具体、可衡量的训练数据,无需人工标注或奖励模型。
#### 贡献。
在 Qwen3 和 DeepSeek-R1-Distill 模型(4B–32B)上,**Hint Tuning** 仅使用 1K 个训练样本(比现有方法少 25–640 倍,图 1 (https://arxiv.org/html/2605.08665#S0.F1)b),在五个数学推理基准上实现了 24–66% 的 token 减少量(平均 31.5%),同时保持了具有竞争力的准确率(图 1 (https://arxiv.org/html/2605.08665#S0.F1)a)。
## 2 相关工作
参见标题
**图 3:** 高效的推理训练范式。
#### 思维链与测试时缩放。
思维链(CoT)提示 \(Wei et al., (https://arxiv.org/html/2605.08665#bib.bib9); Kojima et al., (https://arxiv.org/html/2605.08665#bib.bib29)\) 通过鼓励逐步思考来激发大型语言模型的推理能力。最近的工作表明 CoT 遵循测试时缩放定律 \(Snellet al., 2024 (https://arxiv.org/html/2605.08665#bib.bib27); OpenAI, 2024 (https://arxiv.org/html/2605.08665#bib.bib28)\),其中准确率通过**顺序缩放**(每个样本的推理轨迹更长,如 O1 和 DeepSeek-R1)或**并行缩放**(通过自我一致性 \(Wang et al., (https://arxiv.org/html/2605.08665#bib.bib30)\) 或 Best-of-N 聚合多个样本)\(Muennighoff et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib12)\) 提高。然而,这种准确率的提升是以巨大的计算开销和增加的延迟为代价的。
#### 基于 SFT 的高效推理。
一类工作通过监督微调(SFT)提高推理效率。现有方法采用两种策略:**推理后压缩**使用启发式方法或外部模型从完整轨迹中修剪冗余步骤 \(Kang et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib31); Xia et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib32); Chen et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib15); Munkhbat et al., (https://arxiv.org/html/2605.08665#bib.bib35)\),而**推理过程中生成**则提示模型通过最优 token 预算 \(Han et al., 2025b (https://arxiv.org/html/2605.08665#bib.bib33)\)、步骤跳过 \(Liu et al., 2024b (https://arxiv.org/html/2605.08665#bib.bib34)\) 或参数混合 \(Ma et al., (https://arxiv.org/html/2605.08665#bib.bib5)\) 产生简洁的路径。微调策略包括标准方法(LoRA \(Hu et al., (https://arxiv.org/html/2605.08665#bib.bib36)\),DPO \(Han et al., 2025a (https://arxiv.org/html/2605.08665#bib.bib37); Rafailov et al., 2023 (https://arxiv.org/html/2605.08665#bib.bib38)\))、渐进方法 \(Ma et al., (https://arxiv.org/html/2605.08665#bib.bib5); Liu et al., 2024a (https://arxiv.org/html/2605.08665#bib.bib39)\) 和模型合并 \(Team et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib40)\)。然而,这些方法基于外部模型或统一策略来确定推理长度,忽略了问题难度是相对于目标模型能力而言的——对强压缩器来说看似简单的问题,对于正在微调的模型可能仍需大量推理,导致不恰当的压缩。
#### 基于 RL 的高效推理。
强化学习(RL)通过余弦惩罚 \(Chang et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib4)\)、长度调和奖励 \(Luo et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib3); Arora and Zanette, 2025 (https://arxiv.org/html/2605.08665#bib.bib23); Feng et al., 2026 (https://arxiv.org/html/2605.08665#bib.bib48)\)、L1 正则化 \(Aggarwal and Welleck, 2025 (https://arxiv.org/html/2605.08665#bib.bib14)\)、约束指令 \(Shen et al., (https://arxiv.org/html/2605.08665#bib.bib13)\) 或偏好优化 \(Zhang et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib7); Rafailov et al., 2023 (https://arxiv.org/html/2605.08665#bib.bib38)\) 将长度惩罚纳入奖励函数。这些方法将长度感知目标整合到经典的 RLHF 框架中,如 PPO \(Schulman et al., 2017 (https://arxiv.org/html/2605.08665#bib.bib42)\) 和 DPO \(Rafailov et al., 2023 (https://arxiv.org/html/2605.08665#bib.bib38); Ouyang et al., 2022 (https://arxiv.org/html/2605.08665#bib.bib41)\)。然而,RL 比 SFT 产生更高的计算成本和训练不稳定性 \(Zheng et al., 2023 (https://arxiv.org/html/2605.08665#bib.bib43)\)。固定的惩罚无法适应问题的异质性 \(Cobbe et al., 2021 (https://arxiv.org/html/2605.08665#bib.bib44); Lightman et al., 2024 (https://arxiv.org/html/2605.08665#bib.bib45)\),导致简单任务过度压缩,困难任务压缩不足。尽管声称自动化,但仍需大量的超参数调整 \(Engstrom et al., 2020 (https://arxiv.org/html/2605.08665#bib.bib46); Andrychowicz et al., 2020 (https://arxiv.org/html/2605.08665#bib.bib47)\):PPO 裁剪、KL 约束、奖励缩放和采样温度。
#### 我们工作的定位。
如图 3 (https://arxiv.org/html/2605.08665#S2.F3) 所示:与其进行昂贵的 RL 优化或数据受限的 SFT,我们通过**最小有效提示**标准自动生成适应难度的推理轨迹。这种以数据为中心的策略以较低成本实现了 RL 级别的效率,无需奖励模型或外部压缩模型进行数据标注。
## 3 方法
推理模型无论问题难度如何都会生成冗长的轨迹,在需要较少推理的问题上浪费计算资源。我们首先量化这种低效,然后描述它如何启发我们的数据构建流程。
### 3.1 效率差距与能力探测
我们在三个竞赛级数学基准(AIME24, AIME25, HMMT25)上比较了 Qwen3-4B-Instruct(指令模型)和 Qwen3-4B-Thinking(推理模型)\(Team, 2025 (https://arxiv.org/html/2605.08665#bib.bib17)\),每个问题采样 8 个响应,并使用 Math-Verify 进行验证。如图 2 (https://arxiv.org/html/2605.08665#S1.F2) 所示,即使两者都得出正确答案,推理模型生成的 token 也比指令模型多 55–88 倍。然而,当提供部分推理提示时,指令模型仅使用 27.5% 的片段和 11.9% 的 token 即可成功解决问题,这表明大多数推理是冗余的。
这引发了一个关键问题:**激活指令模型能力所需的最小提示是什么?**
我们将**最小有效提示** $K^*$ 定义为:
$$
K^* = \min \bigl\{ k \in \{0, 1, \ldots, N\} : M_{\text{instruct}}(x \oplus e_{1:k}) = y \bigr\} \quad (1)
$$
其中 $e_{1:k}$ 表示推理模型的前 $k$ 个推理片段($e_{1:0} = \emptyset$)。如果不存在这样的 $k$(*即,*指令模型在所有提示水平下均失败),我们将 $K^* = N$,视为需要完整深思熟虑的问题。直观地说,$K^*$ 衡量了推理模型轨迹中实际需要多少部分才能解锁指令模型的答案。
### 3.2 提示分布分析
分析 $K^*$ 的分布(图 4 (https://arxiv.org/html/2605.08665#S3.F4))揭示了挑战“越长越好”假设的三个特性。
#### 提示解锁了以前无法解决的问题。
虽然 36–50% 的问题根本不需要提示,但推理提示使另外 23–33% 的问题能够通过稀疏片段成功,33–60% 的问题能够通过完整轨迹成功(图 4 (https://arxiv.org/html/2605.08665#S3.F4)c),这表明指令模型具有潜在能力,可以通过针对性提示激活。
#### 关键步骤比长度更重要。
只有 25–32% 的问题表现出**连续**成功,即在片段 $k$ 成功保证在 $k+1$ 也成功。对于剩余的 68–75%,成功是非单调的:额外的片段可能引入干扰项,且成功率波动而非随 $K$ 一致提高(图 4 (https://arxiv.org/html/2605.08665#S3.F4)a,d)。这表明特定的关键片段比线性积累重要得多。
#### 早期提示充当激活器。
关键推理步骤集中在前 25 个片段内(图 4 (https://arxiv.org/html/2605.08665#S3.F4)b),这表明 CoT 提示作为设定方向的激活器,而非需要完整推理链的脚手架。
参见标题
**图 4:** $K^*$ 的分布揭示了非单调模式。(a) 成功率随 $K$ 波动,而非单调增加。(b) 大多数所需提示集中在早期片段(前 25 个内)。(c) 提示使 23–33% 的以前无法解决的问题通过稀疏推理成功,33–60% 通过完整轨迹成功。(d) 只有 25–32% 显示连续成功;大多数表现出非单调模式。
### 3.3 构建变长 CoT 数据
上述三个特性自然促使三分状态划分。我们使用 s1 数据集 \(Muennighoff et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib12)\) 作为种子语料库——从 16 个不同来源(NuminaMath, OlympicArena 等)的 59K 样本中精选的 1,000 个具有挑战性的问题,经过质量和难度过滤。该流程通过三个阶段将这些问题转化为高效的训练样本:
(1) **生成**:我们丢弃原始的 s1K 轨迹,并使用 $M_{\text{reason}}$ 为每个问题 $x$ 重新生成新鲜的 CoT 轨迹;
(2) **分段**:我们基于自我反思标记将轨迹分解为离散片段 $(e_1, \ldots, e_N)$(附录...
---
$^1$ 遵循 \(Que et al., 2025 (https://arxiv.org/html/2605.08665#bib.bib26)\),每轮验证是一个片段(episode);我们使用“let me verify”或“on second thought”等正则表达式模式来分割片段。相似文章
如何微调推理模型?一个教师-学生协作框架用于合成学生一致的SFT数据
本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。
多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架
本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。
研究人员让AI智能体优化LLM推理,Token用量锐减70%
研究人员开发了AutoTTS框架,通过AI智能体自动设计控制策略来优化LLM推理,在保持高推理准确率的同时,将Token消耗降低约70%。
LaTER:通过潜在探索与显式验证实现高效的测试时推理
本文介绍了 LaTER,一种两阶段推理范式,它将潜在探索与显式思维链(Chain-of-Thought)验证相结合,从而在保持准确率的同时,降低大型语言模型的标记使用量并提升效率。
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。