通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI 2026/05/19 04:00 论文

摘要

本文表明，基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法，仅用推理模型的输出替换这些关键令牌，即可使基础模型的表现几乎与推理模型持平。

arXiv:2605.16874v1 Announce Type: new 摘要：大型推理模型（LRMs）在具有挑战性的推理基准测试上显著优于其基础LLM对应模型，但人们对基础模型在逐令牌生成过程中哪里出错以及如何有效缩小这一差距仍知之甚少。我们通过使用基于似然的散度量化基础模型与更强推理模型之间的令牌级分布分歧，来研究基础-推理差距。跨多个基准测试，我们发现推理优势高度稀疏，集中在少量早期的、与规划相关的决策令牌上。例如，在Qwen3-0.6B上，只有约8%的生成令牌构成了显著分歧，这些令牌集中在回答的早期，在规划相关决策中强烈富集（17倍），并且与高基础模型不确定性重合——这表明基础模型主要在做早期规划决策时失败，而这些决策引导了后续的推理轨迹。基于这些发现，我们提出了基于分歧的令牌干预方法，这是一种简单的推理时委托方案，仅在高度分歧的位置由推理模型接管一个令牌，然后立即切换回基础模型。在较小的干预预算下，这种稀疏委托方法可以显著恢复甚至超越同等规模推理模型在挑战性推理任务上的表现。代码可在 https://github.com/AlphaLab-USTC/RRTokenIntervention 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:36

# 推理能力可通过修正少量决策令牌恢复  
来源：https://arxiv.org/html/2605.16874  

###### 摘要  

大型推理模型（LRMs）在具有挑战性的推理基准测试上显著优于其基础LLM对应版本，但其在逐令牌生成过程中基础模型出错的位置以及如何高效缩小这一差距仍未被充分理解。我们通过使用基于似然的散度量化基础模型与更强推理模型之间的令牌级分布差异，来研究基础–推理差距。跨多个基准测试，我们发现推理优势高度稀疏，并集中在少量早期与规划相关的决策令牌上。例如，在Qwen3-0.6B上，仅约8%的生成令牌占显著分歧的主导地位，这些令牌集中在响应的早期阶段，强烈富集于规划相关决策（17×），并且与基础模型的高不确定性区域重合——这表明基础模型主要失败于早期规划点，而这些规划点引导了后续的推理轨迹。基于这一发现，我们提出分歧引导的令牌干预（disagreement-guided token intervention），这是一种简单的推理时委托方案：仅在分歧高的位置由推理模型接管一次令牌生成，随后立即切换回基础模型。在较小的干预预算下，这种稀疏委托方案能显著恢复甚至超越同尺寸推理模型在挑战性推理任务上的性能。代码见 https://github.com/AlphaLab-USTC/RRTokenIntervention。  

大型语言模型，推理，推理干预，可解释性  

## 1 引言  

参考图说明  

图1：分歧引导的令牌干预及其有效性。通过对8%的关键令牌（由强LRM在令牌级分布分歧触发，即上图）进行干预，0.6B基础模型能够恢复8B强LRM的大部分推理能力（即下图），并超越其经后训练的0.6B变体。

大型推理模型（LRMs）近年来在具有挑战性的推理基准测试上展现出相对于其基础LLM对应版本的显著优势（Zhao et al., 2023; Jaech et al., 2024; OpenAI, 2024; Guo et al., 2025; Mathematical Association of America, 2024; He et al., 2024），这些优势通常归因于测试时扩展（Li et al., 2025; Snell et al., 2025; Wang et al., 2023; Yao et al., 2023a）以及基于强化学习的后训练，如RLVR（Shao et al., 2024; Wen et al., 2025）。除了进一步提升性能外，这种不断扩大的基础–LRM差距激发了对一个更基本问题的兴趣：基础模型和推理模型之间到底有何不同，以及“推理模式”为何有效？越来越多的证据支持一种潜在能力假说：基础模型可能已经编码了相当多的推理机制，而后训练主要通过最小额外信号来激活、放大或稳定这些机制——例如激活向量导向（Turner et al., 2025; Venhoff et al., 2025; Zou et al., 2023; Ward et al., 2025）、基于置信度的自我奖励（Yuan et al., 2024; He et al., 2025）、分布级输出放大（Zhao et al., 2025），甚至单样本解锁（Wang et al., 2025b）。为了回答“为什么”的问题，以往工作在多个层面提出了假说。推理能力可能来源于引出更丰富的中间轨迹（如思维链提示，Wei et al., 2022; Zhou et al., 2023; Wang et al., 2023）；来源于诱导推理微行为，如回溯（Yao et al., 2023a, b）、验证（Lightman et al., 2024）和自我修正（Madaan et al., 2023; Pan et al., 2024; Marjanovic et al., 2025）；来源于通过将策略梯度更新限制在高熵令牌上来引导推理方向（Wang et al., 2025a）；或者来源于仅更新一小部分参数，即一个顶奇异推理子空间（Cai et al., 2025; Hu et al., 2021）。尽管有这些见解，我们仍然缺乏一个简单的令牌级解释来说明“推理模式”为何有效——即推理能力在令牌生成过程中究竟出现在何处，以及哪些决策点真正驱动了基础–LRM的性能差距。在本文中，我们通过使用基于似然的散度（如交叉熵和反向Kullback–Leibler散度，Cover and Thomas, 2001）来量化基础–LRM之间的令牌级分布差异，从而解决这一问题。然后，我们描述了哪些令牌承载了推理优势、有多少这样的令牌以及它们表现出的属性。跨多个基准测试，我们发现推理能力集中在数量惊人地少的、与规划相关的决策令牌上，这些令牌更可能出现在响应的早期。具体来说，仅有一小部分生成令牌决定了模型是否致力于一个推理轨迹：在Qwen3-0.6B（Yang et al., 2025）上，仅约8%的输出令牌占据了显著的基础–LRM分歧（即分歧尖峰）（见图1），表明令牌级分歧高度稀疏。此外，这些分歧尖峰不成比例地出现在生成的早期（见图2），这与常见的直觉（即推理增益主要来源于推理过程展开后的长轨迹）相反。最后，这些关键令牌与不确定性下的规划密切相关：在从基础到推理的展开恢复过程中，与规划相关的令牌变得显著更可能发生，出现概率增加了17×（见表5），并且它们与基础模型的内在不确定性高度相关（见图2(c)）。这表明基础模型在复杂推理任务上主要挣扎于规划点——它们最不自信的地方正是引导后续推理轨迹的规划决策。受这些发现的启发，我们提出一个问题：基础模型能否通过仅委托少量关键决策给推理模型，从而在有限帮助下获得强大的推理性能？我们提出一种简单的推理时机制，如图1所示：在基础–LRM分歧分数较大的位置，我们执行一次令牌接管——推理模型仅在该位置生成下一个令牌，之后立即切换回基础模型（Ong et al., 2025; Huang et al., 2026）。我们将这种稀疏委托方案称为分歧引导的令牌干预（图3）。实验表明，在较小的干预预算下，这种方法能够显著恢复——在某些设置中甚至超越——同尺寸推理模型在挑战性推理任务上的性能。总之，这些发现支持一种令牌级的推理观点：少量早期规划承诺可以引导整个轨迹并主导推理差距。

## 2 相关工作  

基础模型中的推理能力。当小型或基础模型暴露于适当的训练信号（如推理示例或思维链（Wei et al., 2022）轨迹（Ho et al., 2023））时，推理行为可能涌现。显式对齐，包括在结构化理由上进行微调，通常足以引发先前直接回答问题的模型进行多步问题求解（Ho et al., 2023）。强化学习已被证明能够逐步重构输出模式，增加响应长度并诱导更一致地使用中间推理步骤（Guo et al., 2025; Wang et al., 2025b）。激活空间方法如导向或目标编辑表明，推理模式（如回溯）可以在不更新权重的情况下因果性地在基础模型中诱导出来（Venhoff et al., 2025; Ward et al., 2025）。推理时方法，如CoT提示或自我验证反馈，也能触发在零样本设置中不会自然出现的推理行为（Wei et al., 2022; Gandhi et al., 2025）。这些发现共同表明，基础模型拥有广泛的推理能力，可以通过后训练机制、引导信号或结构干预来激活。

令牌级分布分歧。交叉熵、熵和散度为识别模型在生成过程中分歧或犹豫的关键决策位置提供了有效信号。这些信号有助于定位分叉令牌、易错步骤或弱模型与强参考模型严重偏离的地方。KL散度（前向和反向形式）已被用于比较不同模型的行为。前向KL惩罚学生模型偏离教师分布，而反向KL则强调学生模型在教师不偏好的输出上过度自信的令牌（Hinton et al., 2015; Gu et al., 2024; Agarwal et al., 2024）。熵衡量模型预测分布中的局部不确定性。熵尖峰通常对应于推理分叉或犹豫。将更新集中到高熵令牌上提高了RLVR的效率（Wang et al., 2025a），而熵引导的展开分支改善了探索（Zheng et al., 2025）。交叉熵衡量模型输出与目标分布之间的差异大小，并广泛用作训练损失。相反，Δlog p（模型在后训练前后对数概率的差异）捕捉了模型更新的方向性。这些指标支持识别推理行为发生改变或最需要监督的高影响令牌。

推理时的选择性干预。弱模型的推理能力可以通过插入强模型控制而不替换整个展开来增强。这些方法通常分为两类：用于效率的协作推理和用于蒸馏稳定性的引导生成。在协作推理中，强模型作为按需验证器以平衡性能和计算。在请求级别，通过根据预测的能力差距分配输入，可以将昂贵资源保留给困难查询（Ong et al., 2025）。对于更细粒度的控制，验证机制允许强模型在检测到质量下降时筛选并接管轻量级起草者（Chen et al., 2023）。此外，困难的推理步骤可以明确地“中继”给强模型（Huang et al., 2026），或者当小型模型超过内部风险阈值时升级到云端（Sun et al., 2024）。除了推理加速外，选择性干预对于稳定在线蒸馏至关重要，可以防止学生模型从错误轨迹中学习（Hinton et al., 2015; Gu et al., 2024; Agarwal et al., 2024）。为了确保数据质量，教师分布可以作为过滤器拒绝不太可能的令牌（Xu et al., 2025），或者在分歧峰值处动态接管生成以修正推理路径（Peng et al., 2025）。这些策略共同表明，将教师协助集中在稀疏的高影响位置，能够有效弥合弱模型与强模型在推理和训练阶段的差距。

参考图说明  

(a) 分歧高度稀疏  
(b) 高分歧令牌出现在早期  
(c) 分歧–不确定性重叠  

图2：令牌级分歧稀疏、早期且与不确定对齐，跨基准测试一致。(a) 洛伦兹曲线显示分歧质量高度集中在一小部分令牌上。(b) 前1%最高分歧令牌的归一化位置密度强烈偏向早期步骤（u = t/T），表明相对于均匀基线，早期到中期轨迹集中。(c) 前p%分歧令牌与前p%熵令牌之间的IoU在所有阈值下保持较高，显示跨模型分歧与基础模型不确定性之间的强对齐。

## 3 预备知识  

在本文中，我们重点关注标准基础模型与共享相同词汇表的更强推理模型之间的令牌级行为差异。在本节中，我们建立分析框架。我们首先在3.1节介绍对比生成设置和量化分布分歧的指标。然后，在3.2节正式阐述稀疏推理接管的问题。

### 3.1 设置与符号  

自回归生成过程。为了表征推理差距，我们考虑一个标准的自回归生成设置，涉及两个共享词汇表 V 的模型：一个基础模型 M_b 和一个更强的推理模型 M_r。给定一个输入序列 x = (x_1, ..., x_m)，两个模型自回归地生成一个长度为 n 的补全 y = (y_1, ..., y_n)。在第 t 步，两个模型都根据前缀 x ⊕ y_{<t} 定义下一个令牌上的概率分布 p_b(· | x ⊕ y_{<t}) 和 p_r(· | x ⊕ y_{<t})。我们的目标是理解这两个分布之间的差异以及这些差异如何驱动推理性能差距。

通过纠正少数决策令牌即可恢复推理能力

相似文章

解码大型推理模型中的批判机制

指令层级失效之处：诊断与修复推理语言模型中的故障

大型学习模型中增强且高效的推理

并非所有Token都同等重要：通过强化学习中的Token重要性实现高效LLM推理

人工理性的谜题：探究大型推理模型中的生成-评估差距

提交意见反馈