DenseSteer:引导小型语言模型走向密集数学推理

arXiv cs.AI 论文

摘要

DenseSteer是一种无需训练的推理时框架,通过将小型语言模型的内部表示引导至密集推理模式,提升其数学推理能力,在不增加词元级负对数似然的情况下实现准确率提升。

arXiv:2605.29247v1 公告类型:新 摘要:大型语言模型(LLMs)展现出强大的链式思维(CoT)推理能力,而较小模型(≤3B参数)在多步推理任务上表现明显不足。基于对Qwen-2.5模型系列在数学推理基准上的实证分析,我们发现更熟练的推理与更少的推理步骤但每步更高的信息密度相关,我们称此属性为密集推理(Dense Reasoning)。受此观察启发,我们提出DenseSteer,一种无需训练的推理时引导框架,通过将内部表示向密集推理模式调整来增强小模型推理能力。实验表明,我们的方法在不增加词元级负对数似然(Negative Log-Likelihood)的情况下,持续提升准确率,突出了密集推理作为数学问题求解的一种有效结构方法。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:15

# DenseSteer:引导小型语言模型走向密集数学推理

来源:https://arxiv.org/html/2605.29247

###### 摘要

大型语言模型(LLMs)展现出强大的链式思维(CoT)推理能力,而小型模型(≤3B参数)在多步推理任务上表现明显不足。基于对Qwen-2.5模型系列在数学推理基准上的实证分析,我们发现,更熟练的推理与更少的推理步骤但每步更高的信息密度相关,我们将这一特性称为密集推理(Dense Reasoning)。受此观察启发,我们提出DenseSteer,一个无需训练、在推理时进行引导的框架,通过调节内部表征使其朝向密集推理模式,从而增强小型模型的推理能力。实验表明,我们的方法在不增加token级负对数似然的情况下持续提升了准确率,凸显了密集推理作为数学问题求解中有效结构方法的潜力。

数学推理、大型语言模型、机器学习、ICML

参见图注

图1:GSM8K上推理模式分析。对于每个模型和每个GSM8K测试问题,我们采样8个回答。误差条表示均值标准误差(SEM)的±1,基于问题级别的平均值计算。在Qwen2.5-Instruct模型中,较强模型通常比较小、准确率较低的模型使用更少的推理步骤和更高的每步密度。这一粗略趋势促使我们关注密集的、与模型对齐的推理。

参见图注

图2:所提出的DenseSteer框架概览。给定一个查询,目标模型首先生成一个基线推理轨迹。该轨迹被最小限度地改写为密集变体,同时保留语义内容,形成对比对。密集与稀疏变体之间的隐藏状态差异被聚合,以在选定层提取引导向量。在推理时,该引导向量被注入残差流,以引导目标模型朝向更密集的推理,而无需修改模型参数。

## 1 引言

大型语言模型(LLMs)(Brown et al., 2020(https://arxiv.org/html/2605.29247#bib.bib34))展示了显著的问题求解能力,通常通过先进行逐步推理再给出最终答案的方式,这被称为链式思维(CoT)(Cobbe et al., 2021a(https://arxiv.org/html/2605.29247#bib.bib48);Wei et al., 2022(https://arxiv.org/html/2605.29247#bib.bib12),2023(https://arxiv.org/html/2605.29247#bib.bib27);Cobbe et al., 2021a(https://arxiv.org/html/2605.29247#bib.bib48);Shao et al., 2024(https://arxiv.org/html/2605.29247#bib.bib61);Yang et al., 2024(https://arxiv.org/html/2605.29247#bib.bib60))。通过将复杂问题求解结构化为一连串连贯的推理,该技术增强了性能和可解释性。然而,LLMs的实际应用受到其高昂部署成本的阻碍,而CoT推理中额外的token开销进一步加剧了这一负担。为了缓解这些限制,近期研究转向了小型语言模型(SLMs),这些模型在较小规模下保留了LLMs的部分能力。尽管具有效率优势,紧凑架构(通常≤3B参数)与前沿模型(Anthropic,2023(https://arxiv.org/html/2605.29247#bib.bib36);Achiam et al., 2023(https://arxiv.org/html/2605.29247#bib.bib38);Touvron et al., 2023(https://arxiv.org/html/2605.29247#bib.bib35))之间存在显著的性能差距。这种差距即使在同一个模型家族内部也存在(例如,Qwen2.5-3B-Instruct vs. Qwen2.5-72B-Instruct)。缩小这一差距的一种广泛采用的方法是知识蒸馏(KD)(Hinton et al., 2015(https://arxiv.org/html/2605.29247#bib.bib75);Gu et al., 2024(https://arxiv.org/html/2605.29247#bib.bib76);DeepSeek-AI et al., 2024(https://arxiv.org/html/2605.29247#bib.bib89);Agarwal et al., 2024(https://arxiv.org/html/2605.29247#bib.bib78)),即使用较大“教师”模型生成的推理来微调较小的“学生”模型。虽然有效,但KD仍需要大量训练时间、大量GPU资源和教师生成的大规模数据集,计算成本高昂。更为关键的是,小型模型往往难以吸收强大的教师轨迹,导致可学习性差距和严重的分布不匹配(Li et al., 2025(https://arxiv.org/html/2605.29247#bib.bib20))。相比之下,我们探索了一种轻量级的推理时替代方案,基于引导向量(Panickssery et al., 2024(https://arxiv.org/html/2605.29247#bib.bib8)),通过偏移激活状态来调节模型行为,所需的计算开销可忽略不计。引导向量具有极高的数据效率,可仅由50个对比样本构建。然而,如果我们简单地将SLM的隐藏状态引导向一个更大模型的原始隐藏状态,会导致严重的分布不匹配,表现为高负对数似然(NLL),如我们在第3.1节(https://arxiv.org/html/2605.29247#S3.SS1)中通过实验所展示的那样。我们的关键动机观察是一个粗粒度的推理模式差异:性能更高的模型通常产生更少碎片化的轨迹,使用更少的中间步骤,同时保持每步更高的信息密度,如图1(https://arxiv.org/html/2605.29247#S0.F1)所示。我们将这种现象称为密集推理(Dense Reasoning),并通过在第3.2节(https://arxiv.org/html/2605.29247#S3.SS2)中提出的推理密度指标进行量化。这种不对称模式促使我们假设密集推理是一个有用的结构目标。我们通过干预实验支持这一主张,证明引导模型朝向更密集的推理既能改善推理结构,也能提高任务准确率。为了在不引起分布偏移的情况下转移这种结构,我们提出了DenseSteer¹。我们不是直接使用大型模型的轨迹作为正样本,而是利用商业模型GPT-5.1将SLM自身的输出改写为模仿较大模型“密集推理”风格的形式——我们将这种方法称为密集改写(Dense-Rewriting)。这会创建一个领域内的正锚点,既与学生模型的分布对齐,又采用了更优的推理结构。通过从这些改写样本构建引导向量,DenseSteer实现了双重增益:它通过强制执行密集推理显著提升了数学推理任务的准确率,同时保持了较低的NLL。总之,我们的贡献如下:
- ·我们识别出密集推理是大型语言模型中高水平数学推理的一个结构特征,其中解用更少的中间步骤但更高的每步信息密度来表达。
- ·我们提出了DenseSteer,一个轻量级、无需训练、推理时范式的,能以极少量样本有效提升SLM性能。
- ·我们通过密集改写(Dense-Rewriting)实现这一点,这是一种基于改写的对比对构建方法,能够保持分布内生成同时缓解分布偏移,从而在不增加NLL的情况下实现稳定的准确率提升。

## 2 相关工作

### 2.1 知识蒸馏与基于训练的策略增强

知识蒸馏已被广泛用于将大型语言模型的推理能力转移到较小的学生模型,通过使用教师生成的推理或轨迹(Hinton et al., 2015(https://arxiv.org/html/2605.29247#bib.bib75);Gu et al., 2024(https://arxiv.org/html/2605.29247#bib.bib76);DeepSeek-AI et al., 2024(https://arxiv.org/html/2605.29247#bib.bib89);Agarwal et al., 2024(https://arxiv.org/html/2605.29247#bib.bib78))。近期工作表明,对推理轨迹进行结构化监督可以显著提升紧凑模型中的数学推理能力。部分研究进一步探讨了高效的推理专用蒸馏或训练策略。Skip-Thinking(Chen et al., 2025b(https://arxiv.org/html/2605.29247#bib.bib136))引入了分块链式思维蒸馏,以实现更快、更准确的推理;而Phi-4-Mini-Reasoning(Xu et al., 2025(https://arxiv.org/html/2605.29247#bib.bib137))则研究了使用蒸馏CoT数据训练小型推理模型的定制化方案。虽然有效,但这些方法依赖于训练密集的流水线和大规模的教师监督。此外,强教师轨迹可能导致紧凑模型出现严重的分布不匹配,从而产生可学习性差距(Li et al., 2025(https://arxiv.org/html/2605.29247#bib.bib20))。相比之下,我们的工作关注推理时推理结构的转移,无需参数更新。

### 2.2 推理时引导与表征级控制

推理时干预方法旨在通过操纵隐藏表征或解码动态来调节模型行为,无需重新训练(Panickssery et al., 2024(https://arxiv.org/html/2605.29247#bib.bib8);Turner et al., 2024(https://arxiv.org/html/2605.29247#bib.bib139);Zou et al., 2025(https://arxiv.org/html/2605.29247#bib.bib140);Højer et al., 2025(https://arxiv.org/html/2605.29247#bib.bib19))。这些技术已被应用于风格控制、安全对齐和偏见缓解。近期研究表明,表征级干预也能影响更高层次的推理行为。例如,SEAL通过引导远离冗余反思和过渡模式来校准显式的长CoT推理轨迹(Chen et al., 2025a(https://arxiv.org/html/2605.29247#bib.bib5))。其他工作分析了多步推理的内部结构,强调了稳定中间表征和潜在推理回路的重要性(Wang et al., 2025(https://arxiv.org/html/2605.29247#bib.bib142);Yang et al., 2025(https://arxiv.org/html/2605.29247#bib.bib143))。我们的工作建立在这一研究线之上,但不同之处在于引导信号的构建和选择。大多数先前的引导设置对比的是行为或语义上相反的示例,例如正面与负面演示、目标与相反偏好、或安全与不安全提示。而DenseSteer则将同一解答改写为更密集的版本,同时保留其推理语义,并使用目标模型的NLL作为显式的兼容性标准。因此,我们的贡献是一种分布内的对比信号,用于引导推理密度,无需辅助训练或大规模的分布偏移。

## 3 预备知识与观察

受先前在知识蒸馏(Son et al., 2021(https://arxiv.org/html/2605.29247#bib.bib7))中发现的以及近期对小型语言模型(Li et al., 2025(https://arxiv.org/html/2605.29247#bib.bib20))“可学习性差距”分析的影响,我们认识到知识转移的有效性从根本上受限于目标(学生)模型与参考(教师)模型之间的分布差异。特别地,即使参考回答是正确的或高质量的,如果它们落在学生模型内在生成分布之外,小型模型也可能难以吸收。由于我们的方法依赖于“正样本”,而在我们的设定中这些正样本可能来自参考模型的回答,因此我们需要一个标准来选择与目标模型分布兼容的正样本。因此,我们引入了一个简单而有效的度量,用于识别与目标模型分布差异最小的正样本,从而提高推理时引导的稳定性和有效性。

### 3.1 量化分布差异

为了量化参考轨迹与目标模型的兼容程度,我们通过在一组共享的N=200个GSM8K样本上计算token级负对数似然(NLL)来评估这些轨迹在学生模型下的自然程度。形式上,对于参考推理token序列 x_{1:T},我们计算:NLL(x; P_θ) = -1/T ∑_{t=1}^T log P_θ(x_t | x_{<t}),其中 P_θ 是学生的token概率。较低的NLL表明参考轨迹与学生的生成分布更对齐。

> λ > 10

为了进一步理解引导强度如何影响模型置信度和生成行为,我们分析了随着λ变化,token级NLL、准确率和token动态的变化。图5(https://arxiv.org/html/2605.29247#S6.F5)显示了在不同引导强度下的整体任务准确率。与我们之前的层敏感性分析一致,在中间层(L17)进行引导时,准确率随着λ的增加而单调提升,而后期层(L35)的引导则变得不稳定,并在较大λ时降低性能。这表明在适当深度进行适度的密集引导可以有效提升小型模型的推理正确性,而过度的或后期阶段的干预会干扰模型已建立的生成过程。图6(https://arxiv.org/html/2605.29247#S6.F6)通过测量基础模型下生成推理轨迹的token级NLL,考察了引导强度如何影响模型的内在置信度。我们观察到,有效的引导(例如,层17和合适的λ)一致地降低了NLL,表明引导后的轨迹不仅更准确,而且更符合模型自然的生成先验。综合来看,这些结果揭示了λ在引导中的关键作用:适度的引导通过将模型引导向高置信度、密集推理的轨迹,不仅提升了准确率还降低了NLL;而过度的引导则破坏生成稳定性,损害性能。

### 6.2 领域外迁移

为了检验DenseSteer的泛化性和可迁移性,我们在逻辑推理基准LogiQA(Liu et al., 2020(https://arxiv.org/html/2605.29247#bib.bib1))上评估了同一流水线。如表2(https://arxiv.org/html/2605.29247#S6.T2)所示,DenseSteer和InFamilySteer都显著优于零样本基线,将精确匹配准确率从44.22%提升至58.22%和60.22%。这表明密集的、与模型对齐的推理不仅限于数学推理,还能迁移到更广泛的逻辑推理任务。

表2:LogiQA迁移结果。EM表示精确匹配准确率。

| 方法 | 最佳层 | 最佳λ | EM (%) |
|------|--------|-------|--------|
| 基线 | – | – | 44.22 |
| DenseSteer | L16 | -4.0 | 58.22 |
| InFamilySteer | L2 | -1.5 | 60.22 |

我们还评估了在MMLU(Hendrycks et al., 2020(https://arxiv.org/html/2605.29247#bib.bib4))、BBH CoT(Suzgun et al., 2023(https://arxiv.org/html/2605.29247#bib.bib3))和HotpotQA(Yang et al., 2018(https://arxiv.org/html/2605.29247#bib.bib2))上更广泛的领域外鲁棒性。如表3(https://arxiv.org/html/2605.29247#S6.T3)所示,引导方法与基线保持可比,没有表现出明显的退化。

表3:领域外鲁棒性。HotpotQA报告F1;其他任务使用准确率。

| 任务 | 基线 | DenseSteer | InFamilySteer |
|------|------|------------|---------------|
| MMLU | 64.61 | 64.62 | 62.74 |
| BBH CoT | 54.42 | 54.05 | 54.26 |
| HotpotQA | 46.64 | 45.87 | 47.62 |

## 7 结论

我们提出了DenseSteer,一种通过将内部表征引导向更密集形式来增强SLM推理能力的方法。通过减少推理步骤并增加推理密度,我们提升了数学基准上的性能。我们在多个基准上的实验结果表明,推理时引导是一种强大、低成本的微调替代方案,用于改进小型模型的推理。

## 影响声明

本文介绍的工作旨在推动

相似文章

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。