利用推理框架进行训练:面向复杂推理的在策略框架自蒸馏

arXiv cs.CL 论文

摘要

本文介绍了在策略框架自蒸馏(OPHSD),该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能,使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。

arXiv:2605.08741v1 公告类型:new 摘要:推理时框架(inference-time harnesses)显著提升了大型语言模型在复杂推理任务上的表现。然而,添加这些外部工作流并未改变底层模型的内在能力。为了弥合这一差距,我们提出了\emph{在策略框架自蒸馏}(OPHSD),该方法将增强框架的当前模型用作自蒸馏的教师模型,从而引入来自框架的、超越训练数据的额外监督信号。OPHSD 将特定任务的框架能力内化到学生模型中,在多种推理任务中产生了强大的泛化能力和卓越的独立性能。在文本分类任务的草稿-验证(draft-verify)框架和数学推理任务的计划-求解(plan-solve)框架上的评估表明,OPHSD 始终优于强大的基线模型(例如,在 HMMT25 数据集上比 OPSD 高出 10.83%)。我们的进一步分析表明,在推理阶段重新连接框架并没有带来额外的好处,甚至可能降低性能,这表明复杂的框架不必总是永久存在的组件;相反,它们可以作为临时的训练脚手架,其益处被永久性地反馈到基础模型中。我们的代码和训练数据可在 https://github.com/zzy1127/OPHSD-On-Policy-Harness-Self-Distillation 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:59

# 利用挂接训练:面向复杂推理的 On-Policy 挂接自蒸馏
来源:https://arxiv.org/html/2605.08741
郑阳 北京大学 zhengyangzhao25@stu\.pku\.edu\.cn
& 马鲁 北京大学 maluqaq@163\.com
& 张闻涛 北京大学 wentao\.zhang@pku\.edu\.cn

###### 摘要
推理时挂接(inference-time harnesses)显著提升了大语言模型在复杂推理任务上的表现。然而,基础模型的内在能力并未因这些外部工作流的添加而发生改变。为了弥合这一差距,我们提出了 **On-Policy 挂接自蒸馏**(OPHSD),该方法将经过挂接增强的当前模型作为教师进行自蒸馏,从而引入来自挂接的额外监督信号,超越传统训练数据的限制。OPHSD 将特定任务的挂接能力内化到学生模型中,从而在多样化的推理任务中实现强大的泛化能力和独立的卓越性能。在针对文本分类的“草稿-验证”(draft–verify)挂接和针对数学推理的“规划-求解”(plan–solve)挂接上的评估表明,OPHSD 始终优于强大的基线模型(例如,在 HMMT25 上比 OPSD 高出 10.83%)。我们的分析进一步表明,在推理阶段重新附加挂接并未带来额外收益,甚至可能降低性能,这表明复杂的挂接不必永远是永久性组件;相反,它们可以充当临时的训练脚手架,其收益永久性地反馈回基础模型中。我们的代码和训练数据可在 https://github.com/zzy1127/OPHSD-On-Policy-Harness-Self-Distillation 获取。

## 1 引言

大语言模型(LLMs)在许多推理、编码和智能体任务上表现出色 Anthropic (2026 (https://arxiv.org/html/2605.08741#bib.bib1)); OpenAI (2026 (https://arxiv.org/html/2605.08741#bib.bib3)); Google (2025 (https://arxiv.org/html/2605.08741#bib.bib2)); Teamet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib4)); Zenget al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib5)); DeepSeek-AI (2026 (https://arxiv.org/html/2605.08741#bib.bib6)); Huanget al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib8))。然而,当不使用推理时挂接时,它们在需要证据积累、中间验证或长 horizon 问题解决的问题上仍然可能表现脆弱。在这些场景中,模型可能会忽略相关上下文、传播早期错误或未能修正不正确的部分解决方案。

为了应对这一局限性,近期的系统将基础模型与推理时挂接相结合,这是一种外部支架,通过控制在推理过程中信息如何被维护、检索、转换和呈现给模型,来构建模型的推理过程 OpenClaw Team (2026 (https://arxiv.org/html/2605.08741#bib.bib11)); Anthropic (2025 (https://arxiv.org/html/2605.08741#bib.bib10)); Chen (2026 (https://arxiv.org/html/2605.08741#bib.bib13)); Nous Research (2026 (https://arxiv.org/html/2605.08741#bib.bib12)); Chenet al\.(2024 (https://arxiv.org/html/2605.08741#bib.bib40))。此类挂接在实际中通常能提高鲁棒性,但这种增益来自外部流程而非模型本身。

这种模型与挂接之间的分离带来了实际和科学上的挑战。在实践中,这些系统增加了延迟、token 成本和工程复杂性,同时在检索、转换和控制流中引入了新的故障模式。在科学上,这使得更难判断模型本身学到了什么。挂接可能为给定输入提供有用的流程,但一旦移除挂接,基础模型无需保留该流程。即使模型本身仍然脆弱,整体系统也可以得到改善。

现有的后训练方法并未直接填补这一空白。监督微调(SFT)模仿静态演示,但未教会模型适应其流程。强化学习(RL)优化任务级奖励,但通常提供稀疏监督,难以识别哪些流程行为至关重要。On-policy 蒸馏(OPD)Lu and Lab (2025 (https://arxiv.org/html/2605.08741#bib.bib14)); Song and Zheng (2026 (https://arxiv.org/html/2605.08741#bib.bib9)); Agarwalet al\.(2024 (https://arxiv.org/html/2605.08741#bib.bib39)),在教师提供的密集 token 级监督下训练学生自己的轨迹,因此成为内化推理时挂接行为的自然载体。

这留下了一个核心问题:由此类挂接诱导的逐步流程能否被吸收进模型参数中?我们通过 **on-policy 挂接自蒸馏**(OPHSD)研究这一问题,这是一种围绕特定任务推理挂接构建的自蒸馏方法。在训练期间,OPHSD 在该挂接内运行模型,因此其 rollout 是在增强的推理流程下生成的,例如在线文本分类的检索增强推理或数学推理的规划-求解编排。这些挂接辅助的 rollout 随后作为训练相同模型(无额外支架)的目标,因此学生从自身受辅助的行为中学习。形式上,OPHSD 使用反向 KL 目标来匹配这些 on-policy rollout。直观地说,这鼓励无辅助模型重现较强流程下观察到的行为。在推理时,移除挂接,因此任何改进都反映了模型学会自行产生的行为,而非持续的外部辅助。

实证上,OPHSD 提高了任务性能,同时减少了对推理时挂接的依赖。在线文本分类和数学推理中,它优于强大的基线,并在评估基准上取得了最佳整体结果。在文本分类方面,它在 LawBench 指控分类和 USPTO 反应类型预测上取得了最佳结果;在数学推理方面,它在 AIME24、AIME25、OlympiadBench 和 HMMT25 上获得了最高的平均 pass@8(在 HMMT25 上比 OPSD 提高 10.83%,比 GRPO 提高 8.33%)。我们还发现,在推理时重新附加挂接并未带来进一步收益,对于文本分类,甚至可能降低性能。

本文有三点贡献。首先,我们介绍了 OPHSD,一种自蒸馏方法,使用模型自身的挂接辅助 rollout 来训练不带挂接的相同模型。其次,我们表明 OPHSD 适用于两种性质不同的挂接:用于在线文本分类的“草稿-验证”和用于数学推理的“规划-求解”。第三,我们提供了实证证据,表明蒸馏后的模型可以内化挂接的有用方面,使得挂接在测试时变得不必要,在某些情况下甚至适得其反。更广泛地说,我们的结果表明挂接在 LLM 系统中具有更广泛的作用:除了作为推理时的支架外,它们还可以充当临时的训练时结构,其流程收益转移到模型中。

## 2 相关工作

### 2.1 On-Policy 蒸馏

知识蒸馏将教师模型的能力转移给学生模型。传统蒸馏在教师生成的响应或人类演示上训练学生,这可能导致训练和推理之间的不匹配。On-policy 蒸馏(OPD)Song and Zheng (2026 (https://arxiv.org/html/2605.08741#bib.bib9)); Lu and Lab (2025 (https://arxiv.org/html/2605.08741#bib.bib14)) 则在从学生当前策略采样的轨迹上进行训练,教师对学生生成的 rollout 提供监督。这允许教师纠正学生实际访问的状态,减少自回归生成期间的分布不匹配。

现有 OPD 方法主要在如何利用教师信号方面有所不同。基于奖励的 OPD 将教师-学生分歧(如反向 KL)公式化为策略梯度奖励 Lu and Lab (2025 (https://arxiv.org/html/2605.08741#bib.bib14)); Koet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib15)); Yanget al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib16)); Xiaoet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib7))。这种范式自然适应非可微或轨迹级反馈,但可能遭受高方差和对奖励设计的敏感性。相比之下,基于损失的 OPD 直接在学生生成的 rollout 中恢复可微的 token 级蒸馏损失 Zhaoet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib24)); Shenfeldet al\.(2026a (https://arxiv.org/html/2605.08741#bib.bib17)); Fuet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib18)); DeepSeek-AI (2026 (https://arxiv.org/html/2605.08741#bib.bib6)); Heet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib36))。它提供密集、低方差的监督,但需要访问教师分布,且在教师较大时计算成本高昂。

OPHSD 与 OPD 相邻,但不同于标准的教师评分设置。它也使用学生条件的轨迹,但其监督来自基础模型在外部挂接内生成的轨迹,而非来自相同前缀上的单独教师分布。其目标是内化挂接诱导的响应模式,以便蒸馏后的模型在推理时无需挂接即可重现它们。

### 2.2 挂接工程

挂接是围绕模型或智能体调用的编排层,用于任务家族 Anthropic (https://arxiv.org/html/2605.08741#bib.bib19)。它定义控制流、中间工件、工具中介、验证门控、停止条件以及跨步骤或委托工作人员持续的状态。近期的公开工程记录确定挂接工程是智能体可靠性和性能的关键驱动因素 Chen (2026 (https://arxiv.org/html/2605.08741#bib.bib13)); Anthropic (2025 (https://arxiv.org/html/2605.08741#bib.bib10)); OpenClaw Team (2026 (https://arxiv.org/html/2605.08741#bib.bib11)); Nous Research (2026 (https://arxiv.org/html/2605.08741#bib.bib12))。在研究中,一条独特但相关的工作线将挂接本身视为设计和优化的对象。NLAHs 将挂接行为外部化为由共享运行时执行的可编辑自然语言规范,而 Meta-Harness 搜索挂接实现以提高下游智能体性能 Leeet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib20)); Panet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib21))。包括 AutoHarness Louet al\.(2026 (https://arxiv.org/html/2605.08741#bib.bib22)) 在内的互补努力,探索挂接合成和模块化挂接设计。这些工作调查如何表示、修改和优化周围编排以改善智能体行为。

OPHSD 共享编排重要的前提,但它优化不同的工件。挂接工程方法改进留在部署循环中的外部系统。相比之下,OPHSD 使用挂接为稍后不带该运行时部署的模型生成监督。因此,相关的区别在于优化后持久存在的是什么:挂接本身还是基于挂接产生的输出训练的模型。

## 3 方法论

### 3.1 预备知识:On-Policy 蒸馏和特权上下文

我们建立在 on-policy 蒸馏(OPD)之上 (Lu and Lab, 2025 (https://arxiv.org/html/2605.08741#bib.bib14)),它在学生自己的 rollout 上训练学生策略 $p_S$,同时教师策略 $p_T$ 提供密集的 token 级监督。给定问题分布 $\mathcal{S}$,学生首先采样轨迹 $\hat{y} \sim p_S(\cdot|x)$;两个策略然后逐 token 评估 $\hat{y}$,学生 $\theta$ 更新以最小化 $L_{OPD}(\theta) = \mathbb{E}_{x \sim \mathcal{S}} \mathbb{E}_{\hat{y} \sim p_S(\cdot|x)} \frac{1}{\|\hat{y}\|} \sum_{n=1}^{\|\hat{y}\|} D(p_T(\cdot|x, \hat{y}, ...)$

...

`"compares_alternatives": , "reason": \}`.

Trace: `{trace}`
Final label: `{label}`

## 附录 B 案例研究

### B.1 文本分类:挂接如何缩小训练后学生的推理范围

我们分析了两种推理模式。**模式 A** 是训练后学生不带任何挂接的单次前向传递。**模式 B** 是相同模型在“草稿-验证”挂接内。我们选取一个问题(LawBench-3-3, idx 44)进行端到端检查,其中模式 A 优于模式 B。数据已从中文翻译。

#### 问题

问题 (LawBench-3-3, idx 44)
2015年2月7日16:30左右,被告王和郭在图们市的一家餐厅饮酒。在与受害者刘就琐事发生口头争执后,三人卷入了一场互殴。当天18:09,刘在接受警方询问时感到不适并被送往医院,尽管进行了复苏,他仍于20:25死亡。**尸检报告结论认为,刘死于由言语和肢体冲突引发的急性心脏事件,背景是冠心病,并且创伤与死亡之间存在因果关系。** 刘遭受双侧粉碎性鼻骨骨折,被评定为轻伤二级。
黄金标签:过失致人死亡。

这是一个典型的边界问题。死亡源于斗殴,**但** 直接原因是创伤引发的急性心脏事件,而非创伤本身。法律上正确的指控是过失犯罪,而非从常规斗殴模式中推断出的明显的**故意伤害**。

#### 模式 A —— 单次前向,无挂接

训练后学生的思维链在两个候选指控之间进行了**双向**权衡:

模式 A 推理摘录(译文):
... 检方认为王和郭的行为构成 **故意伤害** ... 但我还应该考虑其他可能的指控,如 **过失致人死亡** 或 **故意伤害致人死亡** ....
... 如果他们的行为构成斗殴中的过失——例如,事先不知道刘患有冠心病——那么他们的罪行可能构成 **过失致人死亡** 。然而,在常规斗殴模式的案件中,斗殴中造成的伤害通常被分类为 **故意伤害** ...

模式 A 判决:
\[charge\] 故意伤害; 过失致人死亡 ⟨eoa⟩ (set-F1=0.67; **包含黄金标签**)

#### 模式 B —— 带挂接的训练后模型

##### 草稿阶段。

通过余弦相似度检索到的五个记忆库邻居都带有 **故意伤害**:

Top-5 检索邻居(草稿提示):
没有任何一个带有 **过失致人死亡** 。

在这些片面的例子条件下,模型的草稿思维链将之前的双向权衡坍缩为单向确认:

模式 B 草稿推理摘录(译文):
... 在类似案件中,当伤害行为直接导致他人死亡时,罪行通常被分类为 **故意伤害** ... 在第一个示例中,被告殴打受害者并造成严重伤害——分类为 **故意伤害** ;在另一个示例中,斗殴导致他人死亡——也分类为 **故意伤害** ...

草稿判决:
\[charge\] 故意伤害 ⟨eoa⟩。
**过失致人死亡** 在轨迹中甚至不再**提及**。

##### 验证阶段。

挑战者邻居(标签集与草稿不同的案例)来自完全无关的语义簇:

Top-5 挑战者邻居(验证提示):
没有任何一个带有 **过失致人死亡** ;所有这些都与斗殴模式的问题事实语义无关。

在被要求验证或修正草稿时,模型面前没有任何指向 **过失致人死亡** 的内容。

模式 B 判决:
\[charge\] 故意伤害

相似文章

通过混合策略蒸馏进行推理压缩

arXiv cs.AI

本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。