学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL 论文

摘要

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

arXiv:2605.11739v1 公告类型:新论文 摘要:On-policy 蒸馏(OPD)已成为大型语言模型高效后训练范式的代表。然而,现有研究大多将这一优势归因于更密集且更稳定的监督,而 OPD 效率背后的参数级机制仍知之甚少。在本研究中,我们认为 OPD 的效率源于一种“预见性”:它在训练早期就建立了一条通向最终模型的稳定更新轨迹。这种预见性体现在两个方面。首先,在**模块分配层面**,OPD 识别出边际效用较低的区域,并将更新集中在对推理更为关键的模块上。其次,在**更新方向层面**,OPD 表现出更强的低秩集中性,其主导子空间在训练早期便与最终更新子空间高度对齐。基于这些发现,我们提出了**EffOPD**,一种即插即用的加速方法,通过自适应选择外推步长并沿当前更新方向移动来加速 OPD。EffOPD 无需额外的可训练模块或复杂的超参数调整,在保持最终性能相当的同时,实现了平均 $3\times$ 的训练加速。总体而言,我们的研究结果为从参数动态角度理解 OPD 的效率提供了视角,并为设计更高效的大型语言模型后训练方法提供了实际见解。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:17

# 学会预见:揭示 On-Policy Distillation 的解锁效率之源

来源: https://arxiv.org/html/2605.11739

Yuchen Cai${}^{1,2}$, Ding Cao${}^{1,4}$${}^{1}$, Liang Lin${}^{5}$, Chunxi Luo${}^{6}$, Xin Xu${}^{2}$, Kai Yang${}^{2}$, Weijie Liu${}^{2}$, Saiyong Yang${}^{2}$, Tianxiang Zhao${}^{4}$, Guangzhong Sun${}^{1}$, Guiquan Liu${}^{1}$, Junfeng Fang${}^{3}$${}^{3}$

${}^{1}$USTC, ${}^{2}$Tencent, ${}^{3}$NUS, ${}^{4}$HKUST(GZ), ${}^{5}$Alibaba, ${}^{6}$SHU

$\{$caiyuchen,caoding$\}[email protected]

这些作者对本工作贡献同等。本工作完成于在腾讯的实习期间。
通讯作者: [email protected], [email protected]

###### 摘要

On-Policy Distillation (OPD) 已成为一种高效的大语言模型后训练范式。然而,现有研究大多将这一优势归因于更密集、更稳定的监督信号,而 OPD 效率背后的参数级机制仍未得到充分理解。在本工作中,我们提出 OPD 的效率源于一种“预见性”(foresight):它在训练早期就建立了通向最终模型的稳定更新轨迹。这种预见性体现在两个方面。首先,在**模块分配层面**,OPD 能够识别边际效用较低的区域,并将更新集中在对推理更为关键的模块上。其次,在**更新方向层面**,OPD 表现出更强的低秩集中性,其主导子空间在训练早期便与最终更新子空间高度对齐。基于这些发现,我们提出了 **EffOPD**,这是一种即插即用的加速方法,通过自适应选择外推步长并沿当前更新方向移动来加速 OPD。EffOPD 无需额外的可训练模块或复杂的超参数调优,在保持最终性能可比的同时,实现了平均 **3倍** 的训练加速。总体而言,我们的发现为理解 OPD 的效率提供了参数动态视角,并为设计更高效的大语言模型后训练方法提供了实际见解。我们的代码可在以下地址获取:https://github.com/caiyuchen-ustc/EffOPD。

> 图 1:OPD 中预见性机制的插图。与 RL 相比,OPD 在训练早期识别出关键模块并与最终优化方向对齐,集中有效更新并减少冗余。在此基础上,我们提出了 EffOPD,它沿早期预测方向进行外推以加速训练。

“预见未来即掌控当下。” —— 尼科洛·马基雅维利

## 1 引言

随着大型语言模型(LLMs)在推理能力上的不断进步(OpenAI, 2025; DeepSeek-AI et al., 2025),On-Policy Distillation(OPD)已成为后训练和模型融合的重要范式(Agarwal et al., 2024b; Xiao et al., 2026; DeepSeek-AI, 2026)。给定一个教师模型,OPD 利用密集的监督信号,以大幅减少的训练时间实现与强化学习(RL)相当的性能(Venkatkrishna et al., 2026; Yang et al., 2025)。现有研究主要将这一优势归因于更密集和更稳定的监督(He et al., 2026; Yue et al., 2025)。然而,这种以优化为中心的解释 largely 停留在宏观层面,未能捕捉底层的参数更新动态(Zhang et al., 2025b)。

在本工作中,我们认为 OPD 的效率源于一种“预见性”:它在训练早期就建立了稳定且高度对齐的更新方向,使得模型能够在有限的探索与修正下快速收敛。这种预见性体现在两个方面。

**模块分配层面的预见性。** 我们的分析显示,在相同的更新范数约束下,OPD 比 RL 实现了更大的性能增益,这表明其优势不仅仅源于参数更新的幅度(Geva et al., 2021, 2023)。进一步分析表明,尽管 RL 和 OPD 在不同层和模块间表现出相似的敏感性模式,但 RL 在对性能提升贡献有限的模块中积累了大得多的更新范数,从而引入了边际效用低下的冗余更新。相比之下,OPD 表现出一种“预见性”。如图 1(b) 所示,它在训练早期就识别出这些低效用模块并抑制其参数更新,从而使更新更有效地集中在对推理更关键的中间层模块上(Men et al., 2023)。

**更新方向层面的预见性。** 在更新方向层面,OPD 的预见性体现在其更新方向与最终解的主方向在早期的对齐。谱分析和子空间演化分析显示,OPD 在训练早期将更新集中在少数稳定的主导方向上(Zhang, 2015),其主导方向与最终更新子空间高度对齐,并在此后保持稳定,如图 1(c) 所示。相比之下,RL 表现出更分散的更新,对齐出现延迟且波动更大。此外,在对模块级范数进行缩放后,OPD 在仅完成 10% 训练进度时的检查点便能恢复约 80% 的最终推理性能。这表明 OPD 在早期就捕捉到了最终解的主要结构,并以最小的探索和修正锁定在了有效的方向上。

为了进一步验证这些见解并提高 OPD 的训练效率,我们提出了 **EffOPD**,这是一个简单直观的加速框架。如图 1(d) 所示,EffOPD 沿当前更新方向进行线性外推,利用 OPD 固有的“预见性”,以更少的训练迭代和样本匹配 vanilla OPD 的最终性能。在从 1.5B 到 32B 参数的不同模型规模上的实验显示,EffOPD 以即插即用的方式在多个基线基础上实现了平均 **3倍** 的训练加速,同时保持了可比的最终性能。

综上所述,本工作识别了 LLMs 中 OPD 的一种预见性,并认为这是其训练效率的关键来源。我们的分析为“由于监督更密集,蒸馏更容易优化”这一普遍直觉提供了参数级的解释(Yang et al., 2026b)。基于这些发现,EffOPD 为 OPD 提供了一种简单的即插即用加速方法,无需额外模块、复杂的超参数调优或人工干预。它实现了平均 **3倍** 的训练加速,并且与现有的加速技术正交,为设计更可解释、更高效的大语言模型后训练范式提供了新的见解。

> 图 2:RL 与 OPD 的参数更新效率比较。(a)最终检查点的缩放分析:对于缩放到相同范数的更新,OPD 实现了比 RL 高得多的推理增益。(b)训练动态:在整个优化轨迹中,OPD 始终需要比 RL 更小的参数更新来达到相当的推理准确率。

## 2 功能冗余避免

在本节中,我们研究了 OPD 与 RL 之间的模块级差异。我们显示 OPD 表现出模块级的“预见性”:它优先将更新集中在高边际效用的功能区域,同时抑制低效用区域的参数变化。我们将此属性称为**功能冗余避免**(Functional Redundancy Avoidance)。第 2.1 节介绍实验设置,第 2.2 节比较 OPD 与 RL,展示这种预见性如何导致更紧凑、高效的参数更新。

### 2.1 实验设置

我们的分析对 RL 和 OPD 使用共享的初始权重 $W_{\mathrm{Base}}$,参数更新定义为 $\Delta W_{\mathrm{RL/OPD}} = W_{\mathrm{RL/OPD}} - W_{\mathrm{Base}}$。我们在 1.5B 到 32B 参数的模型上进行实验,包括预训练模型、SFT 微调模型和 Thinking 系列模型(Qwen et al., 2025; Zhang et al., 2025c; Yang et al., 2025)。对于 RL,我们考虑 PPO、GRPO 和 DAPO(Yue et al., 2025)。对于 OPD,学生模型使用模式对齐的教师进行训练,通常来自同一系列的更强模型(Li et al., 2026)。更多细节见附录 D.2。

### 2.2 参数更新与推理增益

#### 全量训练模型的结果。

我们首先检查最终检查点的更新效率。具体而言,我们固定来自最后检查点的更新方向 $\Delta W_{\mathrm{RL/OPD}}$,并使用因子 $\alpha \in [0,1]$ 缩放其幅度,评估形式为 $W_{\mathrm{Base}} + \alpha \Delta W_{\mathrm{RL/OPD}}$ 的模型。如图 2(a) 所示,当更新缩放到相同范数时,OPD 实现了比 RL 高得多的推理增益。这表明 $\Delta W_{\mathrm{RL}}$ 包含相当数量的与任务性能弱相关的组件——它们贡献于更新范数,但提供的推理改进有限。相比之下,OPD 更新携带了更大比例的任务相关信号,有效地转化为性能提升。

#### 整个训练过程的结果。

这一观察自然引出了一个关键问题:这些弱任务相关组件在 RL 训练过程中何时出现?由于 RL 训练模型的性能通常在后期趋于饱和,一种可能的解释是冗余更新主要在训练末期积累(Khatri et al., 2025; Zhen et al., 2025)。为了检验这一点,我们分析了 RL 和 OPD 在整个训练过程中的中间检查点,并跟踪参数更新幅度与推理准确率之间的关系。如图 2(b) 所示,OPD 始终需要比 RL 更小的参数更新来达到相同的推理准确率。此外,OPD 在 $\Delta W_{\mathrm{OPD}}$ 范数相对较小的增加下实现了快速的准确率提升,而 RL 在可比更新幅度下改进较慢。这些结果表明,OPD 的优越效率不仅仅来自避免后期冗余,而是来自在训练早期形成紧凑且任务相关的更新模式。

> 图 3:架构组件的功能贡献和更新分布。(a)嵌入层替换对 AIME26 的影响。(b)RL/OPD 训练的 Qwen3-8B-Base 模型的逐层更新范数(柱状图,左轴),以及在 MATH500 上滑动窗口干预后的对应 OPD 推理准确率(折线图,右轴)。

#### 定位冗余更新。

前面的分析显示 RL 更新包含任务相关性相对较低的组件。为了定位这些冗余并评估其功能贡献,我们将模型更新分解为三个架构组件:嵌入层、MLP 和注意力层。我们首先检查嵌入层,通过将 OPD 和 RL 模型的嵌入替换为基座模型的嵌入,同时保持所有其他参数不变。如图 3(a) 所示,这种干预对推理性能的影响可以忽略不计,表明嵌入层更新对推理增益贡献甚微。因此,OPD 和 RL 的主要功能更新可能集中在更深的模型组件中,而非嵌入层。

接下来,我们进行滑动窗口干预分析以定位 OPD 和 RL 更新的功能区域。遵循先前的块级干预研究(Cai et al., 2024; Men et al., 2023),我们将模型划分为连续层块,并向每个块注入局部 OPD 或 RL 更新,以评估其对推理性能的影响${}^{1}$。如图 3(b) 和图 10(b) 所示,MLP 模块总体比对推理相关的更新更敏感的注意力模块,表明 MLP 是知识表示和关系推理的主要载体。从层位置的角度来看,两种模块类型的性能曲线都表现出明显的倒 U 形模式:中间层的干预产生最大的增益,而底部和顶层的干预导致相对较小的改进。这表明与推理相关的更新并非均匀分布在整个网络中,而是主要集中在此类具有更强功能耦合的中间层 MLP 中。这些发现与先前关于 Transformer 模块和层功能角色的机制可解释性研究一致(Skean et al., 2025; Geva et al., 2021, 2022)。

基于这些观察,我们进一步比较 OPD 和 RL 的更新模式。这两种方法在两种模块类型和层位置的干预敏感性分布上高度一致,表明 OPD 和 RL 并不依赖于根本不同的功能路径,而是沿着模型现有的关键功能结构进行优化。关键区别在于它们的逐层更新范数。RL 在低敏感性的底部和顶层引入了大得多的参数变化。由于对这些外围层的干预产生的性能增益有限,其较大的更新范数并未转化为成比例的性能增益,因此更可能反映与任务奖励弱相关的冗余更新。相比之下,OPD 在保持与 RL 类似的功能更新分布的同时,显著抑制了低敏感性区域的参数变化,并将更新更强烈地集中在具有更高功能贡献的中间层模块中。因此,OPD 的优势并非来自学习一种全新的更新机制,而是来自更准确地区分高收益和低收益的参数区域,并减少外围层中的无效更新,从而以更紧凑的参数变化实现更高的更新效率和更强的推理性能增益。此外,我们进一步展示了...

---
${}^{1}$ 详细设置见附录 E.2。

相似文章

论同策略蒸馏的几何结构

Hugging Face Daily Papers

本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning

Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。