过滤后重加权:重新思考在线策略蒸馏中的优化粒度

arXiv cs.LG 论文

摘要

介绍FiRe-OPD,一种用于大语言模型在线策略蒸馏的方法,它过滤低质量轨迹并应用软重加权来强调信息丰富的令牌,在强到弱、单教师和多教师设置中实现了改进的性能。

arXiv:2606.02684v1 公告类型:新 摘要:大语言模型中的在线策略蒸馏(OPD)正从全轨迹KL监督转向更具选择性的训练范式。最近的OPD方法越来越关注选择哪些轨迹来学习、哪些令牌最具信息量以及哪些监督信号最可靠。受这一趋势的启发,我们重新思考OPD的优化粒度,并提出\fireicon\ FiRe-OPD(过滤后重加权),该方法在轨迹和令牌两个层面联合调整监督信号。具体而言,FiRe-OPD首先过滤轨迹以去除低质量的 rollout 样本,然后在保留的轨迹内应用软重加权来强调信息丰富的令牌。与硬令牌选择相比,FiRe-OPD利用软加权机制有效减少信息丢失并增强优化稳定性,从而实现更细粒度的OPD优化。我们在强到弱、单教师和多教师设置中验证了FiRe-OPD的有效性,并展示了其相对于最近令牌级OPD方法的优越性(例如,在AIME 2024上强到弱设置提升+6.25,在多教师设置中Miner上提升+18.81)。我们的代码可在 https://github.com/YuYingLi0/FiRe-OPD 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:39

# 再思考在策略蒸馏中的优化粒度

来源: https://arxiv.org/html/2606.02684

Yuying Li1∗⋄, Leqi Zheng1∗, Yongzi Yu2, Wenrui Zhou2, Xuchang Zhong3, Xing Hu4, Jing Jin1, Huangjie Yuan5†, Tao Feng1†
1清华大学, 2香港科技大学, 3北京理工大学, 4美团, 5浙江大学
liyuying25@mails\.tsinghua\.edu\.cn
∗同等贡献 †通讯作者

###### 摘要

大型语言模型中的在策略蒸馏(on-policy distillation, OPD)正从全轨迹KL监督转向更具选择性的训练范式。近期的OPD方法越来越关注选择哪些轨迹进行学习、哪些token最具信息量以及哪些监督信号最可靠。受此趋势启发,我们重新思考了OPD的优化粒度,并提出![[未标注图片]](https://arxiv.org/html/2606.02684v1/figure/fire.png)FiRe\-OPD (Filter, then Reweight),该方法在轨迹和token两个层级联合调整监督信号。具体来说,FiRe\-OPD首先过滤轨迹以移除低质量的rollout样本,然后在保留的轨迹内应用软重加权以强调信息量丰富的token。与硬token选择相比,FiRe\-OPD利用软加权机制有效缓解信息丢失并增强优化稳定性,从而实现更细粒度的OPD优化。我们在强到弱、单教师和多教师设置中验证了FiRe\-OPD的有效性,并展示了其相对于近期token级OPD方法的优越性(例如,在强到弱设置中的AIME 2024上提升6.25, 在多教师设置中的Miner上提升18.81)。我们的代码可在 https://github\.com/YuYingLi0/FiRe\-OPD 获取。

**Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation**

Yuying Li1∗⋄, Leqi Zheng1∗, Yongzi Yu2, Wenrui Zhou2, Xuchang Zhong3, Xing Hu4, Jing Jin1, Huangjie Yuan5†, Tao Feng1†
1清华大学, 2香港科技大学, 3北京理工大学, 4美团, 5浙江大学
liyuying25@mails\.tsinghua\.edu\.cn
∗同等贡献 †通讯作者

参见图注 图1: 三种蒸馏场景下的性能比较。FiRe\-OPD(红色)在所有基准测试中实现了最均衡和广泛的覆盖。

## 1 引言

在策略蒸馏(On-policy distillation, OPD)已成为一种引人注目的后训练范式,用于将推理能力从教师模型迁移到较小的学生模型。与监督微调不同,OPD 通过在学生生成的轨迹上学习,避免了训练-推理分布不匹配,同时提供了比强化学习稀疏的结果奖励更密集的token级监督 (Zhu et al., 2026; Ye et al., 2026; Li et al., 2026b; Wu et al., 2026; Fu et al., 2026; Zheng et al., 2026; Jang et al., 2026; Song and Zheng, 2026)。这些优势使得OPD在推理密集型任务中被广泛采用。

然而,标准的 OPD 应用统一的全轨迹KL监督,这在优化粒度和信号可靠性方面都存在固有局限性。并非所有轨迹和token都具有同等的学习价值,关键rollouts和信息量大的token应在优化过程中被赋予更大的重要性。认识到这一点,选择性优化粒度蒸馏已成为近期OPD研究的一个增长趋势。

EOPD (Jin et al., 2026) 发现高教师熵会导致不稳定的学习信号,并在高熵token位置切换为前向KL。TIP (Xu et al., 2026a) 基于学生熵和师生差异通过硬过滤规则选择token。ExOPD (Yang et al., 2026b) 将OPD重新解释为KL约束的强化学习,并引入全局奖励缩放因子。Uni-OPD (Hou et al., 2026) 通过轨迹层面的结果引导边际校准来解决不可靠监督问题。但现有工作存在两个关键局限:

表1: 不同粒度和技术的OPD方法概述,以及![[未标注图片]](https://arxiv.org/html/2606.02684v1/figure/fire.png)FiRe\-OPD 的范围。

| 方法                       | 粒度   | 技术   |       |       |       |
| -------------------------- | ------ | ------ | ----- | ----- | ----- |
|                            | 轨迹 | Token | T-Conf. | S-Conf. | Soft-W. |
| OPD                        | ✗      | ✗      | ✗     | ✗     | ✗     |
| EOPD                       | ✗      | ✓      | ✓     | ✗     | ✗     |
| TIP                        | ✗      | ✓      | ✗     | ✓     | ✗     |
| ExOPD                      | ✗      | ✗      | ✗     | ✗     | ✗     |
| REOPOLD                    | ✗      | ✓      | ✓     | ✗     | ✗     |
| ![[未标注图片]](https://arxiv.org/html/2606.02684v1/figure/fire.png)**FiRe\-OPD** | ✓      | ✓      | ✓     | ✓     | ✓     |

局限性 1. 粒度隔离。现有方法要么在轨迹层面,要么在token层面操作,只关注信号质量的单一维度(例如,教师置信度或学生状态),而没有联合建模两个粒度或利用它们在OPD中的互补性。

局限性 2. 硬选择策略。大多数token级别的方法依赖于硬选择来移除OPD期间的token,这会导致非平滑优化并永久丢弃可能有用的监督信号,从而削弱学习鲁棒性。表1系统地比较了现有OPD方法在这些维度上的差异。

在这项工作中,我们提出![[未标注图片]](https://arxiv.org/html/2606.02684v1/figure/fire.png)FiRe\-OPD (Filter, then Reweight),一个统一的框架,从教师置信度和学生困惑度的双重角度执行轨迹级别的过滤和token级别的重要性加权。在轨迹层面,FiRe\-OPD过滤掉教师分配低整体似然的rollouts,这表明师生分布差距较大,教师的监督不可靠。在token层面,FiRe\-OPD通过乘法组合教师置信度和学生困惑度来分配连续的重要性权重,将学习集中在教师提供可靠指导且学生有真正需求的那些位置上。这种软加权保留了所有位置按其信息量比例的梯度贡献,实现了细粒度、自适应的监督,同时考虑了“教师能教什么”和“学生需要学什么”。

总结而言,我们的贡献有3个方面:

(i) 我们提出了FiRe\-OPD,一个统一的框架,联合执行轨迹级别过滤和token级别软重加权,实现了细粒度且具有选择性的OPD。

(ii) 我们表明优化粒度在OPD中至关重要:硬过滤在轨迹级别更有效,而软token加权在token级别优于硬token选择。

(iii) 我们展示了FiRe\-OPD在各种基准测试的强到弱、单教师和多教师蒸馏设置中的优越性。

参见图注 图2: FiRe\-OPD 概述,其执行轨迹级别过滤和token级别重要性加权。

## 2 相关工作

**非策略蒸馏。** 知识蒸馏 (Knowledge distillation, KD) 将知识从更强的教师模型迁移到更小的学生模型。经典KD训练学生匹配教师的输出分布,而序列级KD使用教师生成的完整响应作为监督 (Hinton et al., 2015; Kim and Rush, 2016)。在LLM时代,KD已向更广泛的能力迁移发展,如推理和对齐 (Gu et al., 2024; Ko et al., 2025; He et al., 2025a; Liu et al., 2024)。然而,大多数非策略KD方法依赖于教师生成的轨迹,导致曝光偏差。这些局限性促使了OPD的发展,后者直接在其自身生成分布下监督学生。

**在策略蒸馏。** OPD最近已成为一种有效的后训练范式。先前研究表明,反向KL风格的目标以及对学生在生成过程中犯错的监督可以改善开放生成和推理任务 (Gu et al., 2024; Agarwal et al., 2024)。近期工作进一步研究如何通过奖励外推、熵感知目标、推理前缀加速、能力感知课程、散度约束和rollout混合蒸馏使OPD具有可扩展性、稳定性和通用性 (Yang et al., 2026b; Jin et al., 2026; Zhang et al., 2026a; Luo et al., 2026; Hou et al., 2026)。同时,OPD也已扩展到自蒸馏 (Zhao et al., 2026; Xu et al., 2026b; Wang et al., 2026a; Kim et al., 2026; Zhang et al., 2026c; Yang et al., 2024)、混合RL-蒸馏框架 (Yan et al., 2026; Hübotter et al., 2026; Zhang et al., 2026d; Ding, 2026; Yang et al., 2026a; Zhang et al., 2026b)、多模态蒸馏 (Li et al., 2026a; Cao et al., 2026; Chen et al., 2025; Bousselham et al., 2025)、智能体设置 (Wang et al., 2026b) 和具身学习 (Zhong et al., 2026)。近期的token选择方法试图通过丢弃低价值token来减少噪声监督,但硬选择可能会丢失有用信息并产生脆弱的优化信号。我们的工作通过自适应轨迹和token级别加权来解决这一局限,过滤低质量轨迹并温和地调节token级别的蒸馏强度。

## 3 方法

### 3.1 预备知识

表2: 强到弱蒸馏结果 (Avg@8)。OPD方法中最佳结果以**粗体**标出。**红/绿**表示相较于OPD的改进/下降。

| 方法                        | AIME24 | AIME25 | MATH   | AMCOlymp. | Miner. | HMMTFeb | HMMTNov | Avg   |
| --------------------------- | ------ | ------ | ------ | --------- | ------ | ------- | ------- | ----- |
| 强到弱: Qwen3-30B-A3B-Instruct → Qwen3-4B | | | | | | | | |
| 学生 (基础)                 | 21.67  | 22.50  | 83.65  | 67.19     | 51.80  | 39.48   | 12.50   | 7.08  | 38.23 |
| 教师                        | 76.67  | 63.33  | 97.22  | 95.94     | 78.32  | 47.47   | 45.00   | 60.00 | 70.49 |
| + SFT                       | 25.42  | 22.92  | 85.82  | 70.31     | 54.60  | 40.81   | 13.75   | 12.92 | 40.82 |
| + GRPO                      | 55.00  | 48.33  | 93.20  | 93.06     | 68.69  | 43.73   | 29.17   | 35.42 | 58.33 |
| + OPD                       | 54.58  | 48.75  | 91.25  | 93.92     | 70.62  | 43.01   | 28.33   | 39.17 | 58.70 |
| + ExOPD                     | 58.75  | 48.33  | 94.35  | 93.75     | 70.61  | 43.38   | 30.83   | 41.25 | 60.16 |
| + TIP                       | 59.58  | 49.58  | 92.19  | 93.60     | 70.66  | 43.70   | 29.58   | 40.00 | 59.86 |
| + REOPOLD                   | 57.50  | 46.67  | 93.95  | 92.19     | 70.16  | 43.20   | 29.17   | 41.25 | 59.26 |
| + EOPD                      | 52.92  | 49.17  | 93.40  | 92.81     | 70.92  | 42.97   | 27.08   | 39.17 | 58.56 |
| + ![[未标注图片]](https://arxiv.org/html/2606.02684v1/figure/fire.png)**FiRe\-OPD (Ours)** | **60.83** | **52.92** | **93.73** | **93.13** | **70.47** | **43.47** | **32.08** | **40.00** | **60.83** |
| Δ 对比 OPD                  | +6.25 | +4.17 | +2.48 | -0.79     | -0.15 | +0.46   | +3.75   | +0.83 | +2.13 |

我们首先介绍标准在策略蒸馏(OPD)框架。令πθ表示学生模型,πT表示教师模型。在每个训练迭代中,学生对给定提示集合{xi}根据其当前策略生成rollouts:

y ∼ πθ(·|x)        (1)

然后教师在这些学生生成的轨迹上提供token级别监督。标准OPD将其表述为一个使用PPO风格裁剪目标的策略优化问题,其中token级别优势定义为教师-学生对数似然比:

a_t = log πT(y_t | x, y_<t) - log πθ_old(y_t | x, y_<t)        (2)

这个优势鼓励学生提高教师分配似然高于旧策略的那些token的概率。策略梯度损失如下:

L_OPD = -1/T ∑_{t=1}^T min( r_t a_t, clip(r_t, 1-ε, 1+ε) a_t )        (3)

其中 r_t = πθ(y_t | x, y_<t) / πθ_old(y_t | x, y_<t) 是重要性采样比率,clip将r_t限制在 [1-ε, 1+ε] 以防止过大的策略更新。我们设ε=0.2。标准OPD将此目标均匀应用于所有轨迹和所有token位置,平等对待每个监督信号。

### 3.2 FiRe\-OPD

标准OPD在所有轨迹和token位置上应用统一监督,这是次优的,因为蒸馏信号质量在这两个层面都有显著差异。如图2所示,FiRe\-OPD通过两个互补机制解决这个问题:轨迹级别过滤和token级别软重加权。

**命题1.**  什么信号最能反映轨迹的重要性?

一些工作使用结果正确性 (Zheng et al., 2026; Hou et al., 2026) 或奖励分数来选择轨迹。然而,这些方法需要外部验证器,并且不能直接反映教师在给定路径上的监督能力。

我们观察到,教师对学生生成轨迹的对数概率反映了在该路径上师生分布的匹配程度。教师对数概率低表明分布差距很大——学生的推理路径与教师可能产生的路径显著偏离。在这种情况下,无论轨迹客观上是否正确,教师沿着这条路径在token层面的指导都是不可靠的:这相当于要求教师监督一种它不熟悉的推理风格。强制在这些高散度轨迹上进行蒸馏可能会引入带有噪声甚至矛盾的梯度,导致负迁移而非有效学习。

基于这一见解,我们定义轨迹级别重要性分数为教师对给定提示x的rollout y = (y_1, ..., y_T) 的归一化对数概率:

s(y) = (1/T) ∑_{t=1}^T log π*(y_t | x, y_<t)        (4)

我们按s(y)对训练批次中的所有rollouts进行排序,并丢弃底部的p%(默认p=20)。只有保留下来的轨迹才能进入token级别优化阶段。这种过滤确保了蒸馏仅发生在教师能够提供连贯监督的轨迹上——即分布在教师能力范围内的路径。

相似文章

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

基于评分细则的在策略蒸馏

Hugging Face Daily Papers

本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning

Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。