SEAD: 通过熵引导监督的胜任力感知在线策略蒸馏

arXiv cs.CL 论文

摘要

SEAD 提出了一种胜任力感知的在线策略蒸馏方法,利用熵在词元、训练阶段和提示三个层面引导监督,在 OLMo-3 上对六个数学基准测试实现了平均准确率提升 +4.8%。

arXiv:2606.28562v1 Announce Type: new 摘要:在线策略蒸馏(OPD)具有离线蒸馏和强化学习所不具备的特性:教师监督质量取决于学生胜任力。不一致的 rollout 会产生噪声梯度;已掌握的词元则产生冗余梯度。这在三个尺度(词元、训练阶段和提示)上造成浪费,而现有方法均采用统一监督。我们提出 SEAD,它使用熵作为统一探针,在三个尺度上检测这种依赖胜任力的退化:(1) 联合教师-学生熵将词元分区,分别接收定制散度或零梯度(约 50% 被跳过);(2) 余弦调度从前向 KL 退火至反向 KL,随着胜任力增长;(3) 胜任力门控课程引入由易到难的提示。这些组件共生必要:词元选择需要一致 rollout(课程),退火需要单调改进(同样需要课程)。在 OLMo-3(7B 到 32B)上,SEAD 在六个数学基准测试中相比普通 OPD 实现了平均准确率提升 +4.8%,消融实验证实了超加性交互。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:27

# SEAD: 通过熵引导监督实现能力感知的在线策略蒸馏
来源: https://arxiv.org/html/2606.28562
Chia\-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni Sambit Sahu, Shi\-Xiong Zhang, William Campbell Capital One

###### 摘要

在线策略蒸馏 \(OPD\) 具备离线蒸馏和强化学习所没有的特性:*教师监督质量取决于学生能力*。不连贯的 rollout 会产生噪声梯度;已掌握的 token 则产生冗余梯度。这导致三种层面上的浪费——token、训练阶段和提示——然而现有方法均采用统一监督。我们提出 SEAD,它利用熵作为统一探针,在三种尺度上感知这种依赖能力的退化:(1) 联合教师-学生熵将 token 划分为不同区域,分别接受定制散度或零梯度(约 50% 被跳过);(2) 余弦调度随着能力增长,从前向 KL 退火到反向 KL;(3) 能力门控课程引入从易到难的提示。这些组件是共生必需的:token 选择需要连贯的 rollout(课程),退火需要单调改进(同样是课程)。在 OLMo\-3 (7B→32B) 上,SEAD 在六个数学基准上相比普通 OPD 平均准确率提升 4.8 个百分点,消融实验证实了超加性交互。

## 1 引言

大型推理模型 (49B+) 表现出色,但部署成本高昂。知识蒸馏将这些能力压缩到更小的学生模型中。主流的*离线策略*范式——在静态教师生成轨迹上训练——存在曝光偏差:推理时预测误差会自回归地累积 (Agarwal et al., 2024 (https://arxiv.org/html/2606.28562#bib.bib1); Song and Zheng, 2026 (https://arxiv.org/html/2606.28562#bib.bib7))。

在线策略蒸馏 (OPD) 通过训练学生生成的 rollout(由教师评分)来解决这个问题 (Agarwal et al., 2024 (https://arxiv.org/html/2606.28562#bib.bib1); Lu and Thinking Machines Lab, 2025 (https://arxiv.org/html/2606.28562#bib.bib2)),其性能可与 GRPO 等强化学习方法相媲美甚至更胜一筹 (Ko et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib3); Jin et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib4); Yang et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib5))。然而,现有的 OPD 方法都采用*统一*监督——相同的散度、应用于每个 token、每个阶段、每个提示。

我们在此统一性之下识别出一个单一的结构性问题:在 OPD 中,**监督质量取决于学生能力**。与离线知识蒸馏(教师轨迹始终连贯)或强化学习(二元奖励同等可靠)不同,OPD 的逐 token 教师修正仅当学生的 rollouts 足够连贯时才具有信息量。这种依赖能力的退化体现在三个层面上:

- • **Token 层面**:约 50% 的 token 对两个模型都是确定性的——监督它们会浪费计算。在剩余的 token 中,有的需要锐化 (RKL),而另一些则需要保留多样性 (FKL) (Jin et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib4))。
- • **时间层面**:最优散度从模式覆盖(早期)演变为模式寻求(后期),但现有方案使用手动两阶段切换 (Ko et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib3); Xu et al., 2026b (https://arxiv.org/html/2606.28562#bib.bib15))。
- • **提示层面**:超出学生能力范围的问题会产生不连贯的 rollout,导致教师监督变成噪声 (Li et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib18); Zhao et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib6))。

这不是三个独立的错误,而是**忽视监督质量随能力变化**这一问题的三种表现。我们观察到,**熵**为所有三种尺度下的这一量提供了统一的观测指标。

我们提出 SEAD,这是一个践行此原则的框架:

1. 1. **Token 层面:稀疏熵自适应散度**。联合教师-学生熵将 token 划分为 A 区(跳过)、B 区(RKL)、C 区(FKL)——共同决定选择**和**散度类型。
2. 2. **时间层面:能力驱动退火**。随着演化中的活跃 token 组成变化,实现从 FKL 到 RKL 的连续平滑过渡。
3. 3. **提示层面:能力门控课程**。首个针对 OPD 的提示层面课程,解决了 Zhao 等人 (2026 (https://arxiv.org/html/2606.28562#bib.bib6)); Li 等人 (2026 (https://arxiv.org/html/2606.28562#bib.bib18)) 提出的公开问题。

至关重要的是,这些组件是共生必需的:token 选择需要连贯的 rollout(课程),退火需要单调的能力增长(同样需要课程)。消融实验 (第 4 节 (https://arxiv.org/html/2606.28562#S4)) 证实了超加性交互。

我们在 OLMo\-3 (7B→32B) 和 Nemotron (8B→49B) 上,在 MATH\-500、Minerva\-Math、AIME 2024/2025、AMC 2023 和 OlympiadBench 上验证了 SEAD。完整框架相比普通 OPD 平均提升 4.8 个百分点。

参阅图注图 1:SEAD 概览。首先,*能力门控课程*(左,黄色)选择当前学生能力边界内的提示(di ≤ c(t)),确保 rollouts 足够连贯以提供有意义的监督。学生 πθ 生成一个 rollout,教师 πte 用逐 token 的 logits 对其进行评分。根据这些 logits,我们计算联合熵 (Hθ, Hte) 并将 token 划分为三个区域:**A 区**(灰色)——两个模型都自信,零梯度(约 50% 的 token);**B 区**(蓝色)——教师自信但学生不确定,通过反向 KL 进行监督以向教师模式锐化;**C 区**(红色)——教师在推理分叉处不确定,通过前向 KL 进行监督以保留多路径多样性。*时间退火*调度(右下)将 C 区调节为 α · LFKL + (1−α) · LRKL,在训练过程中从探索(α=0.8)平滑过渡到精炼(α=0)。组合损失用于更新学生。完整过程参见算法 1 (https://arxiv.org/html/2606.28562#alg1)。
## 2 方法

### 2.1 预备知识与问题设定

令 πθ 和 πte 分别表示学生和教师的策略。对于给定提示 q,令 ct = (q, x1, ..., xt−1) 表示到第 t 步为止的上下文,xt ∈ V 表示生成的 token。每个 OPD 迭代:(1) 采样 rollout x ∼ πθ_old(·|q);(2) 查询教师在该 rollout 上的 logits;(3) 通过散度损失更新 πθ。两种标准选择是**前向 KL**(模式覆盖):

LFKL(t) = ∑_{v∈V} πte(v|ct) log [πte(v|ct) / πθ(v|ct)]  (1)

和**反向 KL**(模式寻求):

LRKL(t) = ∑_{v∈V} πθ(v|ct) log [πθ(v|ct) / πte(v|ct)]  (2)

前向 KL 鼓励学生覆盖教师的所有模式,在推理分支点保留多样性。反向 KL 驱使学生集中到教师的高概率模式上,产生更锐利的输出,但存在过早熵崩溃的风险 (Ko et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib3))。

###### 假设 1(OPD 监督质量——调制 PL 条件)

令 ℓ_i(θ) 表示每个提示的 OPD 损失,ℓ_i^⋆ = inf_θ ℓ_i(θ)。存在一个非递减函数 φ: [0,1] → [0,1](满足 φ(0)=0, φ(1)=1)和一个常数 μ>0,使得对于每个提示 i:

‖∇ℓ_i(θ)‖² ≥ φ(p_i(θ)) μ (ℓ_i(θ) − ℓ_i^⋆)。  (3)

直觉上,梯度信号随能力缩放:当学生完全无法解决问题时 (p_i ≈ 0),其 rollouts 不连贯,φ(p_i) ≈ 0,因此无论教师质量如何,下界几乎为零。熵作为这一原则的可观测代理:联合教师-学生熵揭示了 token 位置是否具有信息量、冗余或噪声。假设 1 (https://arxiv.org/html/2606.28562#Thmassumption1) 激发了一个统一原则:**仅在监督质量高时分配计算资源**。SEAD 在三个粒度上实施这一原则:(i) **token 层面**——跳过教师和学生都已确定的 token(零信息增益);(ii) **时间层面**——随着能力增长,从探索性的 FKL 转向锐化性的 RKL;(iii) **提示层面**——将训练限制在那些 rollouts 足够连贯、教师能提供有意义修正的提示上。我们按范围递增的顺序呈现这些内容,并指出提示层面课程 (第 2.5 节 (https://arxiv.org/html/2606.28562#S2.SS5)) 是基础性的使能器:它确保了熵景观是良态的(这是 token 层面选择器的要求),并保证了单调的能力增长(这是时间退火器所依赖的)。

### 2.2 统一 SEAD 目标

SEAD 将 token 层面选择、时间退火和提示层面课程整合到单个损失中。令 B 和 C 分别表示分配给 RKL 和 FKL 的 token 索引集合(在第 2.3 节 (https://arxiv.org/html/2606.28562#S2.SS3) 中正式定义),λ>0 是一个超参数,用于平衡两个散度项之间固有的尺度差异:

L_SEAD(θ, t_step) = (1/|B∪C|) (∑_{t∈B} L_RKL(t) + α(t_step)·λ ∑_{t∈C} L_FKL(t)),其中 q ∼ Uniform(D(t_step))  (4)

三个控制变量——都是训练进度的函数,都服务于同一个原则(仅在监督质量高时分配计算资源):

- • **区域划分** {A, B, C}:哪些 token 获得梯度以及哪种散度(第 2.3 节 (https://arxiv.org/html/2606.28562#S2.SS3));
- • **退火系数** α(t_step):随能力变化的 FKL/RKL 平衡(第 2.4 节 (https://arxiv.org/html/2606.28562#S2.SS4));
- • **合格集** D(t_step) = {q_i: d_i ≤ c(t_step)}:能力边界内的提示(第 2.5 节 (https://arxiv.org/html/2606.28562#S2.SS5))。

算法 1 SEAD:能力感知在线策略蒸馏
0: 学生 πθ,教师 πte,提示 Q 及其困难度分数 {d_i},区域百分位数 (ρ_A, ρ_B, ρ_C),退火调度 α(·),能力函数 c(·)
1: 通过学生通过率预计算每个提示的困难度 d_i = 1 − p_i
2: 对于 t_step = 1 到 T_total 执行
3:     D ← {q_i: d_i ≤ c(t_step)}  // 能力门控课程
4:     采样提示批次 {q_i} ⊂ D;生成 rollouts x_i ∼ πθ_old(·|q_i)
5:     查询教师 πte(·|c_t);计算每个位置的 H_te(t), H_θ(t)
6:     通过百分位数阈值将 token 分配到 A、B、C 区
7:     α ← α(t_step)  // 能力驱动退火
8:     L ← (1/|B∪C|) (∑_{t∈B} L_RKL(t) + α λ ∑_{t∈C} L_FKL(t))
9:     在 L 上通过裁剪梯度步更新 θ
10: 结束循环

### 2.3 Token 层面:稀疏熵自适应散度

我们定义 token 层面熵 H_te(t) = −∑_v πte(v|c_t) log πte(v|c_t) 和类似的 H_θ(t)。为了保持计算可处理性并避免训练时对整个词汇表 V 进行完整 softmax 的繁重开销,H_te(t) 使用 top-k 词汇子集进行近似。SEAD 将 token 划分为

- • **A 区**(跳过,约 ρ_A%):H_te(t) 和 H_θ(t) 都低。**零梯度**——绝大多数 token(连接词、格式、确定性步骤)都属于这里。
- • **B 区**(RKL,约 ρ_B%):H_te(t) 低,H_θ(t) 高。学生应向自信的教师**锐化**。
- • **C 区**(FKL,约 ρ_C%):H_te(t) 高。真正的推理分叉——学生应**覆盖**教师的模式。

每步损失为:

L_SEAD_token = (1/|B∪C|) (∑_{t∈B} L_RKL(t) + λ ∑_{t∈C} L_FKL(t))  (5)

默认值 ρ_A=50,ρ_B=40,ρ_C=10。与 EOPD (Jin et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib4))(仅教师熵)和 TIP (Xu et al., 2026a (https://arxiv.org/html/2606.28562#bib.bib10))(加权,单一散度)不同,SEAD 通过**联合**教师-学生熵共同决定**选择**和**散度类型**,且具有极端稀疏性(约 20% 活跃)。

#### 稀疏选择近似无损。

以下定理表明 A 区 token 贡献的梯度可以忽略不计,证明排除它们是合理的。关键前提是 A 区 token 对**教师和学生**两者都确实具有低熵——这个性质在课程(第 2.5 节 (https://arxiv.org/html/2606.28562#S2.SS5))确保连贯的 rollouts、防止错位上下文导致虚假低熵分配时成立。

###### 定理 1。

在温和的正则性(有界得分函数)条件下,假设 A 区 token 满足 H_te(t) ≤ τ,H_θ(t) ≤ τ 且 TV(πte, πθ) ≤ δ(τ),则完整梯度 g 和稀疏梯度 ĝ(仅基于 B∪C 区计算)满足:

‖g − (1−s)ĝ‖ ≤ sG (2τ + 2δ(τ) + τ/2 log|V|) = O(sGτ)

相似文章

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

OPID: 同策略技能蒸馏用于智能体强化学习

Hugging Face Daily Papers

OPID提出了一种同策略技能蒸馏框架,从完成的轨迹中提取密集后见监督,将基于结果的强化学习与词元级自蒸馏相结合,以提高语言智能体在多轮任务上的训练效率和性能。