SEAD: 通过熵引导监督的胜任力感知在线策略蒸馏

arXiv cs.CL 2026/06/30 04:00 论文

摘要

SEAD 提出了一种胜任力感知的在线策略蒸馏方法，利用熵在词元、训练阶段和提示三个层面引导监督，在 OLMo-3 上对六个数学基准测试实现了平均准确率提升 +4.8%。

arXiv:2606.28562v1 Announce Type: new 摘要：在线策略蒸馏（OPD）具有离线蒸馏和强化学习所不具备的特性：教师监督质量取决于学生胜任力。不一致的 rollout 会产生噪声梯度；已掌握的词元则产生冗余梯度。这在三个尺度（词元、训练阶段和提示）上造成浪费，而现有方法均采用统一监督。我们提出 SEAD，它使用熵作为统一探针，在三个尺度上检测这种依赖胜任力的退化：(1) 联合教师-学生熵将词元分区，分别接收定制散度或零梯度（约 50% 被跳过）；(2) 余弦调度从前向 KL 退火至反向 KL，随着胜任力增长；(3) 胜任力门控课程引入由易到难的提示。这些组件共生必要：词元选择需要一致 rollout（课程），退火需要单调改进（同样需要课程）。在 OLMo-3（7B 到 32B）上，SEAD 在六个数学基准测试中相比普通 OPD 实现了平均准确率提升 +4.8%，消融实验证实了超加性交互。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:27

# SEAD: 通过熵引导监督实现能力感知的在线策略蒸馏
来源: https://arxiv.org/html/2606.28562
Chia\-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni Sambit Sahu, Shi\-Xiong Zhang, William Campbell Capital One

###### 摘要

在线策略蒸馏 \(OPD\) 具备离线蒸馏和强化学习所没有的特性：*教师监督质量取决于学生能力*。不连贯的 rollout 会产生噪声梯度；已掌握的 token 则产生冗余梯度。这导致三种层面上的浪费——token、训练阶段和提示——然而现有方法均采用统一监督。我们提出 SEAD，它利用熵作为统一探针，在三种尺度上感知这种依赖能力的退化：(1) 联合教师-学生熵将 token 划分为不同区域，分别接受定制散度或零梯度（约 50% 被跳过）；(2) 余弦调度随着能力增长，从前向 KL 退火到反向 KL；(3) 能力门控课程引入从易到难的提示。这些组件是共生必需的：token 选择需要连贯的 rollout（课程），退火需要单调改进（同样是课程）。在 OLMo\-3 (7B→32B) 上，SEAD 在六个数学基准上相比普通 OPD 平均准确率提升 4.8 个百分点，消融实验证实了超加性交互。

## 1 引言

大型推理模型 (49B+) 表现出色，但部署成本高昂。知识蒸馏将这些能力压缩到更小的学生模型中。主流的*离线策略*范式——在静态教师生成轨迹上训练——存在曝光偏差：推理时预测误差会自回归地累积 (Agarwal et al., 2024 (https://arxiv.org/html/2606.28562#bib.bib1); Song and Zheng, 2026 (https://arxiv.org/html/2606.28562#bib.bib7))。

在线策略蒸馏 (OPD) 通过训练学生生成的 rollout（由教师评分）来解决这个问题 (Agarwal et al., 2024 (https://arxiv.org/html/2606.28562#bib.bib1); Lu and Thinking Machines Lab, 2025 (https://arxiv.org/html/2606.28562#bib.bib2))，其性能可与 GRPO 等强化学习方法相媲美甚至更胜一筹 (Ko et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib3); Jin et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib4); Yang et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib5))。然而，现有的 OPD 方法都采用*统一*监督——相同的散度、应用于每个 token、每个阶段、每个提示。

我们在此统一性之下识别出一个单一的结构性问题：在 OPD 中，**监督质量取决于学生能力**。与离线知识蒸馏（教师轨迹始终连贯）或强化学习（二元奖励同等可靠）不同，OPD 的逐 token 教师修正仅当学生的 rollouts 足够连贯时才具有信息量。这种依赖能力的退化体现在三个层面上：

- • **Token 层面**：约 50% 的 token 对两个模型都是确定性的——监督它们会浪费计算。在剩余的 token 中，有的需要锐化 (RKL)，而另一些则需要保留多样性 (FKL) (Jin et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib4))。
- • **时间层面**：最优散度从模式覆盖（早期）演变为模式寻求（后期），但现有方案使用手动两阶段切换 (Ko et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib3); Xu et al., 2026b (https://arxiv.org/html/2606.28562#bib.bib15))。
- • **提示层面**：超出学生能力范围的问题会产生不连贯的 rollout，导致教师监督变成噪声 (Li et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib18); Zhao et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib6))。

这不是三个独立的错误，而是**忽视监督质量随能力变化**这一问题的三种表现。我们观察到，**熵**为所有三种尺度下的这一量提供了统一的观测指标。

我们提出 SEAD，这是一个践行此原则的框架：

1. 1. **Token 层面：稀疏熵自适应散度**。联合教师-学生熵将 token 划分为 A 区（跳过）、B 区（RKL）、C 区（FKL）——共同决定选择**和**散度类型。
2. 2. **时间层面：能力驱动退火**。随着演化中的活跃 token 组成变化，实现从 FKL 到 RKL 的连续平滑过渡。
3. 3. **提示层面：能力门控课程**。首个针对 OPD 的提示层面课程，解决了 Zhao 等人 (2026 (https://arxiv.org/html/2606.28562#bib.bib6)); Li 等人 (2026 (https://arxiv.org/html/2606.28562#bib.bib18)) 提出的公开问题。

至关重要的是，这些组件是共生必需的：token 选择需要连贯的 rollout（课程），退火需要单调的能力增长（同样需要课程）。消融实验 (第 4 节 (https://arxiv.org/html/2606.28562#S4)) 证实了超加性交互。

我们在 OLMo\-3 (7B→32B) 和 Nemotron (8B→49B) 上，在 MATH\-500、Minerva\-Math、AIME 2024/2025、AMC 2023 和 OlympiadBench 上验证了 SEAD。完整框架相比普通 OPD 平均提升 4.8 个百分点。

参阅图注图 1：SEAD 概览。首先，*能力门控课程*（左，黄色）选择当前学生能力边界内的提示（di ≤ c(t)），确保 rollouts 足够连贯以提供有意义的监督。学生 πθ 生成一个 rollout，教师 πte 用逐 token 的 logits 对其进行评分。根据这些 logits，我们计算联合熵 (Hθ, Hte) 并将 token 划分为三个区域：**A 区**（灰色）——两个模型都自信，零梯度（约 50% 的 token）；**B 区**（蓝色）——教师自信但学生不确定，通过反向 KL 进行监督以向教师模式锐化；**C 区**（红色）——教师在推理分叉处不确定，通过前向 KL 进行监督以保留多路径多样性。*时间退火*调度（右下）将 C 区调节为 α · LFKL + (1−α) · LRKL，在训练过程中从探索（α=0.8）平滑过渡到精炼（α=0）。组合损失用于更新学生。完整过程参见算法 1 (https://arxiv.org/html/2606.28562#alg1)。
## 2 方法

### 2.1 预备知识与问题设定

令 πθ 和 πte 分别表示学生和教师的策略。对于给定提示 q，令 ct = (q, x1, ..., xt−1) 表示到第 t 步为止的上下文，xt ∈ V 表示生成的 token。每个 OPD 迭代：(1) 采样 rollout x ∼ πθ_old(·|q)；(2) 查询教师在该 rollout 上的 logits；(3) 通过散度损失更新 πθ。两种标准选择是**前向 KL**（模式覆盖）：

LFKL(t) = ∑_{v∈V} πte(v|ct) log [πte(v|ct) / πθ(v|ct)]  (1)

和**反向 KL**（模式寻求）：

LRKL(t) = ∑_{v∈V} πθ(v|ct) log [πθ(v|ct) / πte(v|ct)]  (2)

前向 KL 鼓励学生覆盖教师的所有模式，在推理分支点保留多样性。反向 KL 驱使学生集中到教师的高概率模式上，产生更锐利的输出，但存在过早熵崩溃的风险 (Ko et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib3))。

###### 假设 1（OPD 监督质量——调制 PL 条件）

令 ℓ_i(θ) 表示每个提示的 OPD 损失，ℓ_i^⋆ = inf_θ ℓ_i(θ)。存在一个非递减函数 φ: [0,1] → [0,1]（满足 φ(0)=0, φ(1)=1）和一个常数 μ>0，使得对于每个提示 i：

‖∇ℓ_i(θ)‖² ≥ φ(p_i(θ)) μ (ℓ_i(θ) − ℓ_i^⋆)。  (3)

直觉上，梯度信号随能力缩放：当学生完全无法解决问题时 (p_i ≈ 0)，其 rollouts 不连贯，φ(p_i) ≈ 0，因此无论教师质量如何，下界几乎为零。熵作为这一原则的可观测代理：联合教师-学生熵揭示了 token 位置是否具有信息量、冗余或噪声。假设 1 (https://arxiv.org/html/2606.28562#Thmassumption1) 激发了一个统一原则：**仅在监督质量高时分配计算资源**。SEAD 在三个粒度上实施这一原则：(i) **token 层面**——跳过教师和学生都已确定的 token（零信息增益）；(ii) **时间层面**——随着能力增长，从探索性的 FKL 转向锐化性的 RKL；(iii) **提示层面**——将训练限制在那些 rollouts 足够连贯、教师能提供有意义修正的提示上。我们按范围递增的顺序呈现这些内容，并指出提示层面课程 (第 2.5 节 (https://arxiv.org/html/2606.28562#S2.SS5)) 是基础性的使能器：它确保了熵景观是良态的（这是 token 层面选择器的要求），并保证了单调的能力增长（这是时间退火器所依赖的）。

### 2.2 统一 SEAD 目标

SEAD 将 token 层面选择、时间退火和提示层面课程整合到单个损失中。令 B 和 C 分别表示分配给 RKL 和 FKL 的 token 索引集合（在第 2.3 节 (https://arxiv.org/html/2606.28562#S2.SS3) 中正式定义），λ>0 是一个超参数，用于平衡两个散度项之间固有的尺度差异：

L_SEAD(θ, t_step) = (1/|B∪C|) (∑_{t∈B} L_RKL(t) + α(t_step)·λ ∑_{t∈C} L_FKL(t))，其中 q ∼ Uniform(D(t_step))  (4)

三个控制变量——都是训练进度的函数，都服务于同一个原则（仅在监督质量高时分配计算资源）：

- • **区域划分** {A, B, C}：哪些 token 获得梯度以及哪种散度（第 2.3 节 (https://arxiv.org/html/2606.28562#S2.SS3)）；
- • **退火系数** α(t_step)：随能力变化的 FKL/RKL 平衡（第 2.4 节 (https://arxiv.org/html/2606.28562#S2.SS4)）；
- • **合格集** D(t_step) = {q_i: d_i ≤ c(t_step)}：能力边界内的提示（第 2.5 节 (https://arxiv.org/html/2606.28562#S2.SS5)）。

算法 1 SEAD：能力感知在线策略蒸馏
0: 学生 πθ，教师 πte，提示 Q 及其困难度分数 {d_i}，区域百分位数 (ρ_A, ρ_B, ρ_C)，退火调度 α(·)，能力函数 c(·)
1: 通过学生通过率预计算每个提示的困难度 d_i = 1 − p_i
2: 对于 t_step = 1 到 T_total 执行
3:     D ← {q_i: d_i ≤ c(t_step)}  // 能力门控课程
4:     采样提示批次 {q_i} ⊂ D；生成 rollouts x_i ∼ πθ_old(·|q_i)
5:     查询教师 πte(·|c_t)；计算每个位置的 H_te(t), H_θ(t)
6:     通过百分位数阈值将 token 分配到 A、B、C 区
7:     α ← α(t_step)  // 能力驱动退火
8:     L ← (1/|B∪C|) (∑_{t∈B} L_RKL(t) + α λ ∑_{t∈C} L_FKL(t))
9:     在 L 上通过裁剪梯度步更新 θ
10: 结束循环

### 2.3 Token 层面：稀疏熵自适应散度

我们定义 token 层面熵 H_te(t) = −∑_v πte(v|c_t) log πte(v|c_t) 和类似的 H_θ(t)。为了保持计算可处理性并避免训练时对整个词汇表 V 进行完整 softmax 的繁重开销，H_te(t) 使用 top-k 词汇子集进行近似。SEAD 将 token 划分为

- • **A 区**（跳过，约 ρ_A%）：H_te(t) 和 H_θ(t) 都低。**零梯度**——绝大多数 token（连接词、格式、确定性步骤）都属于这里。
- • **B 区**（RKL，约 ρ_B%）：H_te(t) 低，H_θ(t) 高。学生应向自信的教师**锐化**。
- • **C 区**（FKL，约 ρ_C%）：H_te(t) 高。真正的推理分叉——学生应**覆盖**教师的模式。

每步损失为：

L_SEAD_token = (1/|B∪C|) (∑_{t∈B} L_RKL(t) + λ ∑_{t∈C} L_FKL(t))  (5)

默认值 ρ_A=50，ρ_B=40，ρ_C=10。与 EOPD (Jin et al., 2026 (https://arxiv.org/html/2606.28562#bib.bib4))（仅教师熵）和 TIP (Xu et al., 2026a (https://arxiv.org/html/2606.28562#bib.bib10))（加权，单一散度）不同，SEAD 通过**联合**教师-学生熵共同决定**选择**和**散度类型**，且具有极端稀疏性（约 20% 活跃）。

#### 稀疏选择近似无损。

以下定理表明 A 区 token 贡献的梯度可以忽略不计，证明排除它们是合理的。关键前提是 A 区 token 对**教师和学生**两者都确实具有低熵——这个性质在课程（第 2.5 节 (https://arxiv.org/html/2606.28562#S2.SS5)）确保连贯的 rollouts、防止错位上下文导致虚假低熵分配时成立。

###### 定理 1。

在温和的正则性（有界得分函数）条件下，假设 A 区 token 满足 H_te(t) ≤ τ，H_θ(t) ≤ τ 且 TV(πte, πθ) ≤ δ(τ)，则完整梯度 g 和稀疏梯度 ĝ（仅基于 B∪C 区计算）满足：

‖g − (1−s)ĝ‖ ≤ sG (2τ + 2δ(τ) + τ/2 log|V|) = O(sGτ)

SEAD: 通过熵引导监督的胜任力感知在线策略蒸馏

相似文章

在策略自蒸馏中尊重自不确定性以实现高效LLM推理

SG-OPD：通过符号一致性门控和分阶段教师采样的符号门控在线策略蒸馏

你的老师在这里帮不了你：对抗在线策略蒸馏中的监督保真度衰减

OPRD：在策略表示蒸馏

OPID: 同策略技能蒸馏用于智能体强化学习

提交意见反馈