向自我未来学习:面向扩散大语言模型的自策略知识蒸馏

arXiv cs.CL 论文

摘要

介绍了 d-OPSD,这是首个面向扩散大语言模型的自策略知识蒸馏框架,采用后缀条件和步骤级别监督,在推理基准上优于 RLVR 和 SFT 基线。

arXiv:2606.18195v1 公告类型:新 摘要:自策略知识蒸馏(OPSD)已被证明对大语言模型(LLM)的后训练有效,但其在扩散大语言模型(dLLM)上的应用尚未被探索。现有的 OPSD 方法本质上是自回归中心的。它们通过从左到右的前缀条件结合token级别的差异监督注入特权信息,这种设计与 dLLM 的任意顺序生成根本冲突。我们提出了 d-OPSD,这是首个专为 dLLM 定制的 OPSD 框架。我们的方法有两个核心贡献。首先,我们重新构建了自我教师构造,通过使用自生成的答案作为后缀条件,使学生模型能够从“自我未来经验”中学习,而不是从特权前缀中学习。其次,我们将监督从 token 级别转移到步骤级别,使训练与 dLLM 的迭代去噪过程对齐。在四个推理基准上的实验表明,d-OPSD 在样本效率上始终优于 RLVR 和 SFT 基线,仅需约 RLVR 10% 的优化步骤,为 dLLM 的后训练开辟了有前景的途径。代码可在 https://github.com/xingzhejun/d-OPSD 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:42

# 从未来自我学习:面向扩散大语言模型的在线自我蒸馏  
来源:https://arxiv.org/html/2606.18195  

Yifu Luo¹,†, Zeyu Chen²,†, Haoyu Wang³, Xinhao Hu¹, Yuxuan Zhang⁴,  
Zhizhou Sha⁵, Shiwei Liu⁶,⁷,⁸, †共同第一作者  

¹清华大学  
²慕尼黑工业大学  
³南洋理工大学  
⁴不列颠哥伦比亚大学  
⁵德克萨斯大学奥斯汀分校  
⁶蒂宾根ELLIS研究所  
⁷马克斯·普朗克智能系统研究所  
⁸蒂宾根AI中心  

###### 摘要  

在线自我蒸馏(OPSD)已被证明能有效对大型语言模型(LLMs)进行后训练,但其在扩散语言模型(dLLMs)上的应用仍未被探索。现有的OPSD方法本质上是自回归中心的。它们通过从左到右的前缀条件化(prefix conditioning)和token级别的散度监督(divergence supervision)注入特权信息,这种设计与dLLMs的任意顺序生成存在根本性冲突。我们提出了d-OPSD,这是首个为dLLMs量身定制的OPSD框架。我们的方法做出了两项核心贡献。首先,我们重新构建了自我教师(self-teacher)的构造方式,将模型自身生成的答案作为后缀条件(suffix conditioning),从而使学生模型能够从“自我未来经验”中学习,而非依赖特权前缀。其次,我们将监督从token级别转向步骤级别(step-level),使训练与dLLMs的迭代去噪过程保持一致。在四个推理基准上的实验表明,d-OPSD在推理性能和样本效率上始终优于RLVR和SFT基线,仅需RLVR约10%的优化步骤,为dLLMs的后训练开辟了一条有前景的路径。代码已开源在https://github.com/xingzhejun/d-OPSD。  

## 1 引言  

请参见图注  
图1:RLVR基线(diffu-GRPO (Zhao et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib20))与我们的方法d-OPSD在推理性能和样本效率上的比较。  

在线蒸馏(OPD)(Agarwal et al., 2024 (https://arxiv.org/html/2606.18195#bib.bib1); Yang et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib3); Lu and Lab, 2025 (https://arxiv.org/html/2606.18195#bib.bib2); Li et al., 2026 (https://arxiv.org/html/2606.18195#bib.bib4))最近已成为大型语言模型(LLMs)后训练中一种非常有效的范式,其中学生模型采样自身的轨迹,而一个更强的教师模型提供密集的token级别监督。相比于基于可验证奖励的强化学习(RLVR)(如GRPO (Guo et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib6))和有监督微调(SFT),OPD具有显著优势。与RLVR相比,OPD从教师处提供密集的token级别监督,克服了稀疏结果奖励的瓶颈。与SFT相比,OPD利用学生自身生成的样本进行训练,从而避免了曝光偏差 (Bengio et al., 2015 (https://arxiv.org/html/2606.18195#bib.bib8))。然而,OPD严重依赖更强的教师模型,这在许多场景下往往不切实际。为了解决这个问题,最近的工作 (Zhao et al., 2026 (https://arxiv.org/html/2606.18195#bib.bib9); Hübotter et al., 2026 (https://arxiv.org/html/2606.18195#bib.bib10); Shenfeld et al., 2026 (https://arxiv.org/html/2606.18195#bib.bib11))将OPD扩展为在线自我蒸馏(OPSD),其中单个模型在获得教师特定的特权信息后充当自身的教师,展示了一个强大的自我改进框架。  

与此同时,扩散大语言模型(dLLMs) (Ou et al., 2024 (https://arxiv.org/html/2606.18195#bib.bib12); Nie et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib13); Ye et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib14); Cheng et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib15); Bie et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib16))已展现出作为自回归(AR)LLMs (Jaech et al., 2024 (https://arxiv.org/html/2606.18195#bib.bib24); Xiao et al., 2026 (https://arxiv.org/html/2606.18195#bib.bib25))替代方案的强大潜力。通过将语言生成建模为一个迭代去噪过程,dLLMs绕过了AR模型严格的从左到右依赖,解锁了任意顺序生成和加速推理等独特优势 (Khanna et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib17); Song et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib18); Wu et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib19))。虽然最近的工作 (Zhao et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib20); Tang et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib21); Xie et al., 2025 (https://arxiv.org/html/2606.18195#bib.bib22))已成功将RLVR应用于dLLMs,证明其推理能力可以通过后训练得到增强,但dLLMs的OPSD在此背景下仍基本未被探索。与此同时,如Figure 2 (https://arxiv.org/html/2606.18195#S1.F2)所示,现有的针对AR模型的OPSD方法遵循一种标准的自我教师构建范式,即简单地将特权信息(例如参考解)附加到提示中,并在token级别计算师生散度监督。鉴于dLLMs与AR LLMs存在根本不同的特性,本文研究了以下两个问题:  

**问题:** 是否有专门为dLLMs设计的更好的OPSD公式?  
**答案:** 是的。自我教师构建和散度监督的级别都可以针对dLLMs进行优化,如Figure 2 (https://arxiv.org/html/2606.18195#S1.F2)所示。  

**问题:** OPSD在增强dLLMs推理能力方面是否优于RLVR?  
**答案:** 是的。它在推理性能和样本效率方面均取得了更优的结果,如Figure 1 (https://arxiv.org/html/2606.18195#S1.F1)所示。  

首先,我们指出上述自我教师构建对于dLLMs是次优的。将特权信息附加到提示中本质上是为AR模型设计的,因为它们受限于从左到右的生成,只能进行前缀条件化 \(p(\text{suffix}|\text{prefix})\)。相比之下,dLLMs非自回归地生成序列,这允许我们将特权信息作为后缀上下文条件融入。更重要的是,这一特性使我们能够将特权信息的内容从静态的参考解转变为模型自身生成的答案,从而更贴近在线策略的本质。如Figure 2 (https://arxiv.org/html/2606.18195#S1.F2)所示,dLLMs的 \(p(\text{prefix}|\text{suffix})\) 能力允许我们使用自生成答案作为后缀条件后验来充当特权信息。这引导学生从“自我未来经验”中学习,类似于人类的灵感:我们总梦想如果知道接下来发生的事情能回到10年前该多好。我们的教师构建的一个关键优势是它提供了更多的新知识(思维模式)供学生迁移,我们在Section 4.3 (https://arxiv.org/html/2606.18195#S4.SS3)中对此进行了实证讨论。  

其次,token级别的散度监督也不适合dLLMs。虽然AR模型天生依赖下一个token预测,但dLLMs在每个去噪步骤同时预测所有掩码token,但只保留其中一部分,同时重新掩码其他部分。因此,为AR模型设计的token级别监督变得不兼容。相反,由于每个去噪步骤可视为一个独立的马尔可夫转移,步骤级别的散度成为dLLMs OPSD的自然选择。通过将密集监督从token级别转移到步骤级别,我们使OPSD目标与dLLMs的迭代去噪特性紧密对齐。  

基于这些见解,我们提出了**扩散在线自我蒸馏(d-OPSD)**,一种专门为dLLMs设计以驱动自我改进的新型OPSD框架。据我们所知,这是OPSD首次应用于dLLMs。在我们的方法中,学生采样自己的轨迹,而自我教师则利用自生成答案作为后缀特权信息构建。通过应用步骤级别散度,学生有效地从其“自我未来经验”中学习。在四个推理任务上的大量实验表明,我们的方法在推理性能和样本效率上持续优于RLVR和SFT基线,如Figure 1 (https://arxiv.org/html/2606.18195#S1.F1)所示。  

请参见图注  
图2:我们的方法d-OPSD的框架。它利用自生成答案作为后缀特权信息来构建自我教师,并使用步骤级别散度引导学生从“自我未来经验”中学习。  

我们的贡献总结如下:  
- • 我们发现现有的OPSD公式对dLLMs是次优的。为弥合这一差距,我们引入了一种新颖的自我教师构建方法,该方法利用自生成答案作为后缀条件后验充当特权信息,并将密集的散度监督从token级别转移到步骤级别。  
- • 我们首次将OPSD引入dLLMs。我们提出了d-OPSD,一个为dLLMs量身定制的新型OPSD框架,用于驱动自我改进。它使单个模型同时扮演教师和学生角色,利用自生成的“未来”作为特权信息,为学生轨迹提供密集的步骤级别监督。  
- • 我们在四个推理任务上进行了大量实验,证明我们的方法在推理性能和样本效率方面均优于RLVR和SFT基线。此外,我们实证分析了不同设置的影响,为该领域未来的进展铺平了道路。  

## 2 预备知识  

### 2.1 扩散大语言模型  

在本小节中,我们简要回顾dLLMs的训练和推理范式。在训练期间,dLLMs定义一个前向过程,该过程通过将token替换为特殊的`[mask]` token来逐步破坏干净的输入。给定一个提示 \(x\) 和一个干净的回答 \(y_0 = \{y_0^1, y_0^2, \cdots, y_0^L\}\),前向过程在步骤0保留在自我教师构造中),每次我们移动到一个新的块时,我们清除该块中所有未掩码的token,使新块完全由掩码token填充。我们提供一个来自GSM8K训练集的例子。问题是:  

请参见图注  
图9:来自GSM8K训练集的一个问题。  

首先,我们使用pass@k从学生模型中采样一个生成(它会持续采样直到出现正确的最终答案或达到迭代阈值),并得到最终的干净答案:  

请参见图注  
图10:自生成答案。  

然后我们通过部分揭示最终生成来构建自我教师,如Figure 11 (https://arxiv.org/html/2606.18195#A4.F11)所示。  

请参见图注  
图11:玩具实验中的自我教师。  

表10:教师固定的推理性能比较。  

## 附录E 额外的实验结果  

### E.1 额外的消融研究  

**固定教师。** 我们发现固定教师模型能带来更大的性能提升,如LABEL:app_tab1所示。值得注意的是,即使教师不固定,d-OPSD的推理性能也几乎与RLVR基线持平,进一步证明了其有效性。  

表11:推理性能比较。  

**仅对正确生成计算损失** 如LABEL:app_tab2所示,对所有轨迹计算损失会导致轻微的性能下降。尽管如此,它仍然优于RLVR基线。  

### E.2 GSM8k上的定性示例  

我们在GSM8k测试集上提供一个定性示例,其中RLVR模型给出了错误答案,而我们的方法给出了正确答案,如Figure 13 (https://arxiv.org/html/2606.18195#A5.F13)所示。  

### E.3 失败模式  

Figure 12 (https://arxiv.org/html/2606.18195#A5.F12)展示了Section 4.5 (https://arxiv.org/html/2606.18195#S4.SS5)中提到的失败模式。  

请参见图注  
图12:崩溃的失败模式。  

请参见图注  
图13:GSM8k上的定性示例。

相似文章

自蒸馏策略梯度

arXiv cs.LG

SDPG(自蒸馏策略梯度)是一种面向大语言模型的全新强化学习训练框架,结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化,旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文,使同一模型同时充当学生和教师,在稳定性和性能上均优于RLVR及自蒸馏基线方法。

自蒸馏实现持续学习 [pdf]

Hacker News Top

介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。