D-OPSD:面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏
摘要
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
查看缓存全文
缓存时间: 2026/05/08 08:12
论文页面 - D-OPSD:用于连续微调步长蒸馏扩散模型的同策略自蒸馏
来源: https://huggingface.co/papers/2605.05204 作者:
,
,
,
,
,
,
,
,
摘要
一种名为 D-OPSD 的新训练方法,通过利用文本和多模态特征的同策略自蒸馏,在保留少步推理能力的同时,实现了扩散模型的高效监督微调。
高性能图像生成模型领域正从低效的多步模型向高效的少步模型(例如 Z-Image-Turbo 和 FLUX.2-klein)转变。然而,这些模型在直接进行连续监督微调时面临重大挑战。例如,应用常用的微调技术会损害其固有的少步推理能力。为了解决这一问题,我们提出了 D-OPSD,这是一种用于步长蒸馏扩散模型的新型训练范式,使得在监督微调期间能够实现同策略学习。
我们首先发现,以 LLM/VLM 作为编码器的现代扩散模型可以继承其编码器的上下文学习能力。这使我们能够将训练过程转化为同策略自蒸馏过程。具体而言,在训练过程中,模型同时充当具有不同上下文的教师和学生:学生仅以文本特征为条件,而教师则以文本提示和目标图像的多模态特征为条件。训练旨在最小化学生自身 rollout 上两个预测分布之间的差异。通过在模型自身的轨迹上进行优化并在其自身监督下学习,D-OPSD 使模型能够在不牺牲原有少步能力的前提下学习新概念、新风格等。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05204) 查看 PDF (https://arxiv.org/pdf/2605.05204) 项目页面 (https://vvvvvjdy.github.io/d-opsd/) GitHub (https://github.com/vvvvvjdy/D-OPSD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05204)
在您的智能体中获取此论文:
hf papers read 2605.05204
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.05204 即可从此页面建立链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.05204 即可从此页面建立链接。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.05204 即可从此页面建立链接。
包含此论文的收藏集 1
相似文章
DiffusionOPD:扩散模型中在线策略蒸馏的统一视角
DiffusionOPD提出了一种扩散模型的多任务训练范式,利用在线策略蒸馏将任务特定的教师模型高效地整合到统一的学生模型中,在所有评估基准上取得了最先进的结果。
向自我未来学习:面向扩散大语言模型的自策略知识蒸馏
介绍了 d-OPSD,这是首个面向扩散大语言模型的自策略知识蒸馏框架,采用后缀条件和步骤级别监督,在推理基准上优于 RLVR 和 SFT 基线。
自蒸馏实现持续学习 [pdf]
介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。
On-policy distillation: 在PapersWithCode上最热门术语之一 [R]
Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。
通过在线策略蒸馏实现数据高效的自回归到扩散语言模型
本文介绍了OPDLM,一种通过在线策略蒸馏将自回归语言模型转换为扩散语言模型的方法,所需训练令牌数量减少15倍到7000倍,同时保留原始模型的知识。