D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

Hugging Face Daily Papers 2026/05/06 00:00 论文

摘要

本文介绍了 D-OPSD，一种用于步骤蒸馏扩散模型的新型训练范式，能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下，学习新概念或新风格。

高性能图像生成模型的格局正从低效的多步模型向高效的少步模型（例如 Z-Image-Turbo 和 FLUX.2-klein）转变。然而，这些模型在直接进行连续监督微调方面面临巨大挑战。例如，应用常见的微调技术会损害其固有的少步推理能力。为此，我们提出了 D-OPSD，这是一种用于步骤蒸馏扩散模型的新型训练范式，能够在监督微调期间实现在线策略学习。我们首先发现，以大型语言模型（LLM）或视觉语言模型（VLM）作为编码器的现代扩散模型可以继承其编码器的上下文学习能力。这使我们将训练过程构建为在线策略自蒸馏过程。具体而言，在训练过程中，模型在不同的上下文中同时充当教师和学生角色，其中学生仅以文本特征为条件，而教师则以文本提示和目标图像的多模态特征为条件。训练过程旨在最小化基于学生自身采样结果的预测分布之间的差异。通过对模型自身的轨迹进行优化并在其自身监督下学习，D-OPSD 使模型能够在不牺牲原始少步生成能力的前提下，学习新概念、新风格等。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:12

论文页面 - D-OPSD：用于连续微调步长蒸馏扩散模型的同策略自蒸馏

来源: https://huggingface.co/papers/2605.05204 作者:

摘要

一种名为 D-OPSD 的新训练方法，通过利用文本和多模态特征的同策略自蒸馏，在保留少步推理能力的同时，实现了扩散模型的高效监督微调。

高性能图像生成模型领域正从低效的多步模型向高效的少步模型（例如 Z-Image-Turbo 和 FLUX.2-klein）转变。然而，这些模型在直接进行连续监督微调时面临重大挑战。例如，应用常用的微调技术会损害其固有的少步推理能力。为了解决这一问题，我们提出了 D-OPSD，这是一种用于步长蒸馏扩散模型的新型训练范式，使得在监督微调期间能够实现同策略学习。

我们首先发现，以 LLM/VLM 作为编码器的现代扩散模型可以继承其编码器的上下文学习能力。这使我们能够将训练过程转化为同策略自蒸馏过程。具体而言，在训练过程中，模型同时充当具有不同上下文的教师和学生：学生仅以文本特征为条件，而教师则以文本提示和目标图像的多模态特征为条件。训练旨在最小化学生自身 rollout 上两个预测分布之间的差异。通过在模型自身的轨迹上进行优化并在其自身监督下学习，D-OPSD 使模型能够在不牺牲原有少步能力的前提下学习新概念、新风格等。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05204) 查看 PDF (https://arxiv.org/pdf/2605.05204) 项目页面 (https://vvvvvjdy.github.io/d-opsd/) GitHub (https://github.com/vvvvvjdy/D-OPSD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05204)

在您的智能体中获取此论文：

hf papers read 2605.05204

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.05204 即可从此页面建立链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.05204 即可从此页面建立链接。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.05204 即可从此页面建立链接。

D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

论文页面 - D-OPSD：用于连续微调步长蒸馏扩散模型的同策略自蒸馏

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 1

相似文章

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

向自我未来学习：面向扩散大语言模型的自策略知识蒸馏

自蒸馏实现持续学习 [pdf]

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

通过在线策略蒸馏实现数据高效的自回归到扩散语言模型

提交意见反馈