通过教师对齐的端到端蒸馏实现高保真两步图像生成

Hugging Face Daily Papers 论文

摘要

本文介绍了Z-Image Turbo++,这是一个两步图像生成模型,通过使用分布对齐的对抗学习、步骤解耦参数化以及带有迭代正则化的端到端训练,从八步教师模型中蒸馏而来,旨在缩小与多步生成之间的质量差距。

少步扩散蒸馏在4-8步生成中已日益成熟,但进一步推进到2步仍具挑战性。在本工作中,我们介绍了Z-Image Turbo++,这是一个从8步Z-Image Turbo教师模型中蒸馏得到的高质量2步图像生成模型。我们的方法通过三个针对该场景简单而有效的设计选择,解决了2步生成中任务难度增加和模型容量有限的核心瓶颈。首先,我们提出分布对齐的对抗学习,该学习使用教师生成的图像而非外部真实图像作为GAN训练的真实样本,提供了更易实现且信息更丰富的对抗目标。其次,我们采用步骤解耦参数化,为两个去噪步骤分配独立的模型参数,以更好地匹配它们不同的容量需求。第三,我们执行带有迭代正则化的端到端训练,允许第一步接收来自最终图像质量的梯度,同时通过显式的步骤1损失保留有意义的中间生成。综合来看,这些设计在定性和定量评估中显著缩小了2步与8步生成之间的质量差距,凸显了精心定制的蒸馏策略在改善少步生成中质量-效率权衡方面的潜力。
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:50

论文页面 - 高保真两步图像生成:通过教师对齐的端到端蒸馏

来源:https://huggingface.co/papers/2606.12575

摘要

我们通过分布对齐对抗学习、步骤解耦参数化以及带迭代正则化的端到端训练,从8步教师模型蒸馏出一个2步图像生成模型。

少步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)在4-8步生成方面已日益成熟,但进一步推进到2步仍具挑战性。本文提出Z-Image Turbo++(https://huggingface.co/papers?q=Z-Image%20Turbo%2B%2B),一种从8步Z-Image Turbo教师模型蒸馏出的高质量2步图像生成模型。我们的方法通过三个简单但有效的设计选择,解决了2步生成中任务难度增加和模型容量受限这两个核心瓶颈。首先,我们提出分布对齐对抗学习(https://huggingface.co/papers?q=Distribution-Aligned%20Adversarial%20Learning),使用教师生成的图像而非外部真实图像作为GAN训练的真实样本,提供更易实现且信息更丰富的对抗目标。其次,我们采用步骤解耦参数化(https://huggingface.co/papers?q=Step-Decoupled%20Parameterization),为两个去噪步骤(https://huggingface.co/papers?q=denoising%20steps)分配独立的模型参数,以更好地匹配它们不同的容量需求。第三,我们执行带迭代正则化(https://huggingface.co/papers?q=Iterative%20Regularization)的端到端训练(https://huggingface.co/papers?q=End-to-End%20Training),让第一步能接收来自最终图像质量的梯度,同时通过显式的步骤1损失保留有意义的中间生成。这些设计共同在定性和定量评估中显著缩小了2步与8步生成之间的质量差距,凸显了精心设计的蒸馏策略在改善少步生成质量-效率权衡方面的潜力。

查看arXiv页面(https://arxiv.org/abs/2606.12575)查看PDF(https://arxiv.org/pdf/2606.12575)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12575)

在你的智能体中获取此论文:

hf papers read 2606.12575

还没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.12575即可从本页链接到它。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.12575即可从本页链接到它。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.12575即可从本页链接到它。

包含此论文的收藏集0

没有收藏集包含此论文

将本论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从本页链接到它。

相似文章

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。

通过奖励倾斜分布匹配强化少步生成器

Hugging Face Daily Papers

RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。

Qwen-Image-Flash:超越目标设计

Hugging Face Daily Papers

本文研究了视觉生成模型的少步蒸馏训练策略,以Qwen-Image-2.0为例。它揭示了非直观行为,并提出了Qwen-Image-Flash。