通过教师对齐的端到端蒸馏实现高保真两步图像生成
摘要
本文介绍了Z-Image Turbo++,这是一个两步图像生成模型,通过使用分布对齐的对抗学习、步骤解耦参数化以及带有迭代正则化的端到端训练,从八步教师模型中蒸馏而来,旨在缩小与多步生成之间的质量差距。
查看缓存全文
缓存时间: 2026/06/12 06:50
论文页面 - 高保真两步图像生成:通过教师对齐的端到端蒸馏
来源:https://huggingface.co/papers/2606.12575
摘要
我们通过分布对齐对抗学习、步骤解耦参数化以及带迭代正则化的端到端训练,从8步教师模型蒸馏出一个2步图像生成模型。
少步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)在4-8步生成方面已日益成熟,但进一步推进到2步仍具挑战性。本文提出Z-Image Turbo++(https://huggingface.co/papers?q=Z-Image%20Turbo%2B%2B),一种从8步Z-Image Turbo教师模型蒸馏出的高质量2步图像生成模型。我们的方法通过三个简单但有效的设计选择,解决了2步生成中任务难度增加和模型容量受限这两个核心瓶颈。首先,我们提出分布对齐对抗学习(https://huggingface.co/papers?q=Distribution-Aligned%20Adversarial%20Learning),使用教师生成的图像而非外部真实图像作为GAN训练的真实样本,提供更易实现且信息更丰富的对抗目标。其次,我们采用步骤解耦参数化(https://huggingface.co/papers?q=Step-Decoupled%20Parameterization),为两个去噪步骤(https://huggingface.co/papers?q=denoising%20steps)分配独立的模型参数,以更好地匹配它们不同的容量需求。第三,我们执行带迭代正则化(https://huggingface.co/papers?q=Iterative%20Regularization)的端到端训练(https://huggingface.co/papers?q=End-to-End%20Training),让第一步能接收来自最终图像质量的梯度,同时通过显式的步骤1损失保留有意义的中间生成。这些设计共同在定性和定量评估中显著缩小了2步与8步生成之间的质量差距,凸显了精心设计的蒸馏策略在改善少步生成质量-效率权衡方面的潜力。
查看arXiv页面(https://arxiv.org/abs/2606.12575)查看PDF(https://arxiv.org/pdf/2606.12575)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12575)
在你的智能体中获取此论文:
hf papers read 2606.12575
还没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.12575即可从本页链接到它。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.12575即可从本页链接到它。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.12575即可从本页链接到它。
包含此论文的收藏集0
没有收藏集包含此论文
将本论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从本页链接到它。
相似文章
Qwen-Image-Flash(26分钟阅读)
本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。
@HuggingPapers: 阿里巴巴发布Qwen-Image-Flash,少步蒸馏超越目标,数据组成、教师指导和…
阿里巴巴发布了Qwen-Image-Flash,这是一种少步蒸馏模型,用于快速、高质量的文本到图像生成和指令引导编辑,利用了数据组成、教师指导和任务混合。
通过奖励倾斜分布匹配强化少步生成器
RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。
Qwen-Image-Flash:超越目标设计
本文研究了视觉生成模型的少步蒸馏训练策略,以Qwen-Image-2.0为例。它揭示了非直观行为,并提出了Qwen-Image-Flash。
@jiqizhixin:如果只需要一步就能生成高质量图像,而不是数百步?斯坦福和字节跳动推出 W-Flow……
斯坦福和字节跳动推出 W-Flow,一种单步生成模型,利用 Wasserstein 梯度流实现了最先进的单步 ImageNet 256x256 生成(FID 1.29),采样速度比多步扩散模型快 100 倍。