Qwen-Image-Flash:超越目标设计

Hugging Face Daily Papers 论文

摘要

本文研究了视觉生成模型的少步蒸馏训练策略,以Qwen-Image-2.0为例。它揭示了非直观行为,并提出了Qwen-Image-Flash。

少步蒸馏已成为加速先进视觉生成模型的有效策略,但先前的工作主要集中在蒸馏目标上。在这项工作中,我们从互补的角度重新审视少步蒸馏,重点关注对师生模型性能至关重要的训练策略。以Qwen-Image-2.0作为典型案例,我们在统一的文本到图像生成和指令引导图像编辑蒸馏中系统研究了三个因素:数据组成、教师引导和任务混合。我们的实证分析揭示了若干非直观行为,这促使了Qwen-Image-Flash的开发。总体而言,我们的结果表明,有效的少步蒸馏不仅需要精心设计的蒸馏目标,还需要对整体训练流程进行有原则的组织。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - Qwen-Image-Flash: 超越目标设计

来源: https://huggingface.co/papers/2606.03746 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

针对视觉生成模型的少步蒸馏,除了蒸馏目标之外,系统性地探究训练方案也能带来收益 —— 通过优化数据组成、教师引导和任务混合,可以提升学生模型的性能。

Few-step distillation (https://huggingface.co/papers?q=Few-step%20distillation) 已成为加速 advanced visual generative models (https://huggingface.co/papers?q=visual%20generative%20models) 的有效策略,然而先前的工作主要聚焦于 distillation objectives (https://huggingface.co/papers?q=distillation%20objectives)。本文从互补的角度重新审视 few-step distillation (https://huggingface.co/papers?q=few-step%20distillation),重点关注对 student performance 有重要影响的 training recipe (https://huggingface.co/papers?q=training%20recipe)。以 Qwen-Image-2.0 为代表案例,我们系统性地研究了统一 text-to-image generation (https://huggingface.co/papers?q=text-to-image%20generation) 和 instruction-guided image editing (https://huggingface.co/papers?q=instruction-guided%20image%20editing) 蒸馏中的三个因素:data composition (https://huggingface.co/papers?q=data%20composition)、teacher guidance (https://huggingface.co/papers?q=teacher%20guidance) 和 task mixture (https://huggingface.co/papers?q=task%20mixture)。我们的实证分析揭示了若干非显而易见的特性,这促使了 Qwen-Image-Flash 的开发。总体而言,我们的结果表明,有效的 few-step distillation (https://huggingface.co/papers?q=few-step%20distillation) 不仅需要精心设计的目标,还需要对整个训练流程进行有原则的组织。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03746) 查看 PDF (https://arxiv.org/pdf/2606.03746) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03746)

在您的 agent 中获取本文:

hf papers read 2606\.03746

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 0

没有模型链接本论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.03746,以便从此页面建立链接。

引用本论文的数据集 0

没有数据集链接本论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.03746,以便从此页面建立链接。

引用本论文的 Space 0

没有 Space 链接本论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.03746,以便从此页面建立链接。

包含本论文的收藏集 0

没有收藏集包含本论文

请将本论文添加到一个 collection (https://huggingface.co/new-collection) 中,以便从此页面建立链接。

相似文章

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。

Qwen-Image-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

Qwen-Image-VAE-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。