Qwen-Image-Flash:超越目标设计
摘要
本文研究了视觉生成模型的少步蒸馏训练策略,以Qwen-Image-2.0为例。它揭示了非直观行为,并提出了Qwen-Image-Flash。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - Qwen-Image-Flash: 超越目标设计
来源: https://huggingface.co/papers/2606.03746 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
针对视觉生成模型的少步蒸馏,除了蒸馏目标之外,系统性地探究训练方案也能带来收益 —— 通过优化数据组成、教师引导和任务混合,可以提升学生模型的性能。
Few-step distillation (https://huggingface.co/papers?q=Few-step%20distillation) 已成为加速 advanced visual generative models (https://huggingface.co/papers?q=visual%20generative%20models) 的有效策略,然而先前的工作主要聚焦于 distillation objectives (https://huggingface.co/papers?q=distillation%20objectives)。本文从互补的角度重新审视 few-step distillation (https://huggingface.co/papers?q=few-step%20distillation),重点关注对 student performance 有重要影响的 training recipe (https://huggingface.co/papers?q=training%20recipe)。以 Qwen-Image-2.0 为代表案例,我们系统性地研究了统一 text-to-image generation (https://huggingface.co/papers?q=text-to-image%20generation) 和 instruction-guided image editing (https://huggingface.co/papers?q=instruction-guided%20image%20editing) 蒸馏中的三个因素:data composition (https://huggingface.co/papers?q=data%20composition)、teacher guidance (https://huggingface.co/papers?q=teacher%20guidance) 和 task mixture (https://huggingface.co/papers?q=task%20mixture)。我们的实证分析揭示了若干非显而易见的特性,这促使了 Qwen-Image-Flash 的开发。总体而言,我们的结果表明,有效的 few-step distillation (https://huggingface.co/papers?q=few-step%20distillation) 不仅需要精心设计的目标,还需要对整个训练流程进行有原则的组织。
查看 arXiv 页面 (https://arxiv.org/abs/2606.03746) 查看 PDF (https://arxiv.org/pdf/2606.03746) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03746)
在您的 agent 中获取本文:
hf papers read 2606\.03746
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型 0
没有模型链接本论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.03746,以便从此页面建立链接。
引用本论文的数据集 0
没有数据集链接本论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.03746,以便从此页面建立链接。
引用本论文的 Space 0
没有 Space 链接本论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.03746,以便从此页面建立链接。
包含本论文的收藏集 0
没有收藏集包含本论文
请将本论文添加到一个 collection (https://huggingface.co/new-collection) 中,以便从此页面建立链接。
相似文章
Qwen-Image-Flash(26分钟阅读)
本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。
@HuggingPapers: 阿里巴巴发布Qwen-Image-Flash,少步蒸馏超越目标,数据组成、教师指导和…
阿里巴巴发布了Qwen-Image-Flash,这是一种少步蒸馏模型,用于快速、高质量的文本到图像生成和指令引导编辑,利用了数据组成、教师指导和任务混合。
Qwen-Image-2.0 技术报告
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
Qwen-Image-2.0 技术报告(阅读时长约57分钟)
本技术报告介绍了阿里巴巴Qwen团队推出的新图像生成模型Qwen-Image-2.0,详细阐述了其架构与能力。
Qwen-Image-VAE-2.0 技术报告
Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。