Qwen-Image-Flash（26分钟阅读）

TLDR AI 2026/06/05 00:00 论文

few-step-distillation text-to-image image-editing flow-matching distillation qwen visual-generative-models

摘要

本文来自阿里巴巴，重新审视了视觉生成模型的少步蒸馏，聚焦于训练配方因素如数据组成、教师指导和任务混合，以Qwen-Image-2.0为案例研究，开发了Qwen-Image-Flash。

一项对Qwen-Image-2.0少步蒸馏的研究发现，数据组成、教师指导和任务混合强烈影响学生模型的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/05 14:06

# Qwen-Image-Flash: 超越目标设计 来源：https://arxiv.org/html/2606.03746 吴天河，严坤，周子凯，蒋立涵，李嘉豪，张杰，高凯源，唐宁远，尹圣明，陈晓月，徐晓，陈一磊，陈宇翔，舒岩，徐一贤，张嫣然，刘子豪，王振东，张泽凯，李德清，彭亮，王一，周靖人，吴辰飞 \{wutianhe\.wth, fulai\.hr\}@alibaba\-inc\.com ###### 摘要 少步蒸馏已成为加速先进视觉生成模型的有效策略，但先前的工作主要聚焦于蒸馏目标。在这项工作中，我们从互补的视角重新审视少步蒸馏，重点关注对塑造学生模型性能至关重要的训练配方。以 Qwen-Image-2.0 作为代表性案例，我们系统地研究了统一文本到图像生成和指令引导图像编辑蒸馏中的三个因素：数据组成、教师指导以及任务混合。我们的实证分析揭示了一些非直观的行为，这促使了 Qwen-Image-Flash 的开发。总体而言，我们的结果表明，有效的少步蒸馏不仅需要精心设计的目标，还需要对更广泛的训练流程进行有原则的组织。参见图注 图 1：Qwen-Image-Flash 示例。仅需 44 次函数评估（NFE）的 T2I 和指令引导编辑结果，展示了统一的少步生成-编辑能力。###### 目录 1. 1. 引言 (https://arxiv.org/html/2606.03746#S1) 2. 2. 预备知识：流匹配与 DMD (https://arxiv.org/html/2606.03746#S2)1. 2\.1 流匹配 (https://arxiv.org/html/2606.03746#S2.SS1) 2. 2\.2 DMD 目标 (https://arxiv.org/html/2606.03746#S2.SS2) 3. 3. 数据组成在 T2I 蒸馏中的重要性 (https://arxiv.org/html/2606.03746#S3)1. 3\.1 训练设置 (https://arxiv.org/html/2606.03746#S3.SS1) 2. 3\.2 T2I-Bench (https://arxiv.org/html/2606.03746#S3.SS2) 3. 3\.3 T2I 蒸馏中数据多样性的反直觉效应 (https://arxiv.org/html/2606.03746#S3.SS3) 4. 4. 稳定互补式教师指导 (https://arxiv.org/html/2606.03746#S4)1. 4\.1 动机 (https://arxiv.org/html/2606.03746#S4.SS1) 2. 4\.2 观察 (https://arxiv.org/html/2606.03746#S4.SS2) 3. 4\.3 逐步多教师指导 (https://arxiv.org/html/2606.03746#S4.SS3) 4. 4\.4 多教师指导下的稳定蒸馏 (https://arxiv.org/html/2606.03746#S4.SS4) 5. 5. T2I 生成与编辑的联合蒸馏 (https://arxiv.org/html/2606.03746#S5)1. 5\.1 Editing-Bench (https://arxiv.org/html/2606.03746#S5.SS1) 2. 5\.2 任务混合组成 (https://arxiv.org/html/2606.03746#S5.SS2) 3. 5\.3 统一生成-编辑蒸馏中的任务比例敏感性 (https://arxiv.org/html/2606.03746#S5.SS3) 4. 5\.4 编辑监督有益于 T2I 生成 (https://arxiv.org/html/2606.03746#S5.SS4) 6. 6. 讨论 (https://arxiv.org/html/2606.03746#S6)1. 6\.1 不成功的尝试 (https://arxiv.org/html/2606.03746#S6.SS1) 2. 6\.2 局限性与未来工作 (https://arxiv.org/html/2606.03746#S6.SS2) 7. 7. 相关工作 (https://arxiv.org/html/2606.03746#S7)1. 7\.1 少步蒸馏 (https://arxiv.org/html/2606.03746#S7.SS1) 2. 7\.2 高效视觉生成与编辑的基准 (https://arxiv.org/html/2606.03746#S7.SS2) 8. 8. 结论 (https://arxiv.org/html/2606.03746#S8) 9. 参考文献 (https://arxiv.org/html/2606.03746#bib) 10. A. 评估详情 (https://arxiv.org/html/2606.03746#A1)1. A\.1 评估中使用的系统提示 (https://arxiv.org/html/2606.03746#A1.SS1) 2. A\.2 T2I-Bench 困难案例 (https://arxiv.org/html/2606.03746#A1.SS2) ## 引言 视觉生成模型已经超越了传统的文本到图像（T2I）系统，并正在日益发展为通用的视觉基础模型 (esser2024scaling; song2026awaking; liu2026ernieimagetechnicalreport; mao2026wan; song2026awaking)。现代模型能够从复杂提示中生成高保真图像，生成密集且结构化的视觉文本，利用后训练提升对齐度和视觉偏好 (liu2026flow)，并在统一框架内支持指令引导的图像编辑 (zhao2026qwen)。这些进展将其适用性扩展到内容创作、图形设计、交互式编辑和多模态应用。然而，这些模型的实际应用仍然受到其采样成本的限制。扩散 (ho2020denoising; song2020score) 和基于流 (lipman2022flow) 的视觉生成器通常通过迭代轨迹合成图像，在推理期间需要多次函数评估，从而导致显著的延迟和计算开销。这使得在延迟敏感或资源受限的环境中进行部署变得具有挑战性，这些环境包括交互式图像编辑 (meng2022sdedit; Brooks2022InstructPix2PixLT)、设备端生成 (li2023snapfusion; zhao2024mobilediffusion) 和大规模视觉内容生产 (azuma1997survey; yin2025causvid)。

少步蒸馏通过将多步教师模型的采样行为压缩到一个仅需几步即可生成的学生模型中，来解决这一限制。蒸馏目标的设计极大地推动了快速视觉生成的发展，包括轨迹级对齐 (geng2025mean)、一致性训练 (song2023consistency)、对抗性蒸馏 (sauer2024adversarial) 和分布匹配 (yin2024one; yin2024improved; jiang2025distribution)。然而，当现有的蒸馏方法直接应用于大规模、广泛且异质场景的视觉生成模型（例如文本中心渲染）时，一种看似直观且传统的训练配方往往无法达到预期的性能，如图 2 (https://arxiv.org/html/2606.03746#S3.F2) 所示。这种失败提醒我们，**蒸馏目标仅仅是故事的一部分**，有效的蒸馏还必须考虑目标所嵌入的更广泛的训练配方。

这一观察自然地将我们的注意力从孤立地设计蒸馏目标，转移到理解决定这些目标在实践中是否有效的更广泛训练配方上。这些考虑促使我们研究一个更实际的问题：**在将先进的视觉生成模型蒸馏为少步学生模型时，除了蒸馏目标本身之外，哪些训练时的设计选择至关重要？**

我们以 Qwen-Image-2.0 (zhao2026qwen) 为例开展此项研究，并系统分析了三个关键维度：用于 T2I 蒸馏的**数据组成**、利用具有不同能力的教师的**教师指导**策略，以及用于联合 T2I-编辑蒸馏的**任务混合**。我们的实证分析得出了三个关键发现。首先，T2I 蒸馏对数据组成高度敏感：增加多样性或使用更多目标特定数据并不总能改善性能，而来自单一类别的连贯数据却能出人意料地良好迁移。其次，将来自下游任务中具有互补优势的教师的知识进行转移仍然具有挑战性。为此，我们提出了一种逐步多教师指导策略，该策略结合了教师的任务特定专长，同时保持了训练稳定性。第三，在联合 T2I-编辑蒸馏中，任务混合起着决定性作用，在平衡的 T2I 与编辑数据比例（T2I:Edit）下可以实现最佳的统一性能。这些观察共同表明，现代视觉生成模型的少步蒸馏不仅受目标影响，还受训练期间数据、教师和任务的组织方式影响。

基于这些发现，我们开发了 **Qwen-Image-Flash**，一个用于 T2I 生成和指令引导图像编辑的统一少步模型。如图 1 (https://arxiv.org/html/2606.03746#S0.F1) 所示，Qwen-Image-Flash 将函数评估次数（NFE）减少到仅 44 次，同时在不同场景（*例如*，海报生成）中保持了高视觉质量和强大的合成能力。我们的工作不将少步蒸馏仅仅视为目标设计问题，而是强调了能够将先进的视觉生成能力可靠地转移到高效学生模型上的训练配方。因此，Qwen-Image-Flash 体现了我们的核心信息：有效的蒸馏必须**超越目标**。

## 预备知识：流匹配与 DMD

我们简要回顾本工作中使用的两个组件：流匹配 (lipman2022flow)，一个用于学习生成动力学的连续时间框架；以及 DMD (yin2024improved)，我们采用它来将多步教师模型蒸馏为少步学生模型。

### 2.1 流匹配

流匹配通过指定一条概率路径，然后学习沿该路径的速度场，来定义数据与噪声之间的传输过程。令 x∼pdata 表示一个数据点，ε∼pnoise 是一个独立的噪声样本，其中 pnoise 通常设为 N(0,I)。在本工作中，遵循 (liu2023flow; geng2025mean)，我们使用线性路径 zt=(1−t)x+tε, t∈[0,1]。 (1)

该路径从 t=0 时的数据分布出发，在 t=1 时到达噪声分布。条件 c 表示生成模型使用的任何辅助信息，例如标签、文本嵌入或任务特定的引导信号。在上述插值下，沿着路径移动点的速度为 ε−x。因此，流匹配训练一个参数化的向量场 vθ(zt,t,c) 来预测该速度： lFM(θ)=Et,x,ε[‖vθ(zt,t,c)−(ε−x)‖2]。 (2)

训练后，通过从噪声先验初始化 z1，并沿着从 t=1 到 t=0 的学到的 ODE 进行积分来生成样本。因此，生成的样本为 xθ=z1+∫10vθ(zt,t,c)dt。

### 2.2 DMD 目标

DMD 旨在将预训练的多步教师模型蒸馏为一个条件学生生成器 Gθ。给定输入噪声变量 ε 和条件 c，学生模型生成一个干净样本 xθ=Gθ(ε,c)。为了在噪声中间状态比较学生和教师，我们抽取另一个独立的噪声样本 ξ∼pnoise，并通过 xt=(1−t)xθ+tξ 扰动学生样本，其中 t∼pt。从高层次看，DMD 鼓励学生诱导的条件分布接近教师的条件分布。这可以写成如下的 KL 目标： lDMD(θ)≜DKL(pstu(xθ∣c)∥ptea(xθ∣c))。 (3)

DMD 并非直接优化该散度，而是使用基于学生分布和教师分布得分场差异的梯度估计器： ∇θlDMD(θ)=Eε,ξ,t[(∇θxθ)⊺(sstu(xt,t,c)−sreal(xt,t,c))]。 (4)

这里，sstu 使用一个在学生生成样本上训练的辅助得分网络进行估计，而 sreal 则从预训练教师获得。产生的更新促使学生朝其噪声边缘得分与教师得分在采样噪声级别上一致的区域移动。

## 数据组成在 T2I 蒸馏中的重要性

本节研究蒸馏数据的组成如何影响 T2I 学生模型的性能，重点关注通用图像生成和具有挑战性的文本中心合成场景。

### 3.1 训练设置

我们使用 Qwen-Image-2.0-Base (zhao2026qwen) 作为多步教师模型，并通过 DMD (yin2024improved) 将其蒸馏为一个 4 次函数评估（NFE）的学生模型。教师模型是预训练的基础模型，未通过偏好学习、强化学习或其他后训练程序增强，这使我们能够专注于不同的蒸馏数据分布如何影响学生模型。我们使用 Qwen3 (yang2025qwen3) 在三个代表性类别中构建蒸馏提示：风景、肖像和文本中心场景。每个类别包含 20,000 个多样化提示。基于这些类别特定的提示集，我们设计了五种具有不同类别覆盖水平的训练数据组成：纯风景、纯肖像、纯文本中心、风景-肖像，以及包含所有三个类别的混合类别数据。所有学生模型在相同的优化协议下使用 AdamW (loshchilov2017decoupled) 训练 2,000 次迭代，这样性能差异主要可归因于训练数据组成的选择。

### 3.2 T2I-Bench

为了支持对少步 T2I 生成进行严谨和系统的评估，我们引入了 **T2I-Bench**，这是一个具有挑战性的基准测试，涵盖了与数据组成研究相同的三个类别。T2I-Bench 总共包含 1,800 个评估案例，每个类别 600 个样本。我们采用 Gemini 3.1 Pro 和 GPT 5.5 作为自动偏好评估器来评估生成图像的感知质量，分数越高表示视觉保真度越好，与人类偏好的一致性越强。评估详情见附录。

表 1：不同训练数据组成下 T2I 蒸馏的定量比较。我们评估了在不同类别特定和混合类别训练集上蒸馏得到的 4 次函数评估学生模型，分别针对 T2I-Bench 的风景、肖像和文本中心分片。

| 实验 | 训练数据组成 | # 训练数据 | 评估模型 | T2I-Bench 各类别分数 | | | 平均分 | 排名 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| | | | | 风景 | 肖像 | 文本中心 | | |
| E1 | 风景 | 20,000 | Gemini 3.1 Pro | 3.53 | 3.37 | 3.01 | 3.30 | 3 |
| | | | GPT 5.5 | 4.30 | 4.31 | 3.77 | 4.13 | |
| E2 | 肖像 | 20,000 | Gemini 3.1 Pro | 3.56 | 3.57 | 3.12 | 3.42 | 1 |
| | | | GPT 5.5 | 4.35 | 4.34 | 3.76 | 4.15 | |
| E3 | 文本中心 | 20,000 | Gemini 3.1 Pro | 2.55 | 3.38 | 1.97 | 2.63 | 5 |
| | | | GPT 5.5 | 3.34 | 3.88 | 2.64 | 3.29 | |
| E4 | 风景-肖像 | 40,000 | Gemini 3.1 Pro | 3.61 | 3.54 | 3.04 | 3.40 | 2 |
| | | | GPT 5.5 | 4.24 | 4.33 | 3.62 | 4.06 | |
| E5 | 混合类别 | 60,000 | Gemini 3.1 Pro | 3.53 | 3.47 | 2.05 | 3.02 | 4 |
| | | | GPT 5.5 | 4.08 | 4.23 | 2.54 | 3.62 | |

参见图注 图 2：不同训练数据组成下 T2I 蒸馏的定性比较。我们比较了在代表性评估场景下，使用文本中心、混合类别、纯风景、风景-肖像以及纯肖像训练数据蒸馏得到的学生模型。结果表明，文本中心或更多样化的混合类别数据并不一定能改善文本渲染或整体视觉质量。相比之下，在连贯的单类别数据（如纯风景或纯肖像数据）上训练的学生模型，在各自领域以及跨场景中甚至表现更好。