用于少步扩散蒸馏的连续时间分布匹配

Hugging Face Daily Papers 论文

摘要

本文介绍了连续时间分布匹配(CDM),这是一种用于少步扩散蒸馏的方法,它通过将优化过程从离散迁移到连续,提高了视觉保真度并保留了精细细节。

步数蒸馏已成为加速扩散模型的主要技术之一,其中分布匹配蒸馏(DMD)和一致性蒸馏是两个具有代表性的范式。虽然一致性方法通过强制完整 PF-ODE 轨迹上的自一致性来引导其走向干净数据流形,但传统的 DMD 依赖于在少数预定义的离散时间步长上的稀疏监督。这种受限的离散时间公式以及反向 KL 散度的模式寻求特性往往会导致视觉伪影和过度平滑的输出,通常需要复杂的辅助模块——如生成对抗网络(GAN)或奖励模型——来恢复视觉保真度。在这项工作中,我们介绍了连续时间分布匹配(CDM),首次将 DMD 框架从离散锚定迁移到连续优化。CDM 通过两种连续时间设计实现了这一目标。首先,我们用具有随机长度的动态连续调度替换固定的离散调度,从而在采样轨迹上的任意点强制进行分布匹配,而不仅仅是在少数固定锚点上。其次,我们提出了一种连续时间对齐目标,通过对通过学生速度场外推的潜变量进行主动的轨迹外匹配,提高了泛化能力并保留了精细的视觉细节。在不同架构上的广泛实验,包括 SD3-Medium 和 Longcat-Image,表明 CDM 在无需依赖复杂辅助目标的情况下,为少步图像生成提供了极具竞争力的视觉保真度。代码可在 https://github.com/byliutao/cdm 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:03

论文页 - 用于少步扩散蒸馏的连续时间分布匹配

来源: https://huggingface.co/papers/2605.06376 发布于 5月7日

·

提交者 https://huggingface.co/byliutao

liutao (https://huggingface.co/byliutao) 于 5月8日

作者:

,

,

,

,

,

,

,

,

,

摘要

连续时间分布匹配 (Continuous-Time Distribution Matching) 将扩散模型蒸馏从离散优化迁移到连续优化,通过在采样轨迹上任意点进行优化,并结合动态调度和速度场外推,保留了精细的视觉细节。

步骤蒸馏 (Step distillation) 已成为加速扩散模型 (diffusion models) 的主要技术之一,其中分布匹配蒸馏 (Distribution Matching Distillation, DMD) 和一致性蒸馏 (Consistency Distillation) 是两个代表性范式。虽然一致性方法通过强制执行 PF-ODE 轨迹上的自一致性将其引导至干净数据流形,但传统的 DMD 仅依赖于少数预定义离散时间步长的稀疏监督。这种受限的离散时间公式以及反向 KL 散度 (reverse KL divergence) 的模式寻求 (mode-seeking) 特性,往往会导致视觉伪影和输出过平滑,通常需要借助复杂的辅助模块——如 GANs 或奖励模型——来恢复视觉保真度。在本工作中,我们引入了连续时间分布匹配 (Continuous-Time Distribution Matching, CDM),首次将 DMD 框架从离散锚定迁移到连续优化。CDM 通过两种连续时间设计实现了这一目标。首先,我们用随机长度的动态连续调度替换固定的离散调度,使得分布匹配在采样轨迹上的任意点强制执行,而不仅限于少数固定锚点。其次,我们提出了一种连续时间对齐目标,对通过学生模型速度场外推的潜在表示进行主动的轨迹外匹配,从而提高了泛化能力并保留了精细的视觉细节。在不同架构(包括 SD3-Medium 和 Longcat-Image)上的大量实验表明,CDM 在不依赖复杂辅助目标的情况下,为少步图像生成提供了极具竞争力的视觉保真度。代码可用地址: https://github.com/byliutao/cdm。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06376) 查看 PDF (https://arxiv.org/pdf/2605.06376) 项目页面 (https://byliutao.github.io/cdm_page/) GitHub1 (https://github.com/byliutao/cdm) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06376)

在您的代理中获取此论文:

hf papers read 2605\.06376

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 2

byliutao/stable-diffusion-3-medium-turbo 文本转图像 • 27分钟前更新 • 4 • 1 (https://huggingface.co/byliutao/stable-diffusion-3-medium-turbo)

byliutao/Longcat-Image-Turbo 26分钟前更新 • 1 (https://huggingface.co/byliutao/Longcat-Image-Turbo)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06376 以从此页链接它。

引用此论文的空间 0

没有链接此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.06376 以从此页链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页链接它。

相似文章

简化、稳定和扩展连续时间一致性模型

OpenAI Blog

OpenAI 推出 sCM(简化连续时间一致性模型),这是一种新方法,可将一致性模型扩展至 1.5B 参数,通过仅 2 个采样步骤生成高质量样本,相比扩散模型实现约 50 倍的加速。该方法展示了与最先进扩散模型相当的样本质量,同时有效采样计算量不足 10%。

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。