简化、稳定和扩展连续时间一致性模型

OpenAI Blog 论文

摘要

OpenAI 推出 sCM(简化连续时间一致性模型),这是一种新方法,可将一致性模型扩展至 1.5B 参数,通过仅 2 个采样步骤生成高质量样本,相比扩散模型实现约 50 倍的加速。该方法展示了与最先进扩散模型相当的样本质量,同时有效采样计算量不足 10%。

我们简化、稳定并扩展了连续时间一致性模型,实现了与领先扩散模型相当的样本质量,同时仅需两个采样步骤。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:47

# 简化、稳定和扩展连续时间一致性模型 来源:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/ 扩散模型的现有采样方法通常需要数十到数百个顺序步骤来生成单个样本,这限制了它们在实时应用中的效率和可扩展性。已开发的各种蒸馏技术可加快采样速度,但往往伴随局限性,如计算成本高、训练复杂且样本质量下降。 基于我们之前关于一致性模型¹²的研究,我们简化了连续时间一致性模型的表述,进一步稳定了训练过程。我们的新方法称为 sCM,使我们能够将连续时间一致性模型的训练扩展到前所未有的 15 亿参数规模,用于 512×512 分辨率的 ImageNet。sCM 仅需两个采样步骤就能生成与扩散模型质量相当的样本,实现约 50 倍的实际加速。例如,我们最大的模型拥有 15 亿参数,在单个 A100 GPU 上仅需 0.11 秒就能生成单个样本,无需任何推理优化。通过定制系统优化可轻松实现额外加速,为图像、音频和视频等各个领域的实时生成开启了新的可能性。 为进行严格评估,我们通过比较采样质量(使用标准 Fréchet Inception Distance(FID)分数,其中数值越低越好)和有效采样计算量(估计生成每个样本的总计算成本)来对标 sCM 与其他最先进的生成模型。如下所示,我们的 2 步 sCM 生成的样本质量与最佳现有方法相当,但有效采样计算量不足 10%,显著加速了采样过程。 一致性模型为生成高质量样本提供了比传统扩散模型更快的替代方案。与通过大量去噪步骤逐步生成样本的扩散模型不同,一致性模型旨在通过单一步骤直接将噪声转换为无噪声样本。这种差异通过图表中的路径可视化:蓝线代表扩散模型的逐步采样过程,而红曲线说明了一致性模型更直接、加速的采样。使用一致性训练或一致性蒸馏等技术¹²,一致性模型可训练为用显著更少的步骤生成高质量样本,使其对需要快速生成的实际应用很具吸引力。 我们的 sCM 从预训练的扩散模型中蒸馏知识。一个关键发现是,sCM 的性能与教师扩散模型一起按比例提升。具体来说,采样质量的相对差异(通过 FID 分数比率衡量)在多个数量级的模型大小范围内保持一致,导致绝对质量差异在规模化后缩小。此外,增加 sCM 的采样步骤进一步减小了质量差距。值得注意的是,sCM 的两步样本已经与需要数百步生成的教师扩散模型的样本相当(FID 分数的相对差异不足 10%)。

相似文章

一致性模型

OpenAI Blog

OpenAI 推出一致性模型,这是一类新的生成模型,通过直接将噪声映射到数据,支持快速单步图像生成,同时支持多步采样和零次学习编辑任务(如图像修复和超分辨率)。该方法在 CIFAR-10 和 ImageNet 64x64 上的单步生成中实现了最先进的 FID 分数。

改进的一致性模型训练技术

OpenAI Blog

OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。

新技术让AI模型边学边瘦、边学快

MIT News — Artificial Intelligence

MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。