简化、稳定和扩展连续时间一致性模型
摘要
OpenAI 推出 sCM(简化连续时间一致性模型),这是一种新方法,可将一致性模型扩展至 1.5B 参数,通过仅 2 个采样步骤生成高质量样本,相比扩散模型实现约 50 倍的加速。该方法展示了与最先进扩散模型相当的样本质量,同时有效采样计算量不足 10%。
我们简化、稳定并扩展了连续时间一致性模型,实现了与领先扩散模型相当的样本质量,同时仅需两个采样步骤。
查看缓存全文
缓存时间: 2026/04/20 14:47
# 简化、稳定和扩展连续时间一致性模型
来源:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
扩散模型的现有采样方法通常需要数十到数百个顺序步骤来生成单个样本,这限制了它们在实时应用中的效率和可扩展性。已开发的各种蒸馏技术可加快采样速度,但往往伴随局限性,如计算成本高、训练复杂且样本质量下降。
基于我们之前关于一致性模型¹²的研究,我们简化了连续时间一致性模型的表述,进一步稳定了训练过程。我们的新方法称为 sCM,使我们能够将连续时间一致性模型的训练扩展到前所未有的 15 亿参数规模,用于 512×512 分辨率的 ImageNet。sCM 仅需两个采样步骤就能生成与扩散模型质量相当的样本,实现约 50 倍的实际加速。例如,我们最大的模型拥有 15 亿参数,在单个 A100 GPU 上仅需 0.11 秒就能生成单个样本,无需任何推理优化。通过定制系统优化可轻松实现额外加速,为图像、音频和视频等各个领域的实时生成开启了新的可能性。
为进行严格评估,我们通过比较采样质量(使用标准 Fréchet Inception Distance(FID)分数,其中数值越低越好)和有效采样计算量(估计生成每个样本的总计算成本)来对标 sCM 与其他最先进的生成模型。如下所示,我们的 2 步 sCM 生成的样本质量与最佳现有方法相当,但有效采样计算量不足 10%,显著加速了采样过程。
一致性模型为生成高质量样本提供了比传统扩散模型更快的替代方案。与通过大量去噪步骤逐步生成样本的扩散模型不同,一致性模型旨在通过单一步骤直接将噪声转换为无噪声样本。这种差异通过图表中的路径可视化:蓝线代表扩散模型的逐步采样过程,而红曲线说明了一致性模型更直接、加速的采样。使用一致性训练或一致性蒸馏等技术¹²,一致性模型可训练为用显著更少的步骤生成高质量样本,使其对需要快速生成的实际应用很具吸引力。
我们的 sCM 从预训练的扩散模型中蒸馏知识。一个关键发现是,sCM 的性能与教师扩散模型一起按比例提升。具体来说,采样质量的相对差异(通过 FID 分数比率衡量)在多个数量级的模型大小范围内保持一致,导致绝对质量差异在规模化后缩小。此外,增加 sCM 的采样步骤进一步减小了质量差距。值得注意的是,sCM 的两步样本已经与需要数百步生成的教师扩散模型的样本相当(FID 分数的相对差异不足 10%)。
相似文章
一致性模型
OpenAI 推出一致性模型,这是一类新的生成模型,通过直接将噪声映射到数据,支持快速单步图像生成,同时支持多步采样和零次学习编辑任务(如图像修复和超分辨率)。该方法在 CIFAR-10 和 ImageNet 64x64 上的单步生成中实现了最先进的 FID 分数。
改进的一致性模型训练技术
OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。
Causal-rCM: 用于流式视频生成和交互世界模型的自回归扩散蒸馏的统一教师强制与自强制开放方案
本文介绍了Causal-rCM,这是一个统一的教师强制与自强制框架,用于流式视频生成和交互世界模型中的自回归扩散蒸馏,以快速收敛实现了最先进的性能。
Sakana Fugu(三分钟阅读)
Sakana AI 推出 AB-MCTS,一种推理时缩放算法,使多个前沿 AI 模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在 ARC-AGI-2 基准测试中显著优于单个模型。
小型RL控制器与大型语言模型:RL引导的测试时自适应采样
本文将大型语言模型的自适应采样建模为马尔可夫决策过程,并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本,从而实现了更好的权衡。