扩散、基于分数和流匹配生成模型的统一测度论视角

arXiv cs.LG 2026/05/11 04:00 论文

摘要

本预印本提出了一个统一的测度论框架，用于理解扩散、基于分数和流匹配生成模型。它通过连续性/福克-普朗克方程建立了这些方法之间的联系，并分析了它们的采样方案及其理论保证。

arXiv:2605.06829v1 公告类型：新文章摘要：我们综述了基于连续时间的生成建模方法，这些方法通过随机或确定性动态将简单的参考分布传输到数据分布。我们提出了一个统一框架，在该框架中，扩散模型、基于分数的生成模型和流匹配都是学习随时间变化的向量场的实例，该向量场诱导由连续性和福克-普朗克方程控制的一族边缘分布 $(\rho_t)_{t \in [0,1]}$。这种统一理论恰逢其时，因为这些方法在方法论上正趋于收敛，然而碎片化的符号表示和相互竞争的推导仍然掩盖了它们的共同结构以及控制采样、稳定性和计算的实际权衡。在此框架下，我们（i）将扩散和基于分数模型的反向时间采样推导为受控随机动态，（ii）证明概率流常微分方程产生相同的边缘分布，并将扩散与基于似然的归一化流联系起来，（iii）将流匹配解释为在选定插值下对速度场的直接回归，阐明它与基于分数训练重合或不同的情况。我们在统一符号下比较了目标函数、采样方案和离散化误差，讨论了与薛定谔桥和熵最优传输的联系，并总结了关于近似、稳定性和可扩展性的理论保证和未解决问题。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:54

# 扩散、分数生成及流匹配生成模型的统一测度论视角

来源: https://arxiv.org/html/2605.06829

\name Aditya Ranganath
\email [email protected]
\addr 计算科学应用中心，劳伦斯利弗莫尔国家实验室，美国加利福尼亚州利弗莫尔，邮编 94551

\name Mukesh Singhal
\email [email protected]
\addr 电气工程系，加州大学默塞德分校，美国加利福尼亚州默塞德，邮编 95343

###### 摘要

我们综述了基于连续时间的生成建模方法，这些方法通过随机或确定性动力学将简单的参考分布传输到数据分布。我们提出了一个统一框架，在此框架中，扩散模型、分数生成模型和流匹配（Flow Matching）都是学习随时间变化的向量场的实例，该向量场诱导了一族边际分布 $(\rho_t)_{t\in[0,1]}$，并受连续性方程/Fokker-Planck 方程支配。在此框架内，我们 (i) 推导了扩散/分数模型的逆向时间采样作为受控随机动力学；(ii) 表明概率流常微分方程（ODE）产生相同的边际分布，并将扩散与基于似然的归一化流联系起来；以及 (iii) 将流匹配解释为在选定插值下对速度场的直接回归，澄清了其与基于分数的训练何时一致或何时不同。我们在统一符号下比较了目标函数、采样方案和离散化误差，讨论了其与薛定谔桥（Schrödinger bridges）和熵最优传输的联系，并总结了关于近似、稳定性和可扩展性的理论保证及开放性问题。

关键词：生成模型；深度生成模型；扩散模型；基于分数的模型；流匹配；概率建模；随机微分方程；连续归一化流；最优传输；采样方法；逆问题；机器学习理论

## 1 引言与阅读指南

生成建模旨在学习从复杂数据分布 $\rho_{\text{data}}$ 上 $\mathbb{R}^d$ 生成样本的机制。除了无条件合成外，现代生成模型还作为下游任务（包括条件生成和逆问题）中的先验和提议机制。在过去十年中，该领域经历了几个范式的演进——变分自编码器、生成对抗网络以及基于似然的归一化流（Kingma and Welling, 2014; Rezende et al., 2014; Goodfellow et al., 2014; Dinh et al., 2015, 2017; Papamakarios et al., 2021）——转向一类通过随时间变化的动力学演化简单参考分布来构建样本的方法。

扩散模型及其密切相关的基于分数的生成模型已成为高维高保真合成的影响深远的技术，其中扩散概率建模通过去噪扩散概率模型（DDPM）（Ho et al., 2020）及其后继者（Song et al., 2020a; Nichol and Dhariwal, 2021; Kingma et al., 2021; Karras et al., 2022）在现代深度学习中流行起来。最近的工作进一步扩展了这一设计空间，包括确定性退化、随机插值、一致性风格模型、贝叶斯流网络以及离散扩散替代方案（Bansal et al., 2022; Albergo et al., 2025; Song et al., 2023; Kim et al., 2024a; Graves et al., 2023; Lou et al., 2024）。

#### 什么意味着模型是*生成的*？

如果模型显式或隐式地指定了产生新样本的机制，使其类似于从未知的数据分布 $\rho_{\text{data}}$ 中抽取的样本，则该模型被称为*生成的*。形式上，给定数据 $x \in \mathbb{R}^d$（或更一般的样本空间），目标是学习一个分布 $p_\theta(x)$，使得 $p_\theta \approx \rho_{\text{data}}$ 在某种意义上成立。然而，成为生成模型并不要求具有显式的闭式密度。关键在于模型定义了一种将随机性映射到数据的采样过程，例如 $x = G_\theta(z), \quad z \sim p(z)$，其中 $p(z)$ 是一个简单的基底分布（如标准高斯分布），而 $G_\theta$ 是学习到的变换。这种观点强调，生成建模可以解释为学习*概率传输*的问题：通过学习到的动力学将简单的参考分布推送以匹配数据分布（Goodfellow et al., 2016; Papamakarios et al., 2021）。

#### 背景：生成建模范式的简要图谱

在扩散和基于分数的方法被广泛采用之前，三类深度生成模型塑造了现代文献。这些范式主要区别在于它们如何表示和学习模型分布 $p_\theta$。

*   **潜变量似然模型**，如变分自编码器（VAEs），通过最大化数据对数似然的变分下界来学习显式的生成模型以及摊销的推理网络（Kingma and Welling, 2014; Rezende et al., 2014）。VAE 提供了稳定的训练和基于似然的评估，但经典 formulation 可能在样本锐度与泛化能力之间进行权衡，导致更丰富的解码器和更狭窄但更具表达力的先验。
*   **隐式生成模型**，如生成对抗网络（GANs），通过与判别器进行极小极大目标学习生成样本（Goodfellow et al., 2014）。与潜变量似然模型相比，GAN 产生高保真样本，并在某种程度上避免了显式似然计算，但训练可能不稳定，且评估可能具有挑战性（Arjovsky and Bottou, 2017; Mescheder et al., 2018; Salimans et al., 2016）。模式崩溃（Mode dropping）和对超参数的敏感性是反复出现的问题。
*   **归一化流（Normalizing flows）**学习一个可逆映射，将简单的基底分布（例如高斯分布）传输到数据分布，通过变量变换实现精确的似然计算（Dinh et al., 2015, 2017; Papamakarios et al., 2021）。流提供了与传输和基于雅可比矩阵的似然之间的清晰联系，但为了获得可处理的雅可比矩阵所需的架构约束可能会限制表达能力或在高维情况下增加计算量。

综上所述，这些范式突出了反复出现的设计选择：模型是否具有显式似然，生成是通过可逆映射还是隐式采样器定义，以及训练如何在样本质量、覆盖范围和可处理性之间取得平衡（Goodfellow et al., 2016; Papamakarios et al., 2021）。

扩散和基于分数的模型可以被视为继承了这三个传统的方面：像流一样，它们允许传输解释；像隐式模型一样，它们强调灵活的采样器和高质量的样本；并且像潜变量似然模型一样，它们通常带有基于似然的目標或变分界限（Ho et al., 2020; Song et al., 2021; Kingma et al., 2021）。相反，最近的文献探索了实例化相同生成目标的截然不同的方式，包括用确定性退化取代高斯加噪、随机插值、基于一致性的一步或少步生成、贝叶斯流网络 formulation 以及基于比率的离散扩散方法（Bansal et al., 2022; Albergo et al., 2025; Song et al., 2023; Kim et al., 2024a; Graves et al., 2023; Lou et al., 2024）。

第二个例子——尤其与科学和工程应用相关——是解决逆问题，如去模糊、修复、MRI/CT 重建，或形式为 $y = \mathcal{A}(x) + \varepsilon$ 的更一般线性和非线性测量模型。在这里，生成模型生成先验，以从部分或嘈杂的观察 $y$ 中恢复 $x$。在扩散和基于分数的 formulation 中，学习到的分数场提供了一种原则性的方法来构建后验采样，方法是将先验分数与似然项相结合，从而导致条件生成和重建算法。这可以解释为预测器-校正器方法或近似后验采样器（Song et al., 2021; Jalal et al., 2021; Chung and Ye, 2022; Chung et al., 2023; Kawar et al., 2022; Tewari et al., 2023; Rout et al., 2023; Li and Pereira, 2024; Janati et al., 2024）。

相关的想法也已用于引导图像编辑和修复，其中条件信号作为传输路径上的软约束，而不是作为传输后的显式校正（Meng et al., 2022; Lugmayr et al., 2022; Corneanu et al., 2024; Zhang et al., 2023）。在这种设置下，采样器的选择（逆向时间 SDE 与概率流 ODE）、时间离散化以及由训练目标诱导的权重会强烈影响重建保真度和稳定性。这增强了我们建立目标和采样器统一理论的动机。根据动力学如何离散化以及条件如何施加，相同的学习模型在逆问题中可能表现出截然不同的行为。

#### 历史叙述

现代深度学习中的扩散建模由 DDPM 普及，后者将生成框定为逆转一个由变分/去噪目标训练的离散时间马尔可夫加噪过程（Sohl-Dickstein et al., 2015; Ho et al., 2020）。随后的连续时间重构统一了多种扩散式构造，将正向加噪过程表述为 SDE，并推导出一个逆向时间 SDE，其漂移项依赖于随时间变化的分数。这种 SDE 视角还明确提出了确定性的概率流 ODE，其具有与随机扩散相同的边际分布，并将扩散采样与连续归一化流联系起来（Song et al., 2021; Chen et al., 2018; Grathwohl et al., 2019）。

最近，流匹配将训练重新框架为针对规定概率路径的向量场的无模拟回归，包括扩散路径作为特例，从而能够使用标准 ODE 求解器可扩展地训练连续归一化流风格的生成器（Lipman et al., 2022）。与此同时，直线化变体如整流流（Rectified Flow）学习了其轨迹尽可能接近直线的传输动力学，使得即使使用非常粗略的离散化也能产生准确的生成结果（Liu et al., 2022）。其他工作提出了基于传输的生成的替代路线，包括自回归扩散、非高斯退化过程以及专为离散或受限环境定制的路径空间构造（Hoogeboom et al., 2022; Bansal et al., 2022; Campbell et al., 2022）。

![Figure 1](https://arxiv.org/html/2605.06829#S1.F1)

**图 1：扩散、基于分数和流匹配生成模型的统一视图，作为数据分布 $\rho_0$ 和参考分布 $\rho_1$ 之间的概率传输。** 图 1 总结了激励本综述的共同传输视角。它展示了扩散、基于分数的采样、概率流 ODE 和流匹配如何围绕三个设计选择进行组织：概率路径、学习到的场以及采样动力学。

### 1.1 统一主题：通过学习到的场进行概率传输

本综述开发了一个统一的技术视角：扩散模型、基于分数的生成模型和流匹配可以解释为学习概率传输的实例（Song et al., 2021; Lipman et al., 2022）。我们在下面列举本综述的组成部分：

1.  一族连接复杂目标 $\rho_0$（数据）到可处理参考 $\rho_1$（通常为正态分布）的中间分布 $(\rho_t)_{t\in[0,1]}$。
2.  一个随时间变化的场，决定了概率质量沿此路径如何演化：
    *   一个*分数场* $s_t(x) = \nabla_x \log \rho_t(x)$

扩散、基于分数和流匹配生成模型的统一测度论视角

相似文章

能量生成建模：基于Lyapunov能量匹配的视角

LangFlow：连续扩散在语言建模中可与离散扩散相媲美

SDFlow：用于时间序列生成的相似性驱动流匹配

Flow-OPD：用于流匹配模型的对策蒸馏

UniVidX：基于扩散先验的多功能视频生成统一多模态框架

提交意见反馈