扩散模型的数学导论

arXiv cs.LG 2026/07/03 04:00 论文
摘要
本文对扩散模型进行了以证明为导向的介绍，涵盖了朗之万动力学、基于分数的模型、离散化、离散扩散以及推理时控制，面向研究生读者。
arXiv:2607.01693v1 Announce Type: new 摘要：这些笔记从采样的角度对扩散模型进行了以证明为导向的介绍，沿一条单一的轨迹从经典采样动力学到现代扩散采样器、其误差分析以及推理时控制。整个内容分为核心定义和完整证明的恒等式、在简化假设下证明的代表性估计，以及给出证明路线图的研究级定理。目标读者是具备概率背景但未接触过随机微分方程、随机数值或扩散模型的初学者研究生。
查看原文
查看缓存全文
缓存时间: 2026/07/03 05:43
# 扩散模型的数学导论  
来源：https://arxiv.org/html/2607.01693  
Jianfeng Lu (日期：2026年7月2日)  

###### 摘要。这些笔记从采样视角为扩散模型提供了一个注重证明的导引，追踪一条从经典采样动力学到现代扩散采样器、其误差分析以及推理时控制的单一脉络。全文分为五个部分。第一部分发展采样语言与朗之万工具集——目标分布与差异度量、马尔可夫核、福克-普朗克演化与熵耗散——并将其转化为朗之万扩散、未调整朗之万算法及其梅特罗波利斯调整修正的收敛性保证。第二部分通过高斯加噪、特威迪恒等式、反向时间SDE与概率流ODE构建连续时间基于分数的扩散模型，并通过随机局域化与波尔钦斯基流重新审视同一高斯通道。第三部分将这些连续动力学离散化为可实现的DDPM采样器——精确与高斯反向核、去噪-分数等价性——并进行采样误差分析，其中分离了早期停止、KL望远镜展开与分数误差，这些通过欧拉-丸山法、黑塞矩阵控制以及高精度一阶拒绝采样进行处理。第四部分发展有限状态空间上的离散扩散，其中连续时间马尔可夫链取代加噪SDE，反向核及其误差分析以有限状态形式重新表述。第五部分转向训练模型的推理时引导：引导、奖励倾斜、路径空间控制以及推理时强化学习。全文的内容分为三个层次：详细证明的核心定义与恒等式、在简化假设下证明的代表性估计、以及带有证明路线图陈述的研究级定理。目标读者是具备概率论背景但尚未接触随机微分方程、随机数值方法或扩散模型的研究生新生。本文为SLMath（2026年6月22日 – 2026年7月2日）举办的John Tukey生成模型数学暑期研究生学校的讲义，与Eric Vanden-Eijnden共同组织和授课。我们感谢SLMath的盛情款待以及暑期学校学生的有益反馈。本研究部分由美国国家科学基金会资助，奖项编号为DMS-2309378和IIS-2403276。  

###### 目录  
1.  [采样与朗之万动力学导论](https://arxiv.org/html/2607.01693#S1)  
2.  [朗之万扩散与ULA的收敛性](https://arxiv.org/html/2607.01693#S2)  
3.  [基于分数的扩散模型](https://arxiv.org/html/2607.01693#S3)  
4.  [随机局域化与波尔钦斯基流](https://arxiv.org/html/2607.01693#S4)  
5.  [连续扩散模型的离散化](https://arxiv.org/html/2607.01693#S5)  
6.  [扩散模型的误差分析](https://arxiv.org/html/2607.01693#S6)  
7.  [离散扩散模型](https://arxiv.org/html/2607.01693#S7)  
8.  [引导、奖励倾斜与推理时强化学习](https://arxiv.org/html/2607.01693#S8)  
9.  [A伊藤积分与吉萨诺夫定理](https://arxiv.org/html/2607.01693#A1)  
10. [B高斯工具箱](https://arxiv.org/html/2607.01693#A2)  
11. [参考文献](https://arxiv.org/html/2607.01693#bib)  

### 如何阅读这些笔记  
目标读者是已学习过概率论、线性代数和多元微积分的研究生新生，他们可能尚未接触过随机微分方程或扩散模型。因此，笔记将材料分为三个层次。  

- • **核心定义与恒等式** 会得到详细的证明。这些内容贯穿每一节，包括福克-普朗克方程与熵耗散、特威迪恒等式与反向SDE、概率流ODE、精确与高斯DDPM反向核、去噪-分数等价性、离散扩散的有限状态反向核以及奖励倾斜恒等式。  
- • **代表性估计** 在简化假设下证明，以便在最干净的形式下展示机制。例如，我们在对数-索博列夫不等式下证明KL收缩，精确计算高斯目标下的ULA偏差，并界定扩散模型KL中的单步离散化与分数误差贡献。  
- • **研究级定理** 以简化形式陈述并附有证明路线图。这些包括ULA和MALA的收敛性保证、通过一阶拒绝采样的高精度扩散采样以及离散扩散的误差分析。目标并非重现原始论文的每一个技术引理，而是明确每个定理的含义、假设出现的原因以及证明的组织方式。  

两个附录收集了反复使用的分析工具：附录A ([https://arxiv.org/html/2607.01693#A1](https://arxiv.org/html/2607.01693#A1)) 中的伊藤积分与吉萨诺夫测度变换公式，以及附录B ([https://arxiv.org/html/2607.01693#A2](https://arxiv.org/html/2607.01693#A2)) 中的高斯恒等式。熟悉这些内容的读者可以跳过它们，并在需要时回头查阅。  

这些笔记是自包含但有意选择性的，与几份优秀的参考资料有所重叠，读者可并行参考。Yuansi Chen为ETH课程《扩散模型的计算与统计方面》编写的讲义[15](https://arxiv.org/html/2607.01693#bib.bib15)涵盖了大部分相同的内容，并更加强调收敛性证明、引导和离散扩散，是后续章节的有益伴侣。在朗之万与对数凹采样方面，Chewi的著作[18](https://arxiv.org/html/2607.01693#bib.bib18)是标准参考。关于随机分析以及SDE和CTMC的数值方法，我们参考E、Li和Vanden-Eijnden的著作[21](https://arxiv.org/html/2607.01693#bib.bib21)。全文中，当结果首次出现在研究论文中时，我们引用原始文献；上述讲义在此统一指出，作为后续若干主题的统一切入点。  

这些笔记不打算全面梳理现代生成建模领域。我们聚焦于扩散和朗之万机制，其中反向时间SDE、概率流ODE、分数估计恒等式和推理时控制是核心角色。笔记将学习到的分数误差作为采样器保证的输入，但不讨论从有限数据估计分数的统计学习理论。我们也不详细处理基于似然的标准化流、对抗与变分模型、自回归架构、大规模潜扩散工程或若干较新的连续时间替代方法。关于后者的切入点，可参见流匹配[34](https://arxiv.org/html/2607.01693#bib.bib34)、整流流[35](https://arxiv.org/html/2607.01693#bib.bib35)、随机插值[1](https://arxiv.org/html/2607.01693#bib.bib1)、一致性模型[43](https://arxiv.org/html/2607.01693#bib.bib43)以及最近如均值流[23](https://arxiv.org/html/2607.01693#bib.bib23)的单步公式。这些方法共享大部分关于概率路径、传输方程、去噪器和ODE/SDE采样器的相同语言。  

### 最小的概率论背景  
我们反复使用以下约定。如果 \(X\) 是一个随机变量，则 \(\operatorname{Law}(X)\) 表示其分布。如果 \(X\) 有密度 \(p\)，期望写作 \(\mathbb{E}[f(X)]\) 或 \(\int f(x) p(x) \,\mathrm{d}x\)。条件期望 \(\mathbb{E}[Y \mid X=x]\) 最好理解为 \(Y\) 作为观测值 \(x\) 的函数的最佳预测。对于马尔可夫链，\(P(x,\mathrm{d}y)\) 表示给定当前状态 \(x\) 时下一状态的分布。对于SDE，所有形式求导都可以在光滑性和衰减假设下严格化；笔记使用这种形式演算作为保持主要思想可见的方式。我们常常用同一符号表示概率律及其密度，只要从上下文中能明确含义。例如，\(p_{\mathsf{data}}\) 可能表示数据律、该律的密度或测度 \(p_{\mathsf{data}}(\,\mathrm{d}x)\)。类似地，\(p_t\) 可能表示 \(\operatorname{Law}(X_t)\) 或其密度。这种常见的滥用符号保持了公式的可读性，但当需要密度值时，我们会写出 \(\nabla \log p_t(x)\) 这类表达式。  

### 重复记号  
以下符号在多个章节中使用。更局部的记号会在需要时引入。  

### 算法缩写  
以下缩写命名算法或算法离散化，在多个章节中使用。  

### AI使用声明  
在准备这些笔记的过程中，使用了大型语言模型工具来帮助起草、编辑、重组和一致性检查。数学内容、阐述选择、参考文献以及任何剩余错误均由作者负责。  

## 1. 采样与朗之万动力学导论  
采样是这样一个问题：产生看起来像是从给定分布中抽取的随机点。这很容易陈述，但往往难以执行：分布可能只知其归一化常数，或只通过数据知晓，直接抽取可能不可行。贯穿这些笔记的策略是间接的。我们不一次性直接采样困难的目标，而是构建一个易于模拟的随机过程，其分布逐渐向目标漂移，然后一旦过程运行足够长时间，我们便读出样本。使这个想法精确需要一个高于一切的习惯：不要只追踪单条轨迹，而是随着算法运行追踪整个分布。本节特意放慢速度，确立那个习惯以及我们用来度量一个分布与另一个分布之间距离的语言。  

### 1.1. 采样问题  
设 \(\pi\) 是 \(\mathbb{R}^d\) 上的一个概率分布。在大多数应用中，\(\pi\) 不能通过精确样本获得。相反，我们可能访问：  

- • 非归一化密度 \(\pi(x) \propto e^{-U(x)}\)；  
- • 梯度 \(\nabla \log \pi(x) = -\nabla U(x)\)；  
- • 来自与 \(\pi\) 相关的含噪分布的样本；  

目标是构造一个随机变量 \(\widehat{X}\)，其分布为 \(\widehat{\pi}\)，使得 \(D(\widehat{\pi}, \pi) \leq \varepsilon\)，其中 \(D\) 是一个合适的差异度量。不存在单一的 \(D\) 最佳选择。设 \(\mu\) 和 \(\nu\) 是 \(\mathbb{R}^d\) 上的两个概率律。我们回忆三种基本的差异度量。  

1. (1) 全变差询问每个事件是否具有近似正确的概率：  
\[
\operatorname{D_{\mathsf{TV}}}(\mu,\nu)=\sup_{A}\left\lvert\mu(A)-\nu(A)\right\rvert=\frac12\int\left\lvert\frac{\,\mathrm{d}\mu}{\,\mathrm{d}\lambda}-\frac{\,\mathrm{d}\nu}{\,\mathrm{d}\lambda}\right\rvert\,\mathrm{d}\lambda.
\]  
这里 \(\lambda\) 是使得 \(\mu\) 和 \(\nu\) 都关于 \(\lambda\) 绝对连续的任意测度，写作 \(\mu,\nu\ll\lambda\)；例如可取 \(\lambda=\mu+\nu\)。记号 \(\mathrm{d}\mu/\mathrm{d}\lambda\) 表示 Radon–Nikodym 导数，即 \(\mu\) 关于 \(\lambda\) 的密度，由 \(\mu(A)=\int_A\frac{\mathrm{d}\mu}{\mathrm{d}\lambda}\,\mathrm{d}\lambda\) 对可测集 \(A\) 刻画。\(\mathrm{d}\nu/\mathrm{d}\lambda\) 同理，全变差距离的值不依赖于选取哪个参考测度 \(\lambda\)。  
2. (2) Wasserstein-\(2\) 距离询问概率质量是否可以被短几何距离传输：  
\[
W_2^2(\mu,\nu)=\inf_{\gamma\in\Pi(\mu,\nu)}\int\left\lVert x-y\right\rVert^2\,\gamma(\,\mathrm{d}x,\mathrm{d}y).
\]  
这里 \(\Pi(\mu,\nu)\) 是 \(\mu\) 和 \(\nu\) 的耦合集，即 \(\mathbb{R}^d\times\mathbb{R}^d\) 上的概率测度 \(\gamma\)，其第一边缘为 \(\mu\)，第二边缘为 \(\nu\)。  
3. (3) KL 散度询问使用 \(\nu\) 作为参考是否能有效编码 \(\mu\)：  
\[
\operatorname{D_{\mathsf{KL}}}(\mu\|\nu)=\int\log\!\left(\frac{\,\mathrm{d}\mu}{\,\mathrm{d}\nu}\right)\,\mathrm{d}\mu,
\]  
当 \(\mu\) 关于 \(\nu\) 绝对连续时成立，否则为 \(+\infty\)。注意 KL 散度是非对称的：\(\operatorname{D_{\mathsf{KL}}}(\mu\|\nu)\neq\operatorname{D_{\mathsf{KL}}}(\nu\|\mu)\)。特别地，KL 不是度量。在本课程中，KL 将是我们使用的主要记账散度。其他度量将此信息转化为关于事件、几何位移或弱检验函数的陈述。基本比较始于 Csiszár–Kullback–Pinsker 不等式；参见例如 Bakry, Gentil 和 Ledoux[6](https://arxiv.org/html/2607.01693#bib.bib6)：  
\[
\operatorname{D_{\mathsf{TV}}}(\mu,\nu)\leq\sqrt{\frac12\operatorname{D_{\mathsf{KL}}}(\mu\|\nu)}.
\]  
因此 KL 保证立即给出 TV 保证，从而也给出弱检验函数保证。另一个反复出现的规则是**数据处理**：对两个随机对象应用相同的观测映射不会增加 KL。如果 \(T\) 是可测的，且 \(T_{\#}\mu\) 表示当 \(X\sim\mu\) 时 \(T(X)\) 的分布，则  
\[
\operatorname{D_{\mathsf{KL}}}(T_{\#}\mu\|T_{\#}\nu)\leq\operatorname{D_{\mathsf{KL}}}(\mu\|\nu).
\]  
相同的单调性也适用于全变差。我们反复使用这一原则从路径空间比较传递到端点分布；证明见引理 A.1 ([https://arxiv.org/html/2607.01693#A1.Thmtheorem1](https://arxiv.org/html/2607.01693#A1.Thmtheorem1))。Wasserstein 距离更具几何性。如果 \(\mu\) 和 \(\nu\) 支撑在直径为 \(R\) 的集合上，则最大耦合给出  
\[
W_2^2(\mu,\nu)\leq R^2\operatorname{D_{\mathsf{TV}}}(\mu,\nu)\leq R^2\sqrt{\frac12\operatorname{D_{\mathsf{KL}}}(\mu\|\nu)}.
\]  
如果没有有界直径或矩/函数不等式假设，则另一个方向不存在普适的比较：小的 \(W_2\) 不一定意味着小的 TV 或 KL，同样，如果少量质量可以移动得很远，小的 TV 或 KL 也不一定能控制 \(W_2\)。相对于固定参考分布，存在一个更有力的比较。一个概率律 \(\nu\) 满足 Talagrand \(T_2\) 传输-熵不等式（常数为 \(C_T\)），如果  
\[
W_2^2(\mu,\nu)\leq 2C_T\operatorname{D_{\mathsf{KL}}}(\mu\|\nu)\qquad\text{对所有 }\mu\ll\nu.
\]  
达到该不等式的一个标准途径是通过对数-索博列夫不等式。在本笔记的约定中，如果 \(\nu\) 满足  
\[
\operatorname{D_{\mathsf{KL}}}(\mu\|\nu)\leq\frac{C_{\mathsf{LSI}}}{2}\operatorname{FI}(\mu\|\nu),
\]  
其中 \(\operatorname{FI}(\mu\|\nu)=\int\left\lVert\nabla\log\frac{\mathrm{d}\mu}{\mathrm{d}\nu}\right\rVert^2\,\mathrm{d}\mu\) （当导数良好定义时），则 Otto–Villani 定理给出传输界  
\[
W_2^2(\mu,\nu)\leq 2C_{\mathsf{LSI}}\operatorname{D_{\mathsf{KL}}}(\mu\|\nu).  
\]
扩散模型的数学导论

相似文章

线性约束下的条件扩散：Langevin 混合与信息论保证

扩散、基于分数和流匹配生成模型的统一测度论视角

流形假设下可证明的扩散模型学习：坍缩与精炼

Spectral Guidance：灵活高效的扩散模型控制方法

@docmilanfar: 我非常喜欢我们最近关于"Geometry of Noise"的论文的解释性文章 arXiv:2602.18428

提交意见反馈