Perron–Frobenius算子匹配用于生成建模

arXiv cs.LG 论文

摘要

介绍Perron–Frobenius算子匹配(PFOM),一种通过积分PF算子匹配统一流、扩散和跳跃模型的生成框架,证明KL散度可导出与Koopman路径等价的实用损失,并开发了Nesterov加速训练和采样以提高效率。

arXiv:2606.17465v1 公告类型: 新 摘要:我们提出Perron–Frobenius算子匹配(PFOM),一种通过积分PF算子匹配密度演化的生成框架,统一了流、扩散和跳跃模型。我们证明,在Bregman散度中,只有Kullback–Leibler散度能保持密度级与样本条件目标之间的等价性,从而产生一个与Koopman路径等价的实用损失。我们进一步开发了Nesterov加速训练和采样,以稳定离散化并加速收敛。%在高斯混合和双月数据集上,PFOM实现了更快的KL/$W_2$/MMD下降,并通过实证验证提高了挂钟效率。PFOM统一了算子理论识别与现代生成建模,并为自适应字典和高维应用开辟了道路。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:38

# Perron–Frobenius 算子匹配用于生成建模
来源:https://arxiv.org/html/2606.17465
Wuwei WuJaemin OhJie ChenXiaoning Qian德克萨斯农工大学,美国德克萨斯州学院站 77840 \(电子邮箱:shiqizhang001@tamu\.edu; jaemin\_oh@tamu\.edu; xqian@ece\.tamu\.edu\)香港城市大学,中国香港九龙 \(电子邮箱:w\.wu@my\.cityu\.edu\.hk; jichen@cityu\.edu\.hk\)

###### 摘要

我们提出 Perron–Frobenius 算子匹配(PFOM),这是一个通过积分 PF 算子匹配密度演化的生成框架,涵盖了流、扩散和跳跃模型。我们证明,在 Bregman 散度中,只有 Kullback–Leibler 散度能保持密度级目标与样本条件目标之间的等价性,从而得到等价于 Koopman 路径匹配的实用损失函数。我们进一步开发了 Nesterov 加速的训练与采样方法,能够稳定离散化过程并加速收敛。PFOM 在 KL/W2/MMD 指标上实现更快的下降,并通过实证验证提高了时钟效率。PFOM 统一了算子理论辨识与现代生成建模,为自适应字典和高维应用开辟了道路。

###### 关键词:

Koopman 与 Perron–Frobenius 算子,流匹配,生成建模

††致谢:本研究部分得到香港研资局项目 CityU 11203321、CityU 11213322、CityU 11207823 的资助。XQ 感谢美国国家科学基金会(NSF)资助项目 SHF-2215573 和 IIS-2212419 的支持。

## 1 引言

刻画马尔可夫过程是随机分析的基础(Ross, 1995 (https://arxiv.org/html/2606.17465#bib.bib3)),在金融(Rolski et al., 2009 (https://arxiv.org/html/2606.17465#bib.bib15))、统计物理(Van Kampen, 1992 (https://arxiv.org/html/2606.17465#bib.bib14))和信号处理(Oppenheim et al., 1997 (https://arxiv.org/html/2606.17465#bib.bib13))等领域有广泛应用。近年来人工智能和生成建模的兴起进一步激发了对可学习马尔可夫动力学(Ho et al., 2020 (https://arxiv.org/html/2606.17465#bib.bib12); Yang et al., 2023 (https://arxiv.org/html/2606.17465#bib.bib8); Lipman et al., 2024 (https://arxiv.org/html/2606.17465#bib.bib22))的兴趣,这对大规模复杂系统的建模与控制具有重要意义,尤其是在基于神经网络的控制设计(Katz et al., 2022 (https://arxiv.org/html/2606.17465#bib.bib10))和生成式AI驱动的自动控制算法(Cui et al., 2025 (https://arxiv.org/html/2606.17465#bib.bib11))方面。

一个核心挑战是如何高效且准确地参数化马尔可夫过程。算子理论视角提供了一条原则性路径:马尔可夫转移算子(Eisner et al., 2015 (https://arxiv.org/html/2606.17465#bib.bib7))提供了主要的刻画,而对于(非线性)半动力系统,Perron–Frobenius 理论奠定了马尔可夫半群的基础(Lemmens and Nussbaum, 2012 (https://arxiv.org/html/2606.17465#bib.bib4); Lasota and Mackey, 2013 (https://arxiv.org/html/2606.17465#bib.bib16)),揭示了 Koopman 算子与 Perron–Frobenius 算子之间的对偶性。从控制理论的角度看,这些算子编码了闭环动力学在随机策略和外部扰动下的概率演化,从而为非线性系统的稳定性分析、约束满足和性能验证提供了线性替代模型。在机器人、电力系统和网络基础设施等安全关键应用中,从数据中学习并操纵这些算子对于风险感知决策和鲁棒控制综合至关重要。基于这一视角,数据驱动的辨识方法如 DMD(Proctor et al., 2016 (https://arxiv.org/html/2606.17465#bib.bib2))和 EDMD(Li et al., 2017 (https://arxiv.org/html/2606.17465#bib.bib20); Brunton et al., 2016 (https://arxiv.org/html/2606.17465#bib.bib5))已成为标准。

与此同时,现代生成模型,如扩散模型(Ho et al., 2020 (https://arxiv.org/html/2606.17465#bib.bib12); Yang et al., 2023 (https://arxiv.org/html/2606.17465#bib.bib8))和基于流的模型(Lipman et al., 2022 (https://arxiv.org/html/2606.17465#bib.bib1), 2024 (https://arxiv.org/html/2606.17465#bib.bib22)),提出了更高的要求:捕捉多模态和非线性密度演化,同时保持样本条件的高效性。传统的 Koopman/Perron–Frobenius 辨识主要针对预测和控制设计,并未直接解决这些生成目标。

为了弥合这一差距,我们提出 **Perron–Frobenius 算子匹配(PFOM)**。PFOM (i) 通过匹配完整密度演化——超越一阶(速度)描述扩展到无穷多阶——来推广扩散和流匹配范式,并且 (ii) 通过将密度级目标与样本条件标准对齐来强化面向生成的算子学习,从而统一算子理论辨识与现代生成建模。

PFOM 的一个重要扩展是基于 Nesterov 加速(Nesterov and others, 2018 (https://arxiv.org/html/2606.17465#bib.bib6))的 **惯性** 优化/采样方案。我们在算子参数迭代上采用前瞻外推,并在样本轨迹上采用惯性更新。具体来说,PFOM 交替进行 (a) 在动量点对 PF 损失的外推评估,以及 (b) 带有重启/单调保护的修正更新。这带来了:(i) PF 损失和密度度量(KL, W2, MMD)更快的经验收敛;(ii) 由于前瞻稳定化,样本传播中的离散化误差减小。

本文的其余部分组织如下:在第二节 (https://arxiv.org/html/2606.17465#S2)中,我们回顾 Koopman/Perron–Frobenius 理论、Wasserstein 和 Bregman 散度度量以及生成建模的相关背景知识。在第三节 (https://arxiv.org/html/2606.17465#S3)中,我们解释为什么以及如何在何种度量下考虑 Perron–Frobenius 算子匹配,然后将其转化为用于实现的 Koopman 路径匹配问题。第三节第5小节 (https://arxiv.org/html/2606.17465#S3.SS5)提出了 Nesterov 动量加速方法以实现更快的生成。第四节 (https://arxiv.org/html/2606.17465#S4)通过仿真进行演示,第五节 (https://arxiv.org/html/2606.17465#S5)对全文进行总结。

## 2 预备知识

### 2.1 Koopman 与 Perron–Frobenius 算子

考虑一个非线性动力系统 \(x_{t}=S_{t}(x_{0})\),其中 \(S:\mathbb{R}^{n}\to\mathbb{R}^{n}\) 是一个非奇异映射。对于某些 \(f\in L_{\infty}\),Koopman 算子 \(\mathcal{K}_{\tau}\) 定义为

\[
(\mathcal{K}_{\tau}f)(x_{t}) = f(S_{\tau}(x_{t})).
\tag{1}
\]

对于某些 \(g\in L_{1}\),Perron–Frobenius (PF) 算子 \(\mathcal{P}_{\tau}\) 定义为

\[
\int_{y\in A} (\mathcal{P}_{\tau}g)(y)\,dy = \int_{x\in S_{\tau}^{-1}(A)} g(x)\,dx,\quad \forall A\in\Sigma,
\tag{2}
\]

其中 \(\Sigma\) 表示与空间 \(\mathbb{R}^{n}\) 对应的某个 \(\sigma\)-代数。当 \(g\) 是密度函数时,PF 算子 \(\mathcal{P}_{\tau}\) 实际上是一个 **马尔可夫算子**,它将当前密度前推至未来密度(Lasota and Mackey, 2013 (https://arxiv.org/html/2606.17465#bib.bib16))。

根据 PF–Koopman 对偶性,对于某些 \(f\in L_{\infty}\) 和某些密度 \(g\in L_{1}\),我们总有

\[
\langle \mathcal{K}_{\tau}f, g \rangle = \langle f, \mathcal{P}_{\tau}g \rangle.
\tag{3}
\]

这意味着 Koopman 算子和 PF 算子构成一对对偶算子。

### 2.2 生成建模

考虑两个随机向量 \(X_{0}\sim\mathcal{N}(0,I)\) 和 \(X_{1}\sim q(X_{1})\),其中 \(X_{0}\) 来自已知的先验分布,而 \(X_{1}\) 来自某个分布 \(q(X_{1})\),其解析形式先验未知。**生成建模** 的目标是从观测数据 \(\mathcal{D}(X_{1})\) 学习一个生成模型 \(\mathcal{M}_{\theta}(X_{1})\),以生成服从分布 \(q(X_{1})\) 的样本。

如图1 (https://arxiv.org/html/2606.17465#S2.F1) 所示,其中一种生成建模策略是 **流匹配 (FM)**(Lipman et al., 2022 (https://arxiv.org/html/2606.17465#bib.bib1))。它构建一条概率路径 \((p_{t})_{t\in[0,1]}\),从已知源分布 \(p_{0}=p\) 到目标分布 \(p_{1}=q\),其中每个 \(p_{t}\) 是 \(\mathbb{R}^{d}\) 上的分布。具体来说,FM 采用简单的回归目标来训练描述样本瞬时速度的速度场神经网络——随后用于沿概率路径 \(p_{t}\) 将源分布 \(p_{0}\) 转化为目标分布 \(p_{1}\)。即最小化流匹配损失:

\[
\mathbb{E}_{X_{t}\sim p_{t}; t\in\mathrm{Unif}[0,1]} \|u(X_{t}) - v_{\theta}(X_{t})\|^{2}
\tag{4}
\]

通过最小化其代理版本(条件于 \(X_{0}\) 和 \(X_{1}\) 的版本):

\[
\mathbb{E}_{X_{0}\sim p, X_{1}\sim q, t\sim\mathrm{U}[0,1]} \|u(X_{t}(X_{1},X_{0},t)) - v_{\theta}(X_{t}(X_{1},X_{0},t))\|^{2}.
\tag{5}
\]

注意,要使 (5) 和 (4) 具有相同的最优点,必须使用 **样本级 Bregman 散度** 作为距离度量,而均方误差 (MSE) 损失是其中的一个特例。训练完成后,我们通过以下步骤从目标分布 \(X_{1}\sim q\) 生成新样本:(i) 从源分布 \(X_{0}\sim p\) 抽取新样本,(ii) 求解由速度场确定的常微分方程 (ODE):\(\dot{X}_{t} = v_{\theta}(X_{t}), t\in[0,1]\)。

在离散时间设置下,FM 被表述为 **路径匹配**。同时,流 ODE \(\dot{X}_{t}=v_{\theta}(X_{t})\) 通过模拟离散路径方程 \(X_{k+1}=X_{k}+\tau v_{\theta}(X_{k})\) 来求解。

参照图注 参照图注

图 1:样本与噪声的演示(左)以及相应的生成过程(右)(Lipman et al., 2024 (https://arxiv.org/html/2606.17465#bib.bib22))。流匹配和扩散模型控制在 (6) 中的 **局部** 项——漂移(一阶)和扩散(二阶)——通过基于 KFE 的目标(Lipman et al., 2022 (https://arxiv.org/html/2606.17465#bib.bib1), 2024 (https://arxiv.org/html/2606.17465#bib.bib22))。最近的生成器匹配将其扩展到包含跳跃贡献(Holderrieth et al., 2024 (https://arxiv.org/html/2606.17465#bib.bib18))。然而,所有这些现有公式都在 **无穷小** 层次上运作,仅刻画微分近似的一阶、二阶或跳跃项,这可能会忽视对复杂多模态密度演化至关重要的高阶、多步传输效应。

## 3 Perron–Frobenius 算子匹配

我们在此提出一个新的生成建模框架——Perron–Frobenius 算子匹配 (PFOM),它将生成建模从匹配局部无穷小动力学提升为直接对齐密度的有限时间演化。与流匹配和扩散模型仅约束 Kolmogorov 前向方程 (KFE) 中的漂移/扩散项不同,PFOM 在积分 Perron–Frobenius 算子层面工作,该算子封装了整个马尔可夫半群,考虑了对于复杂多模态分布至关重要的高阶和多步传输效应。通过在有限步长 \(\tau\) 上匹配 \(\mathcal{P}_{\tau}\rho_{t}\) 与 \(\rho_{t+\tau}\),PFOM 捕获了比纯速度方案更丰富的全局演化,同时仍与算子理论工具(如 Koopman 算子和基于 DMD/EDMD 的辨识)保持兼容。

我们进一步用实用的样本条件训练损失来表述 PFOM。我们证明,在可分离的 Bregman 散度中,KL 散度是唯一使密度级 PF 损失与其条件对应项精确对齐的选择,从而为生成训练提供了基于 KL 的 PFOM 目标。通过 PF–Koopman 对偶性推动这一损失,我们得到一个等价的 Koopman 路径匹配公式,该公式可以用神经算子或经典 DMD/EDMD(Proctor et al., 2016 (https://arxiv.org/html/2606.17465#bib.bib2); Li et al., 2017 (https://arxiv.org/html/2606.17465#bib.bib20))来实现。我们推导出 Nesterov 风格的惯性更新,以实现更快、更稳定的优化和采样。在本节中,我们首先形式化 PFOM,建立其 Koopman 等价性,并引入一种适用于高效训练的 Nesterov 加速变体。

### 3.1 为什么选择 Perron–Frobenius 算子?

令 \((\mathcal{P}_{\tau})_{\tau\geq 0}\) 表示作用于密度的 Perron–Frobenius (PF) 半群,\((\mathcal{K}_{\tau})_{\tau\geq 0}\) 表示作用于测试函数(可观测量)的 Koopman 半群。一个具有漂移 \(u_{t}(x)\)、扩散 \(\sigma_{t}(x)\) 和跳跃的足够正则的马尔可夫过程受 KFE 支配(Risken, 1989 (https://arxiv.org/html/2606.17465#bib.bib17); Lasota and Mackey, 2013 (https://arxiv.org/html/2606.17465#bib.bib16)):
\[
\partial_{t}\langle\rho_{t}, f\rangle = \langle\rho_{t}, \mathcal{L}^{*}f\rangle,
\]
其中 \(\mathcal{L}^{*}\) 是(Koopman)无穷小生成元,作用于 \(f\):
\[
\mathcal{L}^{*}f(x) = \underbrace{u_{t}(x)^{\mathsf{T}}\nabla f(x)}_{\text{漂移}} + \underbrace{\frac{1}{2}\,\mathrm{tr}\big(\sigma_{t}(x)\sigma_{t}(x)^{\mathsf{T}}\nabla^{2}f(x)\big)}_{\text{扩散}} + \underbrace{\text{(跳跃项)}}_{\text{若存在}}.
\tag{6}
\]

等价地,在密度上,伴随生成元 \(\mathcal{L}\) 给出 Fokker–Planck 形式 \(\partial_{t}\rho_{t} = \mathcal{L}\rho_{t}\)。积分 PF 算子满足
\[
\rho_{t+\tau} = \mathcal{P}_{\tau}\rho_{t} = e^{\tau\mathcal{L}}\rho_{t},\qquad \langle\rho_{t+\tau}, f\rangle = \langle\rho_{t}, \mathcal{K}_{\tau}f\rangle,
\tag{7}
\]
因此 \(\mathcal{K}_{\tau}=e^{\tau\mathcal{L}^{*}}\) 和 \(\mathcal{P}_{\tau}=e^{\tau\mathcal{L}}\) 是对偶的。

相比之下,PFOM 比较的是 **积分** 演化 \(\mathcal{P}_{\tau}\rho_{t}\) 与 \(\rho_{t+\tau}\) 在有限 \(\tau\) 上的差异,从而捕获 \(e^{\tau\mathcal{L}}\) 展开中的 **所有阶次**(Risken, 1989 (https://arxiv.org/html/2606.17465#bib.bib17))。实际上,这使我们能够针对纯无穷小匹配不可见的更丰富多步传输现象进行训练。

### 3.2 Wasserstein-散度引导的 PFOM

我们将 \(\Pi(\rho_{0},\rho_{1})\) 表示为所有可能的联合分布集合,其边缘分布分别为 \(\rho_{0}\) 和 \(\rho_{1}\)。Wasserstein-2 距离定义为
\[
W_{2}(\rho_{0},\rho_{1}) = \inf_{\pi\in\Pi(\rho_{0},\rho_{1})} \mathbb{E}_{(X,Y)\sim\pi}\|X-Y\|^{2}.
\]
基于此,我们定义 PFOM 损失为某个散度的期望。但为了实际计算,我们需要将其转化为样本条件形式。 (由于原文截断,后续内容在下一段继续。但根据翻译要求,我们只翻译当前提供的内容。注意原文在 3.2 节后中断,但作为翻译任务,我们应完整翻译所提供的所有文本。在提供的原文中,3.2 节只有标题和少量开头,然后突然中断,可能是不完整的。但作为翻译,我们应翻译可见部分。)

相似文章

基于最优传输势的多边缘流匹配

arXiv cs.LG

提出OTP-FM,一种新颖的多边缘流匹配方法,利用最优传输势来软性地引导流通过中间边缘分布,在单细胞RNA测序、海洋学和气象学数据集上实现了最先进的性能。

Flow-OPD:用于流匹配模型的对策蒸馏

Hugging Face Daily Papers

Flow-OPD 是一篇研究论文,介绍了一种用于流匹配文生图模型的两阶段对策蒸馏框架。基于 Stable Diffusion 3.5 Medium,该框架显著提升了生成质量和对齐指标。