面向离散流匹配的Time-Reparameterized Cumulative Intensity Extrapolation采样器

arXiv cs.LG 论文

摘要

本文提出了一种用于离散流匹配的时间重参数化累积强度外推(TR-CIE)采样器,通过重新缩放时间网格和重用缓存的模型输出,在有限函数评估次数下提高采样质量,并在文本和图像生成上进行了理论分析和实验。

arXiv:2606.24140v1 公告类型:新\n摘要:离散流匹配(DFM)通过连续时间马尔可夫链动力学为离散状态空间上的生成建模提供了原则性框架。实际上,DFM的采样通常采用$\tau$-leaping等离散化方法,但在有限函数评估次数(NFE)下的高效采样方法研究较少。为了填补这一空白,我们提出了时间重参数化累积强度外推(TR-CIE)采样器,旨在函数评估受限时提高采样质量。TR-CIE由两部分组成。首先,基于调度的时间重参数化根据噪声调度重新缩放时间网格。在标准因式分解DFM速率参数化下,这种变量变换吸收了依赖于调度的增长项,并缓解了终端采样阶段附近的刚性。其次,我们引入了累积强度外推更新规则。通过重用上一步缓存的模型输出作为历史项,这改善了在所得非均匀时间网格上逐步累积强度的近似。我们提供了理论分析,界定了累积强度的局部逼近误差并建立了收敛结果。所得的采样器每步需要一个NFE,并且与标准$\tau$-leaping采样器相比,没有引入额外的模型评估。在合成任务、文本生成和文本到图像基准上的大量实验表明,我们的方法在有限NFE下提高了采样质量。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:50

# 附录 来源:https://arxiv.org/html/2606.24140 ###### 摘要 离散流匹配 \(DFM\) 为在离散状态空间上通过连续时间马尔可夫链动力学进行生成建模提供了一个原则性框架。在实践中,DFM 的采样通常采用 τ\tau\-跳跃等离散化方法,然而,在有限函数评估次数 \(NFE\) 下的高效采样方法仍较少被研究。为填补这一空白,我们提出了时间重参数化累积强度外推 \(TR\-CIE\) 采样器,旨在函数评估受限时提升采样质量。TR\-CIE 包含两个组成部分。首先,一种基于调度的时间重参数化方法根据噪声调度重新调整时间网格。在标准因子化 DFM 速率参数化下,这种变量变换吸收了依赖于调度的增长项,并缓解了终端采样阶段附近的刚性。其次,我们引入了一种累积强度外推更新规则。通过重用上一步缓存的模型输出作为历史项,这改进了在所得非均匀时间网格上逐步骤累积强度的近似精度。我们提供了理论分析,界定了累积强度的局部近似误差,并建立了收敛性结果。与标准 τ\tau\-跳跃采样器相比,所得采样器每步仅需一次 NFE,且不引入额外的模型评估。在合成任务、文本生成和文本到图像基准上的大量实验表明,我们的方法在有限 NFE 下提高了采样质量。

离散流匹配,生成模型,采样加速,机器学习,ICML

## 1 引言

近年来,生成建模取得了显著进展,使得跨多种模态的高质量合成与可控生成成为可能\(Kingma & Welling,2014 (https://arxiv.org/html/2606.24140#bib.bib25); Ho et al\.,2020 (https://arxiv.org/html/2606.24140#bib.bib21); Song et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib47); Rombach et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib44); Lipman et al\.,2023 (https://arxiv.org/html/2606.24140#bib.bib29); Geng et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib16)\)。除了图像和音频等连续信号外,许多应用涉及固有的离散表示,包括自然语言标记、从向量量化自编码器获得的标记化图像、符号序列以及其他分类数据\(Van Den Oord et al\.,2017 (https://arxiv.org/html/2606.24140#bib.bib50); Esser et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib13); Stark et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib48); Chang et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib8)\)。对于这些领域,开发直接在离散状态空间上运行、同时保持与大词汇量和高维序列兼容性的生成方法非常重要。

离散扩散模型 \(DDMs\) 为此设置提供了一个成熟的框架,其通过在有限状态空间上定义马尔可夫加噪动力学并学习反向动力学\(Austin et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib2); Hoogeboom et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib22); Campbell et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib6); Lou et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib32)\)。在连续时间公式中,加噪过程构成一个连续时间马尔可夫链 \(CTMC\),采样涉及模拟学得的反向时间 CTMC\(Campbell et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib6)\)。从一个先验分布(例如均匀分布或吸收态)开始,学得的反向时间过程通过逐步细化离散状态来生成样本。该框架已在基于标记的任务上展示了强大的实证性能,并已成为离散生成建模的标准基线\(Austin et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib2); Campbell et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib6); Lou et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib32)\)。

最近,离散流匹配 \(DFM\) 作为一种替代的基于 CTMC 的框架引起了关注\(Gat et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib15); Davis et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib12); Shaul et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib46)\)。与离散扩散模型类似,DFM 在离散状态空间上构建 CTMC,并学习时间依赖的转移速率,以将简单的先验分布输送到数据分布。与通常从预定义的前向加噪过程开始并推导反向时间动力学的离散扩散不同,DFM 直接指定一个目标概率路径,并通过流匹配目标训练与该路径一致的生成器,遵循连续流匹配的原则\(Lipman et al\.,2023 (https://arxiv.org/html/2606.24140#bib.bib29)\)。这种在概率路径和速率结构选择上的额外灵活性可以简化建模决策,并拓宽训练和推理的设计空间。

### 1\.1 相关工作

#### 连续扩散与流模型中的高效采样

加速连续扩散和流模型采样的努力主要集中在减少模拟反向时间过程所需的 NFE,该过程通常被表述为常微分方程 \(ODE\) 或随机微分方程 \(SDE\)\(Song et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib47); Lu et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib33); Zhao et al\.,2023 (https://arxiv.org/html/2606.24140#bib.bib55)\)。一个主要方向是开发先进的数值求解器,包括高阶离散化、多步更新和预测-校正方法\(Lu et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib33),2025 (https://arxiv.org/html/2606.24140#bib.bib34); Liu et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib31); Zhao et al\.,2023 (https://arxiv.org/html/2606.24140#bib.bib55)\)。另一个方向优化采样过程的组成部分\(Sabour et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib45); Xue et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib53); Zhou et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib58)\)。这些方法有助于减轻连续域中 ODE 或 SDE 求解器的离散化误差。相比之下,离散流匹配的采样由离散状态空间中的 CTMC 驱动,其显著的计算挑战在于近似 τ\tau\-跳跃所需的逐步骤累积强度。

#### 离散扩散模型

DDMs 作为分类生成的一个框架发展迅速,应用涵盖文本、标记化图像、图和生物序列\(Austin et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib2); Campbell et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib6); Hoogeboom et al\.,2021 (https://arxiv.org/html/2606.24140#bib.bib22); Kim et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib24)\)。建模和训练方面的几项进展提高了 DDM 的实用性。SEDD\(Lou et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib32)\)提出了一种分数熵损失,将分数匹配扩展到离散空间。RADD\(Ou et al\.,2025a (https://arxiv.org/html/2606.24140#bib.bib39)\)证明了吸收扩散中的具体分数允许一个解析分解,将掩码扩散与自回归建模联系起来。最近的理论研究也分析了 DDM 的收敛性质以及分数估计误差对生成分布的影响\(Wan et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib51); Su et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib49); Ren et al\.,2025a (https://arxiv.org/html/2606.24140#bib.bib42); Zhang et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib54); Liang et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib28)\)。

最近关于吸收模式下离散扩散模型的研究表明,其反向动力学具有一种时间无关的首达解释\(Zheng et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib57)\)。从这个角度来看,首次击中采样器 \(FHS\) 通过分析采样掩码标记首次被揭示的转移时间,将生成重新表述为一个逐标记解码过程,而不是依赖标准的时间离散化反向过程。这为掩码扩散采样提供了另一种重要视角,并且在纯吸收设置中尤为自然。

另外大量工作研究在保持采样质量的同时加快 DDM 推理\(Zhu et al\.,2025b (https://arxiv.org/html/2606.24140#bib.bib60); Fu et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib14); Ren et al\.,2025b (https://arxiv.org/html/2606.24140#bib.bib43); Zhu et al\.,2025a (https://arxiv.org/html/2606.24140#bib.bib59); Zhao et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib56)\)。近似模拟方法被广泛用于实现跨多个维度的并行更新。一个标准例子是 τ\tau\-跳跃\(Gillespie,2001 (https://arxiv.org/html/2606.24140#bib.bib18)\),它应用欧拉型近似来同时模拟多个坐标。Tweedie τ\tau\-跳跃\(Campbell et al\.,2022 (https://arxiv.org/html/2606.24140#bib.bib6)\)通过利用状态的后验期望来校正转移速率,进一步改进了这种近似。虽然这些变体是高效的,但当强度在终端阶段附近快速变化时,固有的离散化偏差通常需要许多步骤。具体来说,Ren 等人 \(2025b (https://arxiv.org/html/2606.24140#bib.bib43)\) 的工作高度相关。该工作将高阶数值方法,即 θ\theta\-RK2 和 θ\theta\-梯形方法,应用于离散扩散推理。它建立了 KL 散度中的二阶收敛性,并且通常每步需要多次函数评估(例如 2 NFE)来形成高阶校正。在我们的方法中,我们引入了一种基于调度的时间重参数化来消除标准因子化 DFM 中的调度依赖增长项。此外,我们提出了 TR\-CIE 以通过历史重用估计逐步骤累积强度。我们的方法保持每步一次 NFE 的成本,使其在评估次数严格受限的大规模离散流采样中有效。

#### 离散流匹配

DFM\(Gat et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib15); Shaul et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib46); Davis et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib12); Luo et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib35); Cheng et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib10); Nisonoff et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib37)\) 通过学习将简单先验输送到数据分布的 CTMC 动力学,为离散生成建模提供了一个灵活的范式。在方法论方面,Gat 等人 \(2024 (https://arxiv.org/html/2606.24140#bib.bib15)\) 建立了基于 CTMC 的流匹配框架,用于高维离散生成。Shaul 等人 \(2025 (https://arxiv.org/html/2606.24140#bib.bib46)\) 通过动能最小化刻画了离散概率路径。Billera 等人 \(2025 (https://arxiv.org/html/2606.24140#bib.bib3)\) 引入了分支流来建模可变长度序列的转移。从信息几何的角度,Davis 等人 \(2024 (https://arxiv.org/html/2606.24140#bib.bib12)\) 通过 Fisher–Rao 度量将概率单纯形上的分类分布映射到正超球面,以获得闭式测地线路径。关于理论保证,Wan 等人 \(2025 (https://arxiv.org/html/2606.24140#bib.bib51)\) 和 Su 等人 \(2025 (https://arxiv.org/html/2606.24140#bib.bib49)\) 将终端分布误差与学得强度场的近似和估计误差联系起来。在应用和架构方面\(Qin et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib41); Li et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib27); Navon et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib36); Chen et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib9); Campbell et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib7); Havasi et al\.,2025 (https://arxiv.org/html/2606.24140#bib.bib20)\),Qin 等人 \(2025 (https://arxiv.org/html/2606.24140#bib.bib41)\) 将 DFM 应用于图生成,Wang 等人 \(2025 (https://arxiv.org/html/2606.24140#bib.bib52)\) 将预训练的自回归多模态模型适配到 DFM 框架,Ou 等人 \(2025b (https://arxiv.org/html/2606.24140#bib.bib40)\) 提出了使用局部等变 Transformer 的离散神经流采样器。

### 1\.2 贡献

为了在有限模型评估下改善 DFM 的采样,我们提出了时间重参数化累积强度外推 \(TR\-CIE\) 采样器。我们的方法针对逐步骤累积强度,通过时间重参数化和历史重用的组合来提高近似精度。首先,TR\-CIE 引入了一种针对标准因子化 DFM\(Gat et al\.,2024 (https://arxiv.org/html/2606.24140#bib.bib15)\) 定制的基于调度的时间重参数化。这种变换消除了转移强度中依赖于调度的增长项,并缓解了终端采样阶段附近的刚性。其次,我们引入了一个双评估参考估计器来分析冻结状态近似下累积强度的离散化误差,然后推导出一个实用的单评估变体。这个实用估计器重用上一步缓存的模型输出以外推逐步骤累积强度,每步仅需一次模型评估。我们提供了理论分析,将累积强度的局部近似误差与终端分布散度联系起来。我们的方法可以被视为对已知数值思想的结构化适配,为标准因子化 DFM 设置做出了新的设计选择。具体来说,时间重参数化利用因子化速率参数化来消除调度依赖增长项,而累积强度外推是在重参数化时间域中为 CTMC 采样开发的。通过缓存历史重用,最终得到的采样器进一步产生了一种实用的单评估实现。在文本生成、文本到图像基准以及合成倒计时任务上的实验表明,我们的方法在受限 NFE 下实现了显著改进的质量。我们的贡献总结如下:

- • 我们提出了 TR\-CIE,它引入了一种基于调度的时间重参数化来减轻标准因子化 DFM 中依赖于调度的增长,并缓解终端采样阶段附近的刚性。
- • 我们开发了一个用于理论分析的双评估参考估计器,以及一个实用的单评估累积强度外推采样器,该采样器重用缓存历史以降低计算成本。
- • 在文本生成、文本到图像生成以及合成倒计时任务上的大量实验,跨越各种 NFE,表明我们的方法显著提高了采样质量。

### 1\.3 符号说明

对于任意正整数 NN,令 \[N\] ≔ {1,...,N}\[N\]\\coloneqq\\\{1,\\dots,N\\\} 表示不超过 NN 的整数集合。我们区分物理时间 t

相似文章

MeshFlow: 基于等变流匹配的网格生成

Hugging Face Daily Papers

MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。

Recursive Flow Matching

Hugging Face Daily Papers

引入了 Recursive Flow Matching (RecFM),一种用于预测复杂时空动态的生成框架,以更少的步骤实现高保真度,并提高了准确性和速度,包括相比基于扩散的模拟器高达20倍的加速。

SDFlow:用于时间序列生成的相似性驱动流匹配

arXiv cs.AI

本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。