PrismFlow：时间序列生成中流匹配的残差动力学

arXiv cs.LG 2026/05/29 04:00 论文

摘要

PrismFlow 提出了一种流匹配方法，结合了受Koopman启发的动力学专家来处理多模态和多尺度时间序列数据，取得了最先进的性能，在Context-FID和Discriminative Score上均有显著提升。

arXiv:2605.28867v1 公告类型：新摘要：生成高质量的时间序列数据具有挑战性，因为真实世界的信号通常表现出多模态模式和多尺度动力学，包括振荡和高频变化。流匹配（FM）为扩散模型提供了一种高效替代方案，但实际实现通常依赖于一个容量有限的单一全局向量场估计器。在这种异质的时间分布中，不同的模式可能穿过邻近的流状态，同时需要不兼容的条件速度。因此，使用标准 $\ell_2$ 速度匹配目标训练的单一估计器可能会学习到局部传输场的过度平滑近似。这种估计器级别的平滑会削弱分支特定动力学，导致频谱失真和模式覆盖不足。为了解决这个问题，我们提出了 PrismFlow，一种带有受Koopman启发的动力学专家的新FM方法。每个专家在潜在空间中学习残差校正，在该空间中，局部非线性时间演化可以通过线性变换来近似。我们进一步提出了一种置信度感知的胜者全得（WTA）目标，该目标仅更新与每个样本最匹配的专家，同时屏蔽其他专家的梯度，从而鼓励特定模式的专门化。在采样过程中，选定的专家向全局传输场添加残差动力学校正，从而在保持FM稳定性的同时恢复细粒度的高频时间结构。在多个基准测试中，PrismFlow 有效缓解了标准FM中的频谱收缩，并实现了最先进的性能，在Context-FID上提升了15.6%，在Discriminative Score上提升了38.6%，同时在低数据设置下保持稳健，并且对于预测和插补也有效。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:11

# PrismFlow：面向时间序列生成的残差动力学流匹配方法

来源：https://arxiv.org/html/2605.28867
张俊如¹ 冯朗² 王金波¹ 郭旭² 王宇成³ 韩宇² 吴敏³ 董亚波¹¹ 徐端清¹
¹浙江大学，中国 ²南洋理工大学，新加坡 ³新加坡科技研究局（A\*STAR）I2R，新加坡

###### 摘要

生成高质量时间序列数据具有挑战性，因为现实信号往往呈现多模态模式和多尺度动力学，包括振荡和高频变化。流匹配（Flow Matching, FM）为扩散模型提供了一种高效替代方案，但实际实现通常依赖单一有限容量的全局向量场估计器。在这种异质的时间分布中，不同状态可能经过相近的流状态，却需要不相容的条件速度。使用标准的l2\\ell\_\{2\}速度匹配目标训练的单一估计器，可能会学习到局部传输场的过度平滑近似。这种估计器层面的平滑会削弱分支特定动力学，导致频谱失真和模式覆盖不佳。为解决这一问题，我们提出PrismFlow，一种结合库普曼（Koopman）启发动力学专家的新FM方法。每个专家在潜在空间中学习残差修正，其中局部非线性时间演化可近似为线性变换。我们进一步提出一种基于置信度的赢家通吃（Winner-Take-All, WTA）目标，仅更新与每个样本最对齐的专家，同时遮蔽其他专家的梯度，从而鼓励模式特定专化。在采样过程中，选中的专家向全局传输场添加残差动力学修正项，既保持FM的稳定性，又能恢复细粒度的高频时间结构。在各种基准测试中，PrismFlow有效缓解了标准FM中的频谱收缩，取得了最先进的性能，Context-FID提升了15.6%，判别分数（Discriminative Score）提升了38.6%，同时在低数据设定下保持鲁棒性，并在预测和插补任务中表现有效。

## 1 引言

时间序列数据支撑着医疗[1 (https://arxiv.org/html/2605.28867#bib.bib1),2 (https://arxiv.org/html/2605.28867#bib.bib2)]、金融[3 (https://arxiv.org/html/2605.28867#bib.bib3),4 (https://arxiv.org/html/2605.28867#bib.bib4),5 (https://arxiv.org/html/2605.28867#bib.bib5)]和环境监测[6 (https://arxiv.org/html/2605.28867#bib.bib6),7 (https://arxiv.org/html/2605.28867#bib.bib7),8 (https://arxiv.org/html/2605.28867#bib.bib8)]等领域的决策制定。然而，高保真信号的获取常受限于严格的隐私法规和过高的成本[9 (https://arxiv.org/html/2605.28867#bib.bib9),10 (https://arxiv.org/html/2605.28867#bib.bib10)]。这种稀缺性迫使我们需要生成模型，能够合成不仅在统计上一致，而且保留现实世界现象潜在时间演化的序列。

近年来，时间序列生成已从对抗框架[11 (https://arxiv.org/html/2605.28867#bib.bib11),12 (https://arxiv.org/html/2605.28867#bib.bib12)]转向无模拟的连续传输方法，尤其是流匹配（FM）[13 (https://arxiv.org/html/2605.28867#bib.bib13),14 (https://arxiv.org/html/2605.28867#bib.bib14)]。虽然FM相比扩散模型[15 (https://arxiv.org/html/2605.28867#bib.bib15),16 (https://arxiv.org/html/2605.28867#bib.bib16)]具有优越的稳定性和采样效率，但其实际实现通常依赖单一的全局向量场估计器来近似传输动力学[17 (https://arxiv.org/html/2605.28867#bib.bib17)]。尽管精确的FM传输场在原则上定义明确，但从有限数据中利用单一估计器学习会引入统计和表征上的挑战。在多模态时间场景中（例如存在变化频率或瞬态响应的情况），异质的时间模式可能占据流状态空间中的相近区域，却需要不同的序列演化。在标准l2\\ell\_\{2\}速度匹配目标下，估计器被鼓励预测不相容目标速度的条件均值，这往往会平滑掉模式特定的时间序列模式。因此，丰富的时间结构可能坍缩为过度平滑的学习流，频谱多样性受限，导致模式坍缩[18 (https://arxiv.org/html/2605.28867#bib.bib18),19 (https://arxiv.org/html/2605.28867#bib.bib19),20 (https://arxiv.org/html/2605.28867#bib.bib20),21 (https://arxiv.org/html/2605.28867#bib.bib21),22 (https://arxiv.org/html/2605.28867#bib.bib22)]。这降低了局部轨迹保真度，并限制了基于流的生成器的表达能力，因为它削弱了其再现多样化动态模式的能力。

为缓解这种模式坍缩，我们提出PrismFlow，一种新的FM方法，通过一组库普曼启发的动力学专家来修正全局传输场。借鉴库普曼算子理论[23 (https://arxiv.org/html/2605.28867#bib.bib23),24 (https://arxiv.org/html/2605.28867#bib.bib24)]，我们的方法将非线性时间演化映射到一个潜在空间，在那里它们可以被建模为局部线性变换。我们不强制一个单一学习估计器捕获所有动力学，而是将生成视为一个路由问题：在每个中间状态，模型动态识别局部时间模式，并将责任分配给最适于建模该特定演化的专家。为确保这些专家学习到不同的模式，我们引入了一种带有竞争性选择的赢家通吃（WTA）训练目标。与可能重新引入平均效应的标准软门控混合[25 (https://arxiv.org/html/2605.28867#bib.bib25),26 (https://arxiv.org/html/2605.28867#bib.bib26)]不同，我们的方法强制了更清晰的专家专化。对于给定状态，所有专家预测候选残差速度，但只有获得最佳置信度感知WTA分数的专家才接收专化更新，而其他专家的梯度被屏蔽。这种机制减少了不相容模式的平均化行为，而这是学习到的单一估计器中出现回归到均值行为的主要原因。在采样过程中，PrismFlow将选中的专家整合为添加到全局传输场的残差动力学修正项，从而既保持了全局流的稳定性，又允许模型在多尺度上恢复多样的频谱分量。

我们的主要贡献总结如下：

- • 我们揭示了学习型FM模型中的速度平均化是时间序列生成的关键瓶颈。我们的分析表明，单场估计器可能诱导条件均值行为，导致生成时间序列中的频谱失真和模式坍缩。
- • 我们提出PrismFlow，一种新颖的方法，通过将库普曼启发的专家作为残差动力学修正项整合到全局流中，捕捉标准单一估计器常常无法表示的多尺度动力学。
- • 我们提出使用WTA竞争性选择规则来训练这些专家。通过将每个流状态分配给单个专家并屏蔽其他专家的梯度，该目标在标准l2\\ell\_\{2\}损失下减少了回归到均值的行为，并促进了清晰的模式特定专化。
- • 对PrismFlow的实证评估展示了其在多样化时间序列生成任务中的强大性能。PrismFlow有效恢复了多样的模式，将Context-FID提升了15.6%，判别分数提升了38.6%，同时在低数据设定下保持鲁棒性，并在预测和插补任务中实现高保真度。

## 2 相关工作

**时间序列生成。** 时间序列生成已从早期的对抗[27 (https://arxiv.org/html/2605.28867#bib.bib27),28 (https://arxiv.org/html/2605.28867#bib.bib28),12 (https://arxiv.org/html/2605.28867#bib.bib12),29 (https://arxiv.org/html/2605.28867#bib.bib29),30 (https://arxiv.org/html/2605.28867#bib.bib30)]和潜变量[31 (https://arxiv.org/html/2605.28867#bib.bib31),32 (https://arxiv.org/html/2605.28867#bib.bib32)]模型，转向能够提供更高保真度的迭代细化方法。代表性的基线如TimeGAN[12 (https://arxiv.org/html/2605.28867#bib.bib12)]和TimeVAE[31 (https://arxiv.org/html/2605.28867#bib.bib31)]捕获了全局时间依赖性，但它们常遭受训练不稳定性，并倾向于模糊局部、相位敏感的动力学。近期，基于扩散的模型[33 (https://arxiv.org/html/2605.28867#bib.bib33),34 (https://arxiv.org/html/2605.28867#bib.bib34),35 (https://arxiv.org/html/2605.28867#bib.bib35),36 (https://arxiv.org/html/2605.28867#bib.bib36)]，包括Diffwave[35 (https://arxiv.org/html/2605.28867#bib.bib35)]和Diffusion-TS[36 (https://arxiv.org/html/2605.28867#bib.bib36)]，通过将生成视为渐进降噪过程取得了强大的合成质量。SDformer[37 (https://arxiv.org/html/2605.28867#bib.bib37)]进一步探索了使用大参数扩散模型的离散序列建模。虽然扩散模型提供了令人印象深刻的保真度和分布对齐，但其多步推理在计算上仍然昂贵，限制了实时和大规模部署。

**流匹配。** 流匹配（FM）是一种无模拟训练连续归一化流的框架，结合了稳定的目标与高效的常微分方程（ODE）采样[13 (https://arxiv.org/html/2605.28867#bib.bib13),14 (https://arxiv.org/html/2605.28867#bib.bib14)]。通过沿预定义概率路径回归时间依赖的速度场，FM避免了训练期间昂贵的轨迹模拟，并能够通过标准求解器实现确定性生成。这种效率在图像合成[38 (https://arxiv.org/html/2605.28867#bib.bib38)]、视频生成[39 (https://arxiv.org/html/2605.28867#bib.bib39)]、稳定神经ODE动力学[40 (https://arxiv.org/html/2605.28867#bib.bib40)]、时间序列基础建模[41 (https://arxiv.org/html/2605.28867#bib.bib41),42 (https://arxiv.org/html/2605.28867#bib.bib42)]以及概率预测[43 (https://arxiv.org/html/2605.28867#bib.bib43),44 (https://arxiv.org/html/2605.28867#bib.bib44)]中取得了强有力的结果。最近，TimeMCL[45 (https://arxiv.org/html/2605.28867#bib.bib45)]为预测多样化未来引入了一种多选学习方法。与这类输出级多样性方法互补，我们的工作集中于单一FM实现中的估计器级平均化问题。当异质时间模式经过相近的流状态时，标准l2\\ell\_\{2\}目标可能驱使单一估计器朝向不相容速度的条件均值，导致过度平滑的轨迹和降低的频谱多样性。我们并不将这一点视为精确FM传输场的缺陷，而是通过用动态路由的库普曼启发残差专家增强全局估计器，来解决其有限样本近似中的实际限制。

## 3 预备知识

**问题设定。** 令x∈X=RS×Dx\\in\\mathcal\{X\}=\\mathbb\{R\}^\{S\\times D\}表示具有SS个时间步和DD个通道的多变量时间序列。每个序列xx来自X\\mathcal\{X\}上的未知数据分布q\(x\)q\(x\)。生成建模的目标是学习一个参数化分布pθp\_\{\\theta\}来近似qq，从而能够合成保留现实世界数据统计特性和时间动态的序列x^\\hat\{x\}。

**流匹配。** 流匹配（FM）[13 (https://arxiv.org/html/2605.28867#bib.bib13)]是一种用于训练连续归一化流的无模拟框架。它通过将简单源分布p0p\_\{0\}经由时间依赖的向量场vtθ:\[0,1\]×X→Xv\_\{t\}^\{\\theta\}:\[0,1\]\\times\\mathcal\{X\}\\to\\mathcal\{X\}传输到数据分布来生成样本。变换由ODE控制：

ddtxt=vtθ\(xt,t\),xt=0=x0,\\frac\{\\mathrm\{d\}\}\{\\mathrm\{d\}t\}x\_\{t\}=v\_\{t\}^\{\\theta\}\(x\_\{t\},t\),\\qquad x\_\{t=0\}=x\_\{0\},\(1)这诱导了一条概率路径\{pt\}t∈\[0,1\]\\\{p\_\{t\}\\\}\_\{t\\in\[0,1\]\}，其中xt∼ptx\_\{t\}\\sim p\_\{t\}，且x0∼p0x\_\{0\}\\sim p\_\{0\}。我们用编码器-解码器网络参数化vtθ\(xt,t\)v\_\{t\}^\{\\theta\}\(x\_\{t\},t\)，其参数记为θ=\(φη,φζ\)\\theta=\(\\phi\_\{\\eta\},\\phi\_\{\\zeta\}\)。遵循标准条件流匹配（CFM），我们采用x0∼p0=N\(0,I\)x\_\{0\}\\sim p\_\{0\}=\\mathcal\{N\}\(\\mathbf\{0\},\\mathbf\{I\}\)与x1∼qx\_\{1\}\\sim q之间的线性插值：xt=\(1−t\)x0\+tx1,x\_\{t\}=\(1\-t\)x\_\{0\}\+tx\_\{1\},其目标速度是常数：
ddtxt=x1−x0\.\\frac\{\\mathrm\{d\}\}\{\\mathrm\{d\}t\}x\_\{t\}=x\_\{1\}\-x\_\{0\}\.\(2\)
模型通过最小化下式训练：
LCFM\(θ\)=Et,x0,x1\[‖vtθ\(xt,t\)−\(x1−x0\)‖22\],\\mathcal\{L\}\_\{\\mathrm\{CFM\}\}\(\\theta\)=\\mathbb\{E\}\_\{t,x\_\{0\},x\_\{1\}}\\left\[\\left\\\|v\_\{t\}^\{\\theta\}\(x\_\{t\},t\)\-\(x\_\{1\}\-x\_\{0\}\)\\right\\\|\_\{2\}^\{2\}\\right\],\(3\)其中t∼U\[0,1\]t\\sim\\mathcal\{U\}\[0,1\]。为生成样本，我们抽取x0∼N\(0,I\)x\_\{0\}\\sim\\mathcal\{N\}\(\\mathbf\{0\},\\mathbf\{I\}\)并从t=0t=0到t=1t=1积分学习到的ODE：
xt\+Δt=xt\+vtθ\(xt,t\)Δt,x\_\{t\+\\Delta t\}=x\_\{t\}\+v\_\{t\}^\{\\theta\}\(x\_\{t\},t\)\\Delta t,\(4\)
使用数值求解器得到x^=xt=1\\hat\{x\}=x\_\{t=1\}。

**模式坍缩。** 虽然公式(3)中的l2\\ell\_\{2\}目标是有效的，但在多模态时间设定中，实际单场估计器可能变得寻求均值。在标准FM中，当来自不同时间状态的轨迹经过相近流状态xtx\_\{t\}时，局部目标速度分布q\(ut∣xt\)q\(u\_\{t\}\\mid x\_\{t\}\)可能变得高度异质，其中ut=x1−x0u\_\{t\}=x\_\{1\}\-x\_\{0\}表示CFM目标速度。在l2\\ell\_\{2\}损失下，有限容量估计器可能学习到围绕条件平均趋势的平滑近似，vt∗\(xt,t\)=E\[ut∣xt\],v\_\{t\}^\{\*\}\(x\_\{t\},t\)=\\mathbb\{E\}\[u\_\{t\}\\mid x\_\{t\}\],而不是有效保留分支特定的速度方向。当相邻样本对应不相容的时间状态时，这种估计器级平均化会降低有效速度能量，∥E\[ut∣xt\]∥22≤E\[∥ut∥22∣xt\],\\\|\\mathbb\{E\}\[u\_\{t\}\\mid x\_\{t\}\]\\\|\_\{2\}^\{2\}\\leq\\mathbb\{E\}\[\\\|u\_\{t\}\\\|\_\{2\}^\{2\}\\mid x\_\{t\}\],并可能在ODE积分后削弱瞬态分支和高频分量。从动态模式分解（DMD）视角[46 (https://arxiv.org/html/2605.28867#bib.bib46)]看，这种实际平滑表现为频谱收缩，其中能量集中到少数慢变模式，而更快或更弱的模式消失。我们在时间序列生成中研究了这种特定形式的模式坍缩[19 (https://arxiv.org/html/2605.28867#bib.bib19),20 (https://arxiv.org/html/2605.28867#bib.bib20)]，附录中的高斯混合诊断进一步验证了这一点。

参见标题说明图1：PrismFlow整体架构。给定流状态xtx\_\{t\}，流匹配主干预测全局传输速度vtθv\_\{t\}^\{\{\theta\}\}。同时，共享编码器和投影仪将xtx\_\{t\}映射到潜在库普曼空间，其中包含一个专家库。

PrismFlow：时间序列生成中流匹配的残差动力学

相似文章

SDFlow：用于时间序列生成的相似性驱动流匹配

利用流匹配捕获非平衡随机系统中的非马尔可夫动力学

Recursive Flow Matching

Flow-DPPO: 针对流匹配模型的散度近端策略优化

Flow-OPD：用于流匹配模型的对策蒸馏

提交意见反馈