REGEN: 面向预测的参考引导型多元时间序列合成生成

arXiv cs.LG 2026/06/05 04:00 论文

time-series forecasting synthetic-data reference-guided multivariate data-generation machine-learning

摘要

ReGeN是一个参考引导的生成流水线，用于多元时间序列数据。它将观测序列分解为周期性骨干、随机残差和跨变量依赖关系，以合成可控的合成数据。结果表明，生成的数据可以替代真实数据用于预测任务，且性能优于以往的合成数据生成器。

arXiv:2606.05264v1 公告类型：新论文摘要：训练鲁棒的多元时间序列预测模型需要大规模、多样化的数据集，然而许多现实领域只提供少量的观测序列。现有生成器无法解决这一矛盾：基于先验的方法（如CauKer、TimePFN）产生领域无关的样本，而数据驱动的方法（如TimeGAN）将参考视为黑盒监督，放弃了对周期结构、局部变异和跨变量动态的明确控制。我们提出ReGeN，一种参考引导的生成流水线，它将观测序列视为可控合成的结构支架，而非模仿的示例。ReGeN将每个参考分解为三个可解释的组件：捕获主要领域形态的相位对齐周期性骨干；使用深核高斯过程建模的每变量随机残差；以及通过具有拟合耦合系数的结构因果模型注入的滞后感知跨变量依赖。以可控温度对这些组件进行采样，拓宽了分布覆盖范围，同时保留了领域基础结构。我们表明，ReGeN生成的数据在预测任务中始终可以替代真实兄弟数据，且性能下降极小，在强周期性领域（如交通）中，甚至可能优于真实源数据。我们进一步表明，在ReGeN语料库上预训练的基础模型优于在基于先验和数据驱动的合成替代方案上预训练的模型。这表明，在低数据场景下，如何结构性地利用参考数据可能与拥有多少数据同样重要。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:09

# ReGeN：面向预测的参考引导合成多变量时间序列生成
来源：https://arxiv.org/html/2606.05264
Moulik Gupta¹, Dhruv Kumar¹,², Murari Mandal¹,³,†\dagger, Saurabh Deshpande¹,†\dagger

¹Birla AI Labs, Office of Ananya Birla ²Birla Institute of Technology and Science, Pilani ³Kalinga Institute of Industrial Technology, Bhubaneswar †\dagger平等监督 \{moulik\.gupta\-c, dhruv\.kumar\-c, murari\.mandal\-c, saurabh\.deshpande\-c\}@oab\.adityabirla\.com

###### 摘要

训练鲁棒的多变量时间序列预测模型需要大规模、多样化的语料库，然而许多现实领域仅能提供少数观测序列。现有的生成器未能解决这种不匹配问题：基于先验的方法（例如 CauKer、TimePFN）生成与领域无关的样本，而数据驱动的方法（例如 TimeGAN）将参考视为黑盒监督，放弃了对周期结构、局部变异性和跨变量动态的显式控制。我们提出 **ReGeN**，一种参考引导的生成流程，它将观测序列视为可控合成的结构骨架，而非模仿的示例。ReGeN 将每个参考分解为三个可解释组件：捕捉领域主导形态的相位对齐周期性主干；使用深度核高斯过程建模的每个变量随机残差；以及通过具有拟合耦合系数的结构因果模型注入的时滞感知跨变量依赖性。以可控温度对这些组件进行采样，在保留领域基础结构的同时拓宽了分布覆盖范围。我们证明，ReGeN 生成的数据能够始终如一地替代真实同类数据，且预测性能下降极小；在交通等强周期领域，其表现甚至可能超越真实数据源本身。我们进一步表明，在 ReGeN 语料库上预训练的基础模型，其性能优于在基于先验和数据驱动的合成替代方案上预训练的模型。这表明，在低数据 regimes 下，如何结构化地利用参考数据，可能与拥有多少数据同样重要。

## 1 引言

多变量时间序列预测支撑着能源网格、交通网络、云基础设施和气候系统等领域的决策。然而，其实际部署仍然受限于数据稀缺：大多数运营中的多变量语料库，从建筑能源组合到区域传感器网络再到临床监测部署，每个领域仅包含数十到数百个观测序列，远不足以训练能够在观测分布之外进行泛化的鲁棒预测模型。(Liu et al., 2024 (https://arxiv.org/html/2606.05264#bib.bib51); Zeng et al., 2023 (https://arxiv.org/html/2606.05264#bib.bib53); Wang et al., 2025 (https://arxiv.org/html/2606.05264#bib.bib52); Ansari et al., 2024 (https://arxiv.org/html/2606.05264#bib.bib3); Woo et al., 2024 (https://arxiv.org/html/2606.05264#bib.bib2))。微调预训练模型可以部分弥补，但仅当目标领域已存在于预训练语料库中时才有效，而这对于小众的工业、环境或基础设施环境来说很少见。实际需要的是这样一种生成策略：它能够从一个小型参考语料库中读取领域特定的结构，并将其写入一个更大的合成语料库。

现有的合成生成器分为两类，每类都有根本性局限。**基于先验的生成器**（例如 ForecastPFN (Dooley et al., 2023 (https://arxiv.org/html/2606.05264#bib.bib32))、TimePFN Taga et al. (2025 (https://arxiv.org/html/2606.05264#bib.bib9))、CauKer (Xie et al., 2025 (https://arxiv.org/html/2606.05264#bib.bib30))）从与领域无关的数学基元（正弦模板、高斯过程核库、随机采样的 DAG）构建合成数据，不锚定任何目标领域。生成的语料库可能在统计上是合理的，但不包含预测模型实际需要学习的任何领域特定形态、不确定性纹理或跨变量耦合。**数据驱动的生成器**（例如 TimeGAN (Yoon et al., 2019 (https://arxiv.org/html/2606.05264#bib.bib31))、C-RNN-GAN Mogren (2016 (https://arxiv.org/html/2606.05264#bib.bib43))）直接从观测数据中学习，但将整个参考语料库视为生成模型的黑盒训练信号。这种方法需要大量的真实序列才能可靠训练，并且生成的生成器无法显式控制周期结构、局部变异性或跨变量依赖性。这两种方法都不适合那些只能访问目标领域少量至中等数量真实多变量序列的实践者。

我们认为，这两种方法之间的差距源于一个错失的机会：观测序列本身编码了丰富的、领域特定的结构，这是数学先验或黑盒生成器都无法恢复的。即使来自某个能源建筑的少量真实序列也编码了其特征性的需求周期、峰值负载不确定性以及温度与冷却负载之间的有向耦合。这种结构不是需要绕过的局限性，而是值得利用的信号。一种将每个组件都拟合到观测数据的生成策略将补充这两种方法：它既不需要大型语料库，也不牺牲领域锚定，正好解决了大多数实践者实际操作的 regime。

这启发了一种参考引导的合成生成方法，其中生成流程的每个组件都拟合到目标领域的观测数据，而不是从通用先验中采样或从黑盒目标中学习。我们提出 **ReGEN**，一种流程，它将观测序列视为合成的结构骨架，通过将每个参考分解为三个可解释的层：一个**相位对齐的周期性模板**，用于捕捉领域的节律主干；每个变量的**随机残差**，由深度核高斯过程建模，以再现主干附近的局部不确定性；以及从参考数据推断出的**基于图的时滞耦合结构**，用于编码有向的跨变量依赖关系。新的合成序列通过以可控温度组合来自每个层的样本生成，在保留目标领域结构特征的同时拓宽分布覆盖范围。

我们的主要贡献如下：

- • **参考引导的生成流程**：我们引入 **ReGEN**，一个模块化生成器，它将所有三个合成组件锚定在真实领域观测中，而非通用先验。组件消融实验确认，每个层都对下游性能有可测量贡献。
- • **全面的实证验证**：我们跨五个领域的十二个数据集、三种评估协议（TRTR、TSTR、TRSTR）以及五种预测架构（包括基础模型 Moirai-small）进行评估。在三分之二的迁移设置中，ReGEN 合成数据能够在 ±±3% MSE 误差范围内替代真实同类数据；在强周期领域，其表现甚至完全优于真实数据迁移。对于注意力机制和状态空间架构，训练真实数据和合成数据的联合集相比仅训练真实数据带来一致增益。
- • **优于现有生成器**：我们在匹配语料库大小的情况下，将本方法与一个参考引导的对抗生成器（TimeGAN）和一个基于先验的因果生成器（CauKer）进行基准比较。在 ReGEN 语料库上预训练的基础模型，其 Moirai MSE 相比 TimeGAN 降低 41%，相比 CauKer 降低 2.3%，这确立了**如何**利用参考数据与**是否**拥有可用数据同样重要。

## 2 相关工作

**基于先验和数据驱动的合成生成器。** 合成时间序列生成沿着两条不同的路径进行探索。数据驱动生成器如 TimeGAN (Yoon et al., 2019 (https://arxiv.org/html/2606.05264#bib.bib31))、C-RNN-GAN (Mogren, 2016 (https://arxiv.org/html/2606.05264#bib.bib43)) 和 RCGAN (Esteban et al., 2017 (https://arxiv.org/html/2606.05264#bib.bib44)) 使用对抗和循环目标直接从目标语料库中学习。当有足够的训练数据时，它们能生成逼真的序列，但作为黑盒模型运行，无法显式控制周期结构、局部变异性或跨变量耦合，并且需要足够多的真实序列来训练生成器本身。基于先验的生成器采取相反的方法，从与领域无关的数学基元构建合成数据，无需任何真实目标数据。ForecastPFN (Dooley et al., 2023 (https://arxiv.org/html/2606.05264#bib.bib32)) 在贝叶斯预测先验上训练；Chronos 通过 KernelSynth（组合 GP 核以生成单变量序列）增强预训练 (Ansari et al., 2024 (https://arxiv.org/html/2606.05264#bib.bib3))；TimePFN 通过使用区域化线性模型的 GP 核组合将其扩展到多变量设置 (Taga et al., 2025 (https://arxiv.org/html/2606.05264#bib.bib9))；CauKer 将 GP 核与随机采样的因果 DAG 结合，以产生因果一致的多变量序列 (Xie et al., 2025 (https://arxiv.org/html/2606.05264#bib.bib30))；SarSim 使用基于 SARIMA 的模拟，结合多季节性和重尾扰动，用于大规模预训练 (Oreshkin et al., 2026 (https://arxiv.org/html/2606.05264#bib.bib46))。这些方法非常适合基础模型预训练，但其合成结构与任何特定目标领域无关，因此不适合数据集条件增强。

**结构分解与增强。** 一条互补的研究线借鉴了经典的时间序列分解方法。STL 式的季节-趋势分解将信号分离为可解释的组件 (Cleveland et al., 1990 (https://arxiv.org/html/2606.05264#bib.bib23))，而结构化概率模型（如具有组合核的高斯过程 (Roberts et al., 2013 (https://arxiv.org/html/2606.05264#bib.bib24))）为残差提供了原则性的不确定性。轻量级增强方法如 TSMix (Darlow et al., 2023 (https://arxiv.org/html/2606.05264#bib.bib33)) 和 mixup 风格的变体 (Aggarwal and Srivastava, 2023 (https://arxiv.org/html/2606.05264#bib.bib34)) 通过插值改进下游性能，但不建模多变量依赖性或有向时滞结构。**ReGEN** 占据了一个独特的位置：与基于先验的生成器不同，它使所有三个组件都条件于真实参考观测；与数据驱动的生成器不同，它只需要中等语料库，同时提供对周期结构、残差不确定性和跨变量耦合的显式控制。

## 3 ReGen

我们考虑生成合成多变量时间序列的问题，该序列需保留真实时间系统的三个显著特性：变量内部的重复结构、随机局部变异性以及变量之间的有向依赖关系。令 D={X(s)}Ss=1D={X(s)}s=1S 表示一个真实多变量序列的集合，其中 X(s)∈RC×TX(s)∈RC×T，CC 是协变量数量。我们的目标是构建一个生成机制，用于产生合成轨迹 X~∈RC×TgenX~∈RC×Tgen，在保持对跨变量动态忠实的同时，再现边际时间形态。我们不是将这三个结构来源进行整体建模，而是显式分离 (i) 低频周期性主干，(ii) 随机创新过程，以及 (iii) 图结构化的交互机制，从而可以独立地建模和控制周期性、不确定性和因果依赖关系。

请参阅标题图 1：ReGeN 流程概览。A：从真实多变量时间序列中提取相位对齐的周期性模板并计算残差。B：跨序列聚合残差，并应用基于 VE 的过滤以保留可靠的模板-残差结构。C：拟合一个 CNN+LSTM 编码器，搭配基于 SVGP 的深度核先验，以建模残差动态。D：采样模板参数和 GP 残差，然后组合它们以重建合成信号。E：利用推断出的 DAG 注入跨变量依赖关系，并组装最终的合成多变量数据集。**每个协变量的结构分解。** 对于每个协变量 cc，我们将观测轨迹在归一化空间中分解为

yc,t=τc,t+rc,t,yc,t=τc,t+rc,t,(1)其中 τc,tτc,t 表示一个重复出现的结构模板，rc,trc,t 表示残差组分。模板旨在捕捉相位锁定的规律性，而残差则吸收对该重复模式的局部偏离。这种重复结构与随机余量之间的分离直接受经典季节分解和结构化概率时间信号建模的启发 (Cleveland et al., 1990 (https://arxiv.org/html/2606.05264#bib.bib23); Roberts et al., 2013 (https://arxiv.org/html/2606.05264#bib.bib24))。为了估计 τc,tτc,t，我们根据特征周期 PP（数据集特定的周期见附录 A (https://arxiv.org/html/2606.05264#A1)，表 5 (https://arxiv.org/html/2606.05264#A1.T5)）对齐观测值，并对共享相同相位的值取平均。对于由 ss 索引的真实序列，这产生一个相位模板

τ(s)c(p)=1|Ip|∑t∈Ipy(s)c,t,Ip={t∣tmodP=p},τc(s)(p)=1|Ip|∑t∈Ipyc,t(s),Ip={t∣tmodP=p},(2)这里，p∈{0,...,P−1}p∈{0,...,P−1} 索引长度为 PP 的周期内的相位，tt 索引离散时间步，y(s)c,tyc,t(s) 是样本 ss 中协变量 cc 在时间 tt 的归一化观测值，IpIp 是所有被分配到相位 pp 的时间索引的集合。残差随后定义为

r(s)c,t=y(s)c,t−τ(s)c(tmodP)。rc,t(s)=yc,t(s)−τc(s)(tmodP)。(3)
这种分解的动机是，许多现实世界的时间系统包含一个强周期成分，其幅度和相位相对稳定，即使短期波动仍然高度随机。为了仅保留有结构意义的模板，我们根据周期性成分解释的信号方差分数（VE）对每个分解进行评分，

VE(s)c=1−Var(r(s)c)Var(y(s)c)。VEc(s)=1−Var(rc(s))Var(yc(s))。(4)高分的分解为每个协变量定义一个代表性模板库，以及经验幅度统计特征，描述周期性成分在真实样本中的表现强度。我们在基于 VE 过滤后的样本构建的过滤平均信号上拟合残差模型，

y¯c,t=1|Sc|∑s∈Scy(s)c,t,Sc={s∣VE(s)c≥η},y¯c,t=1|Sc|∑s∈Scyc,t(s),Sc={s∣VEc(s)≥η},(5)其中 ηη 是 VE 阈值。然后我们使用相同的相位平均过程计算该过滤平均信号的周期性模板，

τ¯c(p)=1|Ip|∑t∈Ipy¯c,t,τ¯c(p)=1|Ip|∑t∈Ipy¯c,t,(6)并定义平均残差为

r¯c,t=y¯c,t−τ¯c(tmodP)。r¯c,t=y¯c,t−τ¯c(tmodP)。(7)虽然平均

REGEN: 面向预测的参考引导型多元时间序列合成生成

相似文章

SurF：面向多元不规则时间序列预测的生成模型

GenRecon：结合生成先验的多视图3D场景重建

VGenST-Bench：通过主动视频合成进行时空推理的基准测试

ReDiTT: 面向异步时间序列的检索增强条件扩散Transformer

面向数据稀缺时间序列的统一生成模型：结合领域专家

提交意见反馈