面向数据稀缺时间序列的统一生成模型:结合领域专家

arXiv cs.LG 论文

摘要

介绍TimeMoDE,这是一个将扩散Transformer与混合专家模型相结合的框架,用于在数据稀缺条件下生成逼真的时间序列。该框架通过在多个领域的数据集上进行预训练,并利用领域提示来处理领域特定特征,同时结合扩散时间步信号实现自适应去噪。

arXiv:2606.15172v1 Announce Type: new 摘要:使用生成模型合成逼真的时间序列在实际场景中具有广泛的应用。尽管近期取得了进展,但大多数现有方法在训练时假设有充足的数据,这严重限制了它们在数据稀缺环境下的有效性。本文提出TimeMoDE,一个新颖的框架,将扩散Transformer与混合专家模型相结合,利用领域自适应性和扩散阶段感知能力,实现数据稀缺条件下的时间序列生成。该框架在大规模多领域数据集上进行预训练,提取领域无关的时间表示和领域特定信息,以利于微调时的泛化。我们提出领域提示(Domain Prompts)来条件化专家分配,用于区分不可区分的噪声令牌,减轻捕获跨数据集关系的局限性。此外,我们引入扩散时间步信号,使专家具备时间序列退化变化的感知能力,从而自适应地调整满足阶段依赖的去噪需求。大量实验表明,TimeMoDE在各种低数据设置下均优于现有方法。它为先进的时间序列少样本生成建立了一种创新范式。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:38

# 面向稀缺时间序列的统一生成模型:基于领域专家方法
来源: https://arxiv.org/html/2606.15172

###### 摘要

利用生成模型合成逼真的时间序列在现实场景中具有广泛应用。尽管近期取得了进展,但大多数现有方法都是在训练数据充足的假设下训练的,这严重限制了它们在数据稀缺场景中的有效性。本文提出TimeMoDE,一种新颖的框架,将扩散Transformer与专家混合相结合,以同时利用领域适应性和扩散阶段感知能力,在数据稀缺条件下生成时间序列。该框架在大型多领域数据集集合上进行预训练,以提取领域无关的时间表示和领域特定信息,从而在微调过程中提升泛化能力。我们提出领域提示,用于条件化专家分配以处理不可区分的噪声令牌,缓解了数据集间关系捕获的局限性。此外,我们融入扩散时间步信号,使专家能够感知时间序列退化变化,从而自适应调整阶段相关的去噪需求。大量实验表明,TimeMoDE在各种低数据设置下均优于现有方法。它为先进的时间序列少样本生成建立了创新范式。

时间序列分析,少样本生成

## 1 引言

时间序列数据广泛应用于各个领域,在众多应用中扮演关键角色。然而,在学术研究和工业领域,高质量时间序列的收集常受到隐私问题、样本有限和高获取成本的限制(Gonen等人,2025 (https://arxiv.org/html/2606.15172#bib.bib1))。根据缩放定律,训练数据不足可能导致下游任务的模型性能偏差(Wang等人,2025b (https://arxiv.org/html/2606.15172#bib.bib2))。

近年来,能够合成与原始数据分布高度接近的逼真时间序列的生成模型已成为一种有前景的解决方案(Yao等人,2025 (https://arxiv.org/html/2606.15172#bib.bib3))。特别是,去噪扩散概率模型已成为主流的生成范式(Yuan和Qiao,2024 (https://arxiv.org/html/2606.15172#bib.bib6))。尽管取得了进展,但大多数现有方法是在单一领域内训练数据充足的朴素假设下开发和评估的。因此,在数据稀缺的现实场景中,它们的性能可能受到限制(Gonen等人,2025 (https://arxiv.org/html/2606.15172#bib.bib1))。一种可行的方法是在大规模数据集上预训练通用模型,以获得多样化的时间表示,从而提升微调模型在下游任务上的泛化能力。基于这一思路,用于时间序列预测和分类的基础模型已受到越来越多的关注(Wang等人,2024 (https://arxiv.org/html/2606.15172#bib.bib7); Shi等人,2024 (https://arxiv.org/html/2606.15172#bib.bib8))。然而,跨领域时间序列生成的研究仍然相对有限(Gonen等人,2025 (https://arxiv.org/html/2606.15172#bib.bib1); Huang等人,2025 (https://arxiv.org/html/2606.15172#bib.bib9))。这一差距可能源于跨领域生成在扩散过程中无法访问现有记录的情况下合成多样化时间序列的内在要求,从以下两个角度带来了挑战。

**不可区分的噪声阻碍了有效的跨领域建模。**跨领域建模需要融入领域特定信息,以生成符合目标领域特征的时间序列。在预测任务中,来自多个源的时间序列输入表现出显著的领域间异质性,例如趋势和周期性(Wang等人,2024 (https://arxiv.org/html/2606.15172#bib.bib7))。相反,如图1 (https://arxiv.org/html/2606.15172#S1.F1) 所示,扩散过程中受噪声污染的时间序列失去了固有的领域特征,变得不可区分。这阻碍了模型推断目标域,从而导致合成的样本无法忠实地反映所需的领域特定模式。一种直接的方法是使用类别标签进行区分(Gonen等人,2025 (https://arxiv.org/html/2606.15172#bib.bib1))。然而,这种策略依赖于预定义类别的可用性,并且难以推广到未见过的领域。此外,类别标签的独热编码隐含地假设数据集之间相互独立,忽略了它们之间潜在的关系。另一种替代方案是利用自然语言描述来辨别数据源(Liu等人,2024 (https://arxiv.org/html/2606.15172#bib.bib10))。然而,模态差异阻碍了精确细微差别的保留,最终导致提示不完整且模糊(Huang等人,2025 (https://arxiv.org/html/2606.15172#bib.bib9))。

![参考标题图1](https://arxiv.org/html/2606.15172#S1.F1)
图1:跨领域生成带来的挑战。首先,多源时间序列(t=0)被破坏为不可区分的噪声(t=T),阻碍了领域识别。其次,异质时间序列表现出不同的退化,模糊了扩散时间步(t=t0)的语义信息。

**时间序列退化的变化模糊了扩散时间步的语义。**生成模型在扩散过程中具有阶段依赖的去噪需求。具体来说,早期阶段关注高层结构,而后期阶段强调细粒度细节的恢复(Cheng等人,2025a (https://arxiv.org/html/2606.15172#bib.bib13))。然而,在相同的噪声调度下,异质时间序列表现出不同的退化(Lee等人,2024 (https://arxiv.org/html/2606.15172#bib.bib24)),阻碍了模型从输入表示中精确推断当前阶段。如图1 (https://arxiv.org/html/2606.15172#S1.F1) 所示,在相同的扩散时间步下,股票时间序列逐渐被破坏,保留了大部分信息内容,而能源时间序列则被剧烈破坏,接近噪声状态。现有方法(Gonen等人,2025 (https://arxiv.org/html/2606.15172#bib.bib1); Huang等人,2025 (https://arxiv.org/html/2606.15172#bib.bib9))的单一化设计密集激活参数,对所有噪声时间序列进行统一处理,可能导致过度去噪破坏局部细节,或去噪不足产生无意义输出。

为了应对这些挑战,我们提出一种统一的生成框架,用于数据稀缺条件下基于领域专家的时间序列生成,即TimeMoDE。与为每个数据集单独训练并需要定制参数调优的传统模型不同,TimeMoDE在覆盖多个领域的大规模数据集集合上进行预训练,以学习泛化的时间表示和可迁移的领域知识,从而支持低数据场景下的有效微调。受最近专家混合在时间序列分析中取得的成就(Liu等人,2025 (https://arxiv.org/html/2606.15172#bib.bib11); Sun等人,2024 (https://arxiv.org/html/2606.15172#bib.bib12))启发,我们率先在基于扩散的框架中探索这种架构用于跨领域时间序列生成。考虑到噪声输入不可区分以及类别标签的局限性,我们提出领域提示和时间序列原型来条件化专家分配。通过训练,原型逐渐细化子空间基,以识别时间序列语义下由提示描述的源领域。在微调期间,未见过的样本可以自适应地选择与预训练期间表现出相似时间模式的序列相关的专家,从而促进潜在分布的估计。此外,我们将扩散时间步条件引入专家,以增强TimeMoDE的扩散阶段感知能力和表示能力。这使专家能够推断当前阶段并动态适应不同的去噪需求。通过联合设计路由机制和专家网络,TimeMoDE实现了针对领域内容和扩散阶段上下文的专业化处理。我们的贡献总结如下:

- **我们提出TimeMoDE**,一个开创性的通用时间序列生成模型,跨多个领域进行预训练,在数据稀缺情况下赋予泛化能力和微调性能。
- **我们开发了一种新颖的路由机制**,将不可区分的噪声分配给相关专家进行领域专业化处理。我们进一步增强专家对扩散时间步的感知,以灵活调整阶段依赖的去噪需求。
- **在多领域真实世界数据集上的大量实验**证明了TimeMoDE在各种数据稀缺场景下的优越性。实证结果和分析为未来研究提供了见解。

## 2 相关工作

### 2.1 时间序列生成

时间序列生成模型可分为三大范式。第一类基于生成对抗网络(Goodfellow等人,2014 (https://arxiv.org/html/2606.15172#bib.bib16); Yoon等人,2019 (https://arxiv.org/html/2606.15172#bib.bib4)),通过联合优化生成器和判别器来生成逼真的时间动态。第二类是基于变分自编码器的方法(Desai等人,2021 (https://arxiv.org/html/2606.15172#bib.bib5); Naiman等人,2024b (https://arxiv.org/html/2606.15172#bib.bib14)),利用特定解码器处理潜在时间表示。最近,DDPM在图像和自然语言中的有效性(Peebles和Xie,2023 (https://arxiv.org/html/2606.15172#bib.bib17); Fei等人,2024 (https://arxiv.org/html/2606.15172#bib.bib15))促进了其在时间序列生成中的发展(Li等人,2025 (https://arxiv.org/html/2606.15172#bib.bib21); Huang等人,2025 (https://arxiv.org/html/2606.15172#bib.bib9); Yao等人,2025 (https://arxiv.org/html/2606.15172#bib.bib3))。尽管取得了进展,但大多数现有方法是在单个领域内、在训练数据充足的朴素假设下设计的。受Gonen等人(2025 (https://arxiv.org/html/2606.15172#bib.bib1))强调低数据条件下生成可行性的启发,我们在本文中提出TimeMoDE来应对这一挑战。

### 2.2 时间序列基础模型

基础模型旨在通过在大规模数据集上预训练,实现泛化能力,并在不同任务上以最少微调获得优越性能(Bommasani,2021 (https://arxiv.org/html/2606.15172#bib.bib18))。一类工作探索将语言模型应用于时间序列以捕获序列依赖关系(Liu等人,2024 (https://arxiv.org/html/2606.15172#bib.bib10); Cheng等人,2025b (https://arxiv.org/html/2606.15172#bib.bib19))。另一类工作致力于设计定制架构来处理不同领域的异质时间序列(Das等人,2024 (https://arxiv.org/html/2606.15172#bib.bib23); Jiang等人,2025 (https://arxiv.org/html/2606.15172#bib.bib22))。最近,集成专家混合(稀疏激活子网络处理不同输入)的基础模型获得了广泛关注(Sun等人,2024 (https://arxiv.org/html/2606.15172#bib.bib12); Cheng等人,2025a (https://arxiv.org/html/2606.15172#bib.bib13))。Time-MoE(Shi等人,2024 (https://arxiv.org/html/2606.15172#bib.bib8))尝试通过MoE将参数规模扩展到数十亿,并获得改进的预测精度。Moirai-MoE(Liu等人,2025 (https://arxiv.org/html/2606.15172#bib.bib11))引入了新的门控函数以实现令牌级专业化。尽管在预测任务中取得了进展,但MoE在时间序列生成中的潜力仍未得到充分探索,主要受限于将专家分配给不可区分噪声的困难。未见数据集上的有限数据进一步加剧了这一问题。在这项工作中,我们提出领域提示和原型来自适应地分配领域专家,从而释放MoE在跨领域时间序列生成中的能力。

## 3 预备知识

### 3.1 问题陈述

令 D = {x^(i)}_(i=1)^M 表示一个包含 M 个样本的时间序列数据集。每个样本 x^(i) ∈ R^(H×C) 是一个多变量时间序列,来自未知分布 p_0(x),其中 H 是序列长度,C 表示通道数。在少样本设置中,M 通常很小,这使得生成模型难以从有限样本中估计 p_0(x)。这模拟了实践中遇到的数据稀缺场景。目标是从受限数据集 D 构建一个生成模型 p_θ(x),将高斯噪声映射到足够多的时间序列,使其逼近目标分布,即 p_θ(x) ≈ p_0(x)。

### 3.2 去噪扩散概率模型

扩散模型是一类生成模型,通过逐步逆转随机噪声过程来学习生成数据。在前向马尔可夫过程中,样本 x_0 ~ q(x) 在每一步 t 逐步被噪声破坏,最终成为标准高斯噪声 x_T ~ N(0, I):

q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I),  (1)

其中 t ∈ [1,T],β_t ∈ (0,1) 定义了噪声调度。逆向过程通过反向转换对样本进行去噪:

p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), Σ_θ(x_t, t)),  (2)

其中 μ_θ(·) 是可学习参数,Σ_θ(·) 固定为依赖于 β_t 的常数。逆向过程可以简化为训练一个噪声预测器 ε_θ 来参数化每一步 t 的 μ_θ(·)。参数 θ 通过最小化以下损失来优化:

L_DDPM(θ) = E_{x_0, ε, t} [λ(t) ||ε - ε_θ(x_t, t)||^2],  (3)

其中 λ(t) 是改变噪声尺度的权重。

![参考标题图2](https://arxiv.org/html/2606.15172#S2.F2)
图2:提出的TimeMoDE框架。TimeMoDE通过用精心设计的领域专家混合(MoDE)模块替换扩散Transformer中的传统MLP,实现了时间序列生成的领域适应性和扩散阶段感知。

## 4 方法论

在本节中,我们介绍TimeMoDE,一种新颖的框架,利用领域适应性和扩散阶段感知能力,在低数据设置下进行时间序列生成。我们首先描述架构设计,该设计将扩散Transformer(DiT)(Peebles和Xie,2023 (https://arxiv.org/html/2606.15172#bib.bib17))与成熟的领域专家混合模块相结合。然后,我们提出路由机制,该机制...

相似文章

解耦的Mixture-of-Experts用于参数化知识注入

arXiv cs.CL

Decoupled Mixture-of-Experts (DMoE) 提出了一种用于参数化知识注入的模块化架构,将专家和路由器从基础模型中解耦,以实现高效的自回归推理并缓解灾难性遗忘。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

MMDiff: 扩展扩散变换器以实现多模态生成

Hugging Face Daily Papers

MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。

扩散模型的时间差分学习

arXiv cs.LG

本文提出了一种用于扩散模型的时间差分(TD)学习目标,该目标在去噪轨迹上强制跨时间一致性。它将去噪重新表述为强化学习中的策略评估问题,展示了在样本质量(FID)上的显著改进,尤其适用于少步采样器。

LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG

LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。