TTCD：基于Transformer的非平稳时间序列数据集成时序因果发现

arXiv cs.LG 2026/05/12 04:00 论文

causal-discovery time-series transformer non-stationary machine-learning research

摘要

本文介绍了TTCD，这是一种新颖的框架，利用基于Transformer的特征学习和重建引导的信号蒸馏，从非平稳时间序列数据中进行时序因果发现。

arXiv:2605.08111v1 公告类型：新论文摘要：环境科学、流行病学和经济学等各个领域复杂时间序列数据的广泛可用性，要求具备强大的因果发现方法，能够在非平稳、非线性和噪声环境中识别复杂的同期和滞后关系。现有的基于约束的方法通常严重依赖条件独立性检验，这在数据样本有限和分布复杂时会退化，而基于评分的方法则强加严格的统计假设。最近的方法解决了诸如变点检测或分布偏移等特殊案例，但在提供统一解决方案方面存在困难。我们提出了Transformer集成时序因果发现（TTCD）框架，这是一种新颖的端到端方法，可以从非平稳时间序列中学习同期和滞后因果关系。TTCD引入了一个非平稳特征学习器，整合了时域和频域注意力机制以及动态非平稳性分析，并包含一个定制的因果结构学习器。关键创新在于重建引导的因果信号蒸馏，通过Transformer解码器的重建过程蒸馏必要的因果信号，从而在保留有意义依赖关系的同时减少噪声和虚假相关性。因果结构学习器在蒸馏后的重建信号上运行，以推断底层因果图，无需对噪声分布或数据生成过程施加限制性假设。在合成、基准和真实世界数据集上的实验表明，TTCD在准确性和与领域知识的一致性方面始终优于最先进的基线模型，证明了该方法在挑战性真实世界环境中进行因果发现的有效性。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:41

# TTCD：从非平稳时间序列数据中基于Transformer集成的时间因果发现
来源：https://arxiv.org/html/2605.08111
Omar Faruque 马里兰大学巴尔的摩分校信息系统系 美国马里兰州巴尔的摩 [email protected] & Sahara Ali 北德克萨斯大学数据科学系 美国德克萨斯州丹顿 [email protected] Xue Zheng 劳伦斯利弗莫尔国家实验室气候科学部 美国加利福尼亚州利弗莫尔 [email protected] & Jianwu Wang 马里兰大学巴尔的摩分校信息系统系 美国马里兰州巴尔的摩 [email protected]

###### 摘要

环境科学、流行病学和经济学等领域中复杂时间序列数据的广泛可用性，需要鲁棒的因果发现方法，以在非平稳、非线性和噪声环境中识别复杂的 contemporaneous（同期）和滞后关系。现有的基于约束的方法通常严重依赖条件独立性检验，这在数据样本有限和分布复杂时性能会下降，而基于评分的方法则强加严格的统计假设。近期的一些方法解决了变点检测或分布偏移等特殊情况，但难以提供统一的解决方案。我们提出了**Transformer集成时间因果发现（TTCD）框架**，这是一种新颖的端到端方法，能够从非平稳时间序列中学习同期和滞后因果关系的。TTCD引入了一个非平稳特征学习器，该学习器整合了时域和频域注意力机制以及动态非平稳性剖析，并配备了一个定制的因果结构学习器。一项关键创新是重建引导的因果信号蒸馏，通过Transformer解码器的重建过程来提炼本质因果信号，从而在保留有意义依赖关系的同时缓解噪声和虚假相关性。因果结构学习器在蒸馏后的重建信号上运行，以推断潜在因果图，无需对噪声分布或数据生成过程施加限制性假设。在合成、基准和真实世界数据集上的实验表明，TTCD在准确性和与领域知识的一致性方面始终优于最先进基线方法，证明了该方法在具有挑战性的真实世界背景下进行因果发现的有效性。

## 1 引言

由气候、金融、经济和医疗等自然系统生成的时间序列数据往往表现出非线性、非平稳性、不同类型的噪声以及自相关性（Runge et al., 2019a (https://arxiv.org/html/2605.08111#bib.bib142)）。这些复杂的特性为理解系统组件之间的依赖关系带来了重大挑战。简化这种复杂性的常见方法是有向无环图（DAGs）图形化表示数据生成模型，这是一种以高度可解释的方式表达复杂系统的便捷方法，同时也为底层过程提供了因果见解（Pearl, 2000 (https://arxiv.org/html/2605.08111#bib.bib146)）。系统的DAG表示在因果推理（Pearl, 1991 (https://arxiv.org/html/2605.08111#bib.bib143); Spirtes et al., 2000 (https://arxiv.org/html/2605.08111#bib.bib144)）、神经科学（Rajapakse and Zhou, 2007 (https://arxiv.org/html/2605.08111#bib.bib145)）、医学（Heckerman et al., 1992 (https://arxiv.org/html/2605.08111#bib.bib159)）、经济学（Appiah, 2018 (https://arxiv.org/html/2605.08111#bib.bib157); Sanford and Moosa, 2012 (https://arxiv.org/html/2605.08111#bib.bib156)）等不同应用中的决策和未来状况预测中发挥着至关重要的作用。然而，当针对不同人口子群的控制实验不切实际或不道德时，从观测时间序列数据中学习DAG是非常具有挑战性的（Spirtes et al., 2000 (https://arxiv.org/html/2605.08111#bib.bib144); Peters et al., 2017 (https://arxiv.org/html/2605.08111#bib.bib147)）。

基于约束和评分的方法论，已开发出多种用于从时间数据进行因果发现的最先进方法。基于约束的方法（Runge et al., 2019b (https://arxiv.org/html/2605.08111#bib.bib138); Runge, 2020 (https://arxiv.org/html/2605.08111#bib.bib139); Gerhardus and Runge, 2020 (https://arxiv.org/html/2605.08111#bib.bib151); Entner and Hoyer, 2010 (https://arxiv.org/html/2605.08111#bib.bib149); Huang et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib150)）通过统计检验学习条件独立性以构建DAG。然而，条件独立性检验（CIT）需要大量样本才能生成可靠的测试分数，且在处理复杂数据分布时往往力不从心，通常生成等价类而非精确的因果图（Shah and Peters, 2020 (https://arxiv.org/html/2605.08111#bib.bib148); Huang et al., 2018 (https://arxiv.org/html/2605.08111#bib.bib216); Glymour et al., 2019 (https://arxiv.org/html/2605.08111#bib.bib217)）。早期阶段的错误可能会受到后续阶段级联错误的影响，且多阶段的CIT可能导致错误的检测结果（Li et al., 2019 (https://arxiv.org/html/2605.08111#bib.bib215); Triantafillou and Tsamardinos, 2016 (https://arxiv.org/html/2605.08111#bib.bib214)）。

基于评分的因果发现方法使用评分函数对预测的因果图进行量化，并通过强制无环约束逐渐优化它（Glymour et al., 2019 (https://arxiv.org/html/2605.08111#bib.bib217); Huang et al., 2018 (https://arxiv.org/html/2605.08111#bib.bib216); Triantafillou and Tsamardinos, 2016 (https://arxiv.org/html/2605.08111#bib.bib214)）。通过评估整个图而不是应用顺序测试，它们缓解了误差传播和多阶段不一致性问题。然而，邻接矩阵的巨大组合搜索空间使得这种优化具有挑战性，并且通常需要额外的DAG约束。Zheng et al. (2018 (https://arxiv.org/html/2605.08111#bib.bib135))通过利用预测邻接矩阵的迹指数公式化无环约束，将这一组合问题转化为连续优化，从而实现基于梯度的优化。在此基础上，提出了几种基于神经网络的方法（Zheng et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib136); Sun et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib141); Pamfil et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib140); Yu et al., 2019 (https://arxiv.org/html/2605.08111#bib.bib126); Löwe et al., 2022 (https://arxiv.org/html/2605.08111#bib.bib218)）。但是，这些方法在小样本设置中由于噪声或虚假相关性常常面临过拟合问题，且大多数方法假设平稳性。最近，Transformer架构也被探索用于分析时间序列数据（Wen et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib219); Zeng et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib220); Kong et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib227)）。

从非平稳时间数据进行因果发现仍然是一个活跃的研究领域（Gong et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib228)），并且在基于约束（Ferdous et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib175); Zhi et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib222); Sadeghi et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib224)）和基于评分（Schäfer et al., 2017 (https://arxiv.org/html/2605.08111#bib.bib221); Liu and Kuang, 2023 (https://arxiv.org/html/2605.08111#bib.bib226); Mameche et al., 2025 (https://arxiv.org/html/2605.08111#bib.bib223); Roda et al., 2021 (https://arxiv.org/html/2605.08111#bib.bib225)）类别中已提出几种先进方法用于此任务。然而，这些方法旨在解决特定场景，如变点检测、数据分布偏移、条件平稳性、因果关系变化或摘要图。一些现有方法还需要噪声分布和数据生成的先验知识参数信息。因此，在本文中，我们提出了一种因果发现框架，该框架能够在不假设任何噪声或数据分布的情况下从非平稳时间数据中捕获因果结构。我们提出的框架将基于Transformer的非平稳特征学习者与自定义2D卷积相结合，以捕捉每个变量与其时间父变量之间的因果关系。本文的贡献有三方面：

- 我们提出了一种非平稳Transformer，使用时域和频域注意力以及非平稳剖析和非平稳特征学习，从时间序列数据中学习主导特征，从而对重要特征提供特定的注意力。
- 我们提出了一种基于卷积的因果结构学习器，从蒸馏信号中学习因果关系。该模块通过在优化过程中加入无环约束和稀疏性惩罚，能够同时识别滞后和同期因果链接。
- 我们使用合成和真实世界数据集，对提出的框架与最先进的因果发现方法以及消融研究进行了广泛评估。在大多数情况下，提出的框架表现优于最先进的方法，使其成为时间序列因果发现的有力竞争者。

## 2 相关工作

传统的统计因果发现方法并未设计用于处理非线性数据。虽然某些方法将传统因果发现方法扩展以处理非线性时间序列数据，例如PCMCI和PCMCI+（Runge et al., 2019b (https://arxiv.org/html/2605.08111#bib.bib138); Runge, 2020 (https://arxiv.org/html/2605.08111#bib.bib139); Bahadori and Liu, 2012 (https://arxiv.org/html/2605.08111#bib.bib183)），但一些方法利用神经网络进行这些扩展（Yu et al., 2019 (https://arxiv.org/html/2605.08111#bib.bib126); Tank et al., 2021 (https://arxiv.org/html/2605.08111#bib.bib131); Absar et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib119); Zheng et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib136); Pamfil et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib140); Sun et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib141)）。例如，DAG-GNN（Yu et al., 2019 (https://arxiv.org/html/2605.08111#bib.bib126)）利用神经网络和基于梯度的优化来识别因果结构。

最近的研究取得了进展，提出了适用于非平稳时间序列数据的因果发现技术，包括基于约束的方法（Huang et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib150); Sadeghi et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib224); Ferdous et al., 2023 (https://arxiv.org/html/2605.08111#bib.bib175); Zhi et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib222)）和基于评分的方法（Roda et al., 2021 (https://arxiv.org/html/2605.08111#bib.bib225); Schäfer et al., 2017 (https://arxiv.org/html/2605.08111#bib.bib221); Liu and Kuang, 2023 (https://arxiv.org/html/2605.08111#bib.bib226); Mameche et al., 2025 (https://arxiv.org/html/2605.08111#bib.bib223)）。来自非平稳数据的因果发现（CD-NOD）（Huang et al., 2020 (https://arxiv.org/html/2605.08111#bib.bib150)）是一个非参数框架，基于分布偏移从非平稳数据中识别因果关系。来自非平稳时间序列的因果发现（CD-NOTS）将CD-NOD扩展为使用CIT寻找滞后和即时因果链接（Sadeghi et al., 2024 (https://arxiv.org/html/2605.08111#bib.bib224)）。Ferdous et al. (2023 (https://arxiv.org/html/2605.08111#bib.bib175))提出了CDANs，通过考虑滞后父节点减少条件集，并利用变化模块检测因果边。Zhi et al. (2024 (https://arxiv.org/html/2605.08111#bib.bib222))引入了一种因果发现方法，该方法使用变点检测将时间序列划分为几个平稳区间，并对各个区间应用平稳方法。

基于评分的方法，状态依赖因果推断（SDCI）（Roda et al., 2021 (https://arxiv.org/html/2605.08111#bib.bib225)）假设非平稳系统的动态随不同状态而变化，并对每个状态进行条件化，应用概率深度学习方法学习因果图。Schäfer et al. (2017 (https://arxiv.org/html/2605.08111#bib.bib221))提出了一种方法，集成了时变自回归方法和广义部分定向相干（PDC），其中卡尔曼滤波用于预测PDC参数。潜在干预非平稳学习（LIN）（Liu and Kuang, 2023 (https://arxiv.org/html/2605.08111#bib.bib226)）方法假设数据包含观测样本和干预样本，使用神经网络和无环约束为每个类别学习因果图。SPACETIME（Mameche et al., 2025 (https://arxiv.org/html/2605.08111#bib.bib223)）方法同时考虑时间和空间的变化，利用高斯过程从多上下文数据中检测因果图。Fujiwara et al. (2023 (https://arxiv.org/html/2605.08111#bib.bib172))结合线性非高斯无环模型（LiNGAM）和Just-In-Time（JIT）框架，以识别非线性和非平稳数据中的因果关系。

虽然这些方法对非平稳时间序列因果发现领域做出了重大贡献，但仍存在几个挑战。基于约束的方法高度依赖条件独立性检验，容易受到误差传播的影响。此外，多阶段测试可能导致假阳性或假阴性的风险增加。尽管最近的用于非平稳时间数据的基于评分的因果发现方法在一定程度上缓解了这些问题，但它们处理的是特定挑战，如上下文变化、分布偏移、干预数据、条件和局部平稳性等。自然非平稳时间数据并非在所有情况下都符合这些标准。通过放宽对数据分布和数据生成机制的特定条件，我们提出的框架从自然时间数据中学习非平稳特征并生成有效的时间因果图。不同现有方法之间的比较见附录A (https://arxiv.org/html/2605.08111#A1)。

## 3 预备知识

考虑一个由$n$个变量组成的多元时间序列数据集$X=\{x^1, x^2, x^3, ..., x^n\}$，每个变量在$T$个时间步长上进行测量。在特定时间点$t \in T$，变量$x^i$（$i \in \{1, ..., n\}$）可能由同一时间步长（$t$）中的其他变量以及来自先前时间步长（$0$到$t-1$）的所有变量引起，这遵循时间优先假设（图1的输出因果图 (https://arxiv.org/html/2605.08111#S3.F1)）。来自先前时间步长的影响，也称为滞后效应，可以从无限早的时间点传播，但出于DAG学习目的，我们将考虑最大时间滞后，即$l_{max}$。

定义 1：考虑具有连续分布的时间序列$X_t = (X^i_t)_{i \in \{1, ..., n\}}$。如果存在$l_{max} > 0$且$\forall i \in n$，存在集合$PA_{x^i}_t \subseteq X^{n \setminus i}_t$，$PA_{x^i}_{0...t-1} \subseteq X_{0...t-1}$，结构方程模型为

$$X^i_t = f_i(PA_{x^i}_{t-l_{max}}, ..., PA_{x^i}_{t-1}, PA_{x^i}_t, e^i_t), \quad (1)$$

其中$e^i_t$为噪声项

TTCD：基于Transformer的非平稳时间序列数据集成时序因果发现

相似文章

异步类别分布型时序差分学习的有限迭代理论

MOSAIC：通过稀疏可加可识别因果学习在科学时间序列中进行模块发现

时衰减 Shapley：一种面向时间序列数据的时间感知数据估值框架

用于少步扩散蒸馏的连续时间分布匹配

RT-Transformer：将 Transformer Block 视为球面状态估计器

提交意见反馈