迈向连续时间因果基础模型

arXiv cs.LG 2026/05/29 04:00 论文

摘要

提出了一个连续性准则，用于将离散时间因果先验数据拟合网络扩展到连续时间，利用随机微分方程（SDE）。引入了分类体系和细网格积分方法，在不规则观测时间表上优于朴素积分方法。

arXiv:2605.28880v1 公告类型: 新摘要: 将用于时间序列的离散时间因果先验数据拟合网络扩展到连续时间，需要将机制写成随机微分方程（SDE）——但如果在每个观测间隔内只对方程积分一次，轨迹规律取决于观测时间，且先验仍然是披着SDE外衣的离散时间马尔可夫模型。我们提出了一个精确的连续性准则——轨迹规律对观测时间表的不变性——以及一个三层分类法（离散；朴素观测网格积分；带解耦观测的细网格积分），以及一个在随机DAG上实现最高层的构造，采用OU或小型MLP非线性漂移、不规则观测时间表以及硬/软/时变干预。一个 $2 \times 2$ 编码器 $\times$ 积分器消融实验，在线性和非线性先验上独立运行，发现细网格积分在8/8个单元格中优于朴素积分（符号一致性 $p < 1/256$），且随着评估网格细化差距增大；编码器轴在细积分时无效，但在朴素积分时是时间感知主导的。我们发布了先验以及一个针对药代动力学和物理系统数据的初步零样本协议。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:12

# 迈向连续时间因果基础模型

来源：https://arxiv.org/html/2605.28880

###### 摘要

将时间序列的离散时间因果先验数据拟合网络（Prior-data Fitted Networks, PFNs）扩展到连续时间，需要将机制写为随机微分方程（SDE）——但如果 SDE 在每个观测间隔内仅积分一次，轨迹分布依赖于观测时间，那么先验本质上仍然是穿着 SDE 外衣的离散时间马尔可夫模型。我们提出了一个精确的连续性判据——轨迹分布对观测时间安排的不变性——同时给出一个三层分类（离散型；朴素观测网格积分型；细网格积分与解耦观测型），并实现了一个达到最高层构造：基于随机有向无环图（DAG）的 Ornstein-Uhlenbeck（OU）或小型多层感知机（MLP）非线性漂移，不规则观测时间安排，以及硬/软/时变干预。一个 2×2 编码器×积分器消融实验，在线性先验和非线性先验上独立运行，发现细网格积分在所有 8/8 个单元格上优于朴素积分（符号一致性 p<1/256），且差距随评估网格细化而增大；在细积分下编码器维度无显著差异，但在朴素积分下时间感知编码器更优。我们发布[1]https://github.com/thummd/continuous-time-causal-pfn 先验和初步的零样本协议，应用于药代动力学和物理系统数据。

因果推断, 先验数据拟合网络, 时间序列, 随机微分方程, 基础模型

## 1 引言

先验数据拟合网络（PFNs）(Müller et al., 2022; Hollmann et al., 2023; Nagler, 2023) 在从分析数据生成先验中采样的数据集上预训练一个变换器，然后在测试时进行上下文推断。在因果设置中，Do-PFN (Robertson et al., 2025) 和 CausalFM (Ma et al., 2026) 通过训练合成结构因果模型（SCMs）(Pearl, 2009)，将该方法推广到了表格数据的干预预测。最近的工作通过采样具有滞后有向无环图（DAG）、非线性自回归机制和多种干预类型的时间 SCM（TSCM），将因果 PFNs 扩展到多元时间序列 (Thumm and Chen, 2026)。

现有的时间因果先验 (Thumm and Chen, 2026) 是离散时间的：生成过程在规则的整数网格上步进，滞后结构是由整数偏移索引的邻接矩阵堆栈。一个自然的回应是将机制重写为随机微分方程（SDE），并让它在观测之间运行。但关键在于积分：如果 SDE 在每个观测间隔内仅步进一次（在观测网格上的欧拉-丸山法，EM），那么轨迹的联合分布就依赖于观测时间，先验本质上仍然是穿着 SDE 外衣的离散时间马尔可夫模型。推动连续时间的目标领域——在临床选定时间采样的药代动力学浓度 (Boeckmann et al., 1994)、具有可变延迟事件的物理系统如因果室 (Gamella et al., 2024)、以及具有随机缺失和非随机缺失间隔的电子健康记录 (Che et al., 2018; Rubanova et al., 2019)——是时间安排异质的，需要更多。本文退一步，提出因果 PFN 先验必须满足什么条件才能被称为连续时间。我们的贡献是：

1. **连续时间因果先验的精确判据**（第 3.1 节）：采样轨迹的联合分布必须对观测时间安排不变。我们给出一个三层分类——离散型（\(\Delta t \equiv 1\)）、朴素观测网格积分型、以及细网格积分与解耦观测型——使该判据可操作化。
2. **一个达到最高层的构造**（第 3.2 节）：在随机 DAG 上，带有可选隐藏混杂和马尔可夫状态切换的 OU 或小型 MLP 非线性漂移，不规则观测时间安排，以及硬/软/时变干预，全部在细网格上积分并子采样到观测时间安排。
3. **一个实证 2×2 编码器×积分器消融实验**（第 4 节），在线性 OU 先验和非线性神经漂移先验上独立运行（4 个单元格×2 个先验×单一种子×1 万步）。在两种先验的三个评估离散化上，每个编码器单元格的 (B) 对 (C) 差距均为正（表1–2，8/8；在无效应零假设下符号一致性 p<1/256）。该领先在匹配朴素变体训练时间和子步层级的评估上最小，当评估移到更细的子步时增大。在细积分下编码器维度无显著差异；在朴素积分下时间感知编码器在两种先验中均领先——这与细积分使数据生成过程近似时间安排不变并消除了显式时间间隔特征的需求一致。真实数据迁移（茶碱、华法林、因果室）是初步的，推迟到附录 C；正文主要在可以清晰测量的合成数据上论证连续性的情况。

## 2 背景与相关工作

#### 因果 PFNs。
Do-PFN (Robertson et al., 2025) 和 CausalFM (Ma et al., 2026) 在 SCM 上预训练变换器，并在独立同分布（i.i.d.）表格数据的上下文中估计条件干预分布。它们不处理时间依赖性。

#### 时间干预先验。
只有少数生成器产生成对的（观测，干预）时间序列数据：CAnDOIT (Castri et al., 2024) 限制为已知目标的硬干预；TECDI/RealTCD (Li et al., 2023, 2024) 在线性结构向量自回归（SVAR）模型中处理软或硬干预；CaTSG (Xia and others, 2025) 用学习到的扩散模型近似 do-演算。最新的 CausalTimePrior 框架 (Thumm and Chen, 2026) 采样具有硬、软和时变干预的非线性自回归 TSCM——但如同上述所有工作，都是在离散时间网格上。我们直接建立在其滞后 DAG 表述 (Boeken and Mooij, 2024) 之上，并用连续时间类比替换机制和时间安排。

#### 连续时间动态机器学习和 SDE 因果关系。
神经 ODE (Chen et al., 2018)、神经 SDE (Kidger et al., 2021) 以及用于不规则序列的潜 ODE 模型 (Rubanova et al., 2019) 表明，连续时间参数化可以在不规则数据上匹配或超越离散参数化。不规则时间注意力 (Shukla and Marlin, 2021; Tashiro et al., 2021) 和时间序列基础模型 (Dooley et al., 2023; Taga et al., 2025; Moroshan et al., 2025; Xie et al., 2025) 摄入连续时间戳，但据我们所知，没有一个目标是干预性上下文预测。与我们的基于 SDE 的先验最接近的是 Lorch 等人 (2024) 学习了一个单 SDE，其平稳分布捕获了干预行为，放弃了无环性。我们的目标则是在一个分析指定的 SDE 驱动的 TSCM 族上采样，以便变换器能够在该族上摊销因果推断；这两种方法是互补的。

## 3 方法

### 3.1 什么使因果先验成为连续时间？

令 \(\mathcal{P}\) 为一个 (TSCM, 轨迹) 对的先验，并令 \(\mathcal{P}_\tau\) 表示在时间安排 \(\tau = (t_1 < t_2 < \dots < t_T)\) 下观测的分布。我们说 \(\mathcal{P}\) 是 **连续时间因果先验**，如果对于任何两个有限时间安排 \(\tau, \tau'\)，有

\[
\mathcal{P}_\tau(\cdot) \stackrel{d}{=} \mathcal{P}_{\tau'}(\cdot) \quad \text{在对齐时间上边缘化后}。
\]

**三层分类。** 让 \(h\) 表示轨迹生成过程的“自然”步长（例如，SDE 求解器的内部子步），并让 \(\Delta_i = t_{i+1} - t_i\) 为观测间隔。我们区分：

* **(A) 离散:** \(h \equiv 1\)，观测在整数时间：\(\Delta_i = 1\)。这是先前工作的层级 (Thumm and Chen, 2026)。
* **(B) 朴素观测网格积分:** \(h = \Delta_i\)；求解器在每个观测间隔内正好步进一次。分布随 \(\tau\) 变化，因为它依赖于观测者选择何时查看。
* **(C) 细网格积分与解耦观测:** \(h \ll \min_i \Delta_i\)；SDE 在一个独立于观测时间安排的公共细网格上积分；观测只是子采样。对于任何 \(\tau\)，\(\mathcal{P}_\tau\) 现在近似等于公共细网格轨迹的分布（仅受数值积分误差的限制）。在极限 \(h \to 0\) 下，这不依赖于 \(\tau\)，满足我们的判据。

消融实验（第 4 节）比较了 (B) 与 (C)。

### 3.2 构造

遵循 CausalTimePrior 的 DAG 采样 (Thumm and Chen, 2026; Boeken and Mooij, 2024)，我们从具有参数 \(\alpha \in (0,1)\) 的 Erdos–Rényi 图中采样一个滞后 DAG，并随机指定边权重，然后随机选择一个干预目标。我们通过微分方程连接父节点和子节点。

#### 连续时间机制。
对于变量 \(v\)，漂移采用线性 OU 形式或带有小 MLP 非线性项的和。

**线性（OU）** 漂移具有均值回复和父节点混合：

\[
dX_v = \left( -\theta_v X_v + \sum_{u \in \text{pa}(v)} w_{vu} X_u \right) dt + \sigma_v dW_v, \tag{1}
\]

其中 \(\theta_v > 0\), \(\sigma_v > 0\)，以及 \(w_{vu} \sim \mathcal{N}(0, \sigma_w^2)\) 每个 TSCM 采样一次。当 \(\Delta t \equiv 1\) 时，这简化为离散时间因果先验使用的 AR(1) 机制 (Thumm and Chen, 2026)。OU 允许在任意两个时间之间存在精确的高斯转移核，因此线性先验的朴素对细比较应解读为 EM 对比 EM 而非 EM 对比精确；我们统一对所有漂移族使用 EM，因为神经漂移没有封闭形式。

**神经** 漂移将线性父节点和替换为一个小型随机初始化的两层 \(\tanh\) MLP \(g_v\)，其输入为 \(\mathbf{z}_v = [X_v, X_{u_1}, \ldots, X_{u_k}]\)：

\[
dX_v = \bigl( -\theta_v X_v + s_v \, g_v(\mathbf{z}_v) \bigr) \, dt + \sigma_v \, dW_v, \tag{2}
\]

其中 \(g_v(\mathbf{z}) = \tanh\!\bigl( W_2 \tanh(W_1 \mathbf{z} + b_1) + b_2 \bigr)\) 且 \(s_v > 0\)。我们在 MLP 外部保留 \(-\theta_v X_v\)，以便任何权重抽取下的轨迹保持有界；外部的 \(\tanh\) 将非线性贡献限制在 \([-s_v, s_v]\)。每个轨迹以 Bernoulli(\(p_{\mathrm{neural}}\)) 硬币按变量抽取漂移族，因此单个训练轮次使 PFN 暴露于线性和非线性动态的混合。

#### 状态切换。
可选地，一部分训练轨迹从一个**连续时间状态切换** TSCM 中抽取：\(R\) 个独立的 OU 系统共享变量和观测时间安排，由一个粘性的 \(R \times R\) 行随机马尔可夫转移矩阵（\(P_{rr} \approx 0.9\)，期望状态持续约 10 个观测）协调，该矩阵的行从狄利克雷分布中采样。这使得先验能够表达药理学中观察到的那种结构断裂（例如，吸收相与消除相）以及物理系统中的类似情况。

#### 观测时间安排。
给定一个时间范围 \(H\) 和期望的观测间隔 \(\bar{\Delta}\)，我们从三种安排中采样一种：**规则**（\(t_i = i\bar{\Delta}\)），**抖动**（\(t_{i+1} - t_i = \bar{\Delta}(1 + \xi_i)\)，其中 \(\xi_i \sim \text{Uniform}[-\rho, \rho]\)），或**泊松**（\(t_{i+1} - t_i \sim \text{Exp}(1/\bar{\Delta})\)）。模型从未将时间安排作为输入；它只看到实际的时间戳。

#### 模拟（细网格积分）。
给定一个目标观测时间安排 \(\tau = (t_1, \ldots, t_T)\)，我们**不**在每个观测间隔内积分一次。相反，我们选择一个细步长 \(\Delta_{\mathrm{fine}} \ll \min_i \Delta_i^{\mathrm{obs}}\)，在并集网格 \([t_1, t_T] \cap \{ t_1 + k \Delta_{\mathrm{fine}} \}_{k \ge 0}\) 上通过欧拉-丸山法 (Kloeden and Platen, 1992) 积分 SDE，布朗增量在每个细步上重新采样，然后在 \(\tau\) 处子采样结果轨迹：

\[
X_v(t + \Delta_{\mathrm{fine}}) = X_v(t) + \mu_v(X(t)) \, \Delta_{\mathrm{fine}} + \sigma_v \sqrt{\Delta_{\mathrm{fine}}} \, Z,
\]

其中 \(Z \sim \mathcal{N}(0,1)\)，\(\mu_v\) 由 (1) 或 (2) 给出。设置 \(\Delta_{\mathrm{fine}} = \Delta_i^{\mathrm{obs}}\) 恢复朴素 (B) 层积分；设置 \(\Delta_{\mathrm{fine}} = 1\) 且采用规则单位间隔安排恢复 (A) 层。第 4 节的连续性消融实验改变这个单一旋钮。

#### 干预。
对于每个样本，我们抽取一个目标 \(i^\star\)，一个持续时间在时间范围 10% 到 30% 之间的窗口 \([t_{\mathrm{int}}^{\mathrm{start}}, t_{\mathrm{int}}^{\mathrm{end}})\)，以及一个干预类别 \(\in \{\text{硬}, \text{软}, \text{时变}\}\)：

* **(硬)** \(X_{i^\star}(t) := c\)，
* **(软)** \(\mu_{i^\star}(X) \mapsto \mu_{i^\star}(X) + \delta\)，
* **(时变)** \(X_{i^\star}(t) := c(t)\)，

在窗口内有效。硬干预值可选地裁剪到 \([\mu_{i^\star} - 3\sigma_{i^\star}, \mu_{i^\star} + 3\sigma_{i^\star}]\)，以使干预保持在目标变量的观测工作范围内——类似于因果**正性**（重叠）假设 (Hernán and Robins, 2020)。先验通过跨运行重用相同的维纳噪声，返回成对的反事实和干预轨迹（参见 Pearl 2009，第三层级）。

### 3.3 \(\Delta t\) 感知的 PFN 编码器

我们基于一个因果变换器编码器，操作于预干预窗口 (Thumm and Chen, 2026)。我们不再使用学习的整数位置嵌入，而是替换为连续时间的傅里叶嵌入：

\[
\phi(t) = W_\phi \bigl[ \sin(2\pi f_k t), \, \cos(2\pi f_k t) \bigr]_{k=1}^K, \tag{3}
\]

其中几何频率库 \(f_k \in [f_{\min}, f_{\max}]\)（默认值 0.01, 10）和一个可学习的投影 \(W_\phi\)。时间以干预开始为参考：\(t \leftarrow t - t_{\mathrm{int}}^{\mathrm{start}}\)，观测间隔 \(\Delta t_i\) 经过 \(\log(1 + \Delta t_i)\) 变换后用相同的族嵌入，以将分辨率集中在小区间上。编码器其他部分与离散基线相同，从而实现受控消融。在推理时，我们输入 \((X_{\mathrm{obs}}, t_{\mathrm{obs}}, \text{干预规格}, t_{\mathrm{query}})\)，模型预测在干预下 \(Y\) 在 \(t_{\mathrm{query}}\) 处的高斯（或分位数）分布。

### 3.4 训练

先验在训练期间即时运行；每个批次抽取一个全新的 TSCM、时间安排和干预。我们使用分位数（分位数损失）或条形分布 (Thumm and Chen, 2026) 输出头；完整超参数和架构大小见附录 A。

## 4 实验

一个 2×2 编码器×积分器消融实验。

迈向连续时间因果基础模型

相似文章

评估基础模型在时间序列预测中的运行可行性

非线性时间序列中的函数值因果影响

异步类别分布型时序差分学习的有限迭代理论

罕见事件因果路径的形式化与可证伪性

TTCD：基于Transformer的非平稳时间序列数据集成时序因果发现

提交意见反馈