SurF：面向多元不规则时间序列预测的生成模型

arXiv cs.LG 2026/05/15 04:00 论文

generative-model time-series irregular-sampling point-processes transformer forecasting

摘要

SurF 是一种生成模型，适用于多元不规则采样的时间序列。它利用时间重缩放定理将事件序列转化为独立同分布指数噪声，在多个真实世界基准测试中取得了最先进的结果。

arXiv:2605.14069v1 公告类型：新摘要：不规则采样的多元事件流对于生成建模来说仍然是一个顽固的难题：基于分词的方法在事件间隔时间相差多个数量级时失效，而神经时序点过程则受到窗口级数值积分的瓶颈限制。我们 (i) 提出了 SurF，一种生成模型，它利用时间重缩放定理（TRT）作为事件序列与独立同分布单位速率指数噪声之间的可学习双射，使得单个模型能够在异构事件流数据集上进行训练；(ii) 提出了三种高效的累积强度参数化方法，可扩展到长序列；(iii) 提出了基于 Transformer 的编码器用于多数据集预训练。在六个真实世界基准测试中，SurF 在地震、转推和淘宝数据集上取得了最佳报告的时间 RMSE，而在其余三个数据集上，其性能处于试验级噪声范围内，与最强的专门模型相当。在严格的留一法协议下，保留的检查点在 5/6 个数据集上击败了所有经典和神经自回归基线，并在亚马逊和地震数据集上击败了所有基线，这为异步事件流的基础模型迈出了初步的一步。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:26

# SurF：一种用于多元不规则时间序列预测的生成模型  
来源：https://arxiv.org/html/2605.14069  
Mohammad R. Rezaei  
多伦多大学计算机科学系  
向量研究所  
多伦多, 安大略省, 加拿大  
[email protected]  
&Tejas Balaji  
多伦多大学计算机科学系  
向量研究所  
多伦多, 安大略省, 加拿大  
[email protected]  
&Rahul G. Krishnan  
多伦多大学计算机科学系  
向量研究所  
多伦多, 安大略省, 加拿大  
[email protected]  

###### 摘要  
不规则采样的多元事件流对于生成建模仍然是一种顽固的困难模态：基于令牌化的方法在事件间间隔变化达几个数量级时失效，而神经时间点过程则受限于窗口级数值求积的瓶颈。我们（i）提出了 SurF，一种利用时间重标定定理（TRT）作为事件序列与独立同分布单位速率指数噪声之间的可学习双射的生成模型，使得单个模型能够在异构事件流数据集上训练；（ii）提出了三种高效的累积强度参数化方法，可扩展至长序列；（iii）提出了一种基于 Transformer 的编码器，用于多数据集预训练。在六个真实世界基准上，SurF 在 Earthquake、Retweet 和 Taobao 上实现了最佳报告的时间 RMSE，在其余三个基准上处于试验级噪声范围内，与最强的专家模型相当。在严格的留一法协议下，留出检查点在 5/6 数据集上击败了所有经典和神经自回归基线，并在 Amazon 和 Earthquake 上击败了所有基线，这是向异步事件流基础模型迈出的初步一步。

## 1 引言  
参照标题图 1：SurF 在联合强度空间中的加噪-去噪框架。一个具有两种反相关事件类型的二维点过程。（左）在原始时间跨度中，类型 A 的活动抑制类型 B，反之亦然。（右）经过 SurF 加噪过程 Fλ（定理1）后，轨迹在重标度轴 z 上坍缩为独立同分布的 Exp(1) 到达间隔；逆过程 Rλ 无损地恢复原始动力学。

规则采样的时间序列数据的生成模型，如 TimesFM（Das 等人，2024）、Chronos（Ansari 等人，2024）和 Lag-Llama（Rasul 等人，2024），共享一个关键假设：数据沿同步通道以固定速率到达。这阻止了它们应用于*不规则采样的多元事件流*，其中事件异步到达，流以不同频率更新，并且观测时机本身携带语义信息；当事件间间隔变化达几个数量级时，现有的令牌化方案也会失效。然而，这类数据出现在高风险领域：具有可变生命体征间隔的临床记录（Rubanova 等人，2019；Rezaei 等人，2022）、异步金融订单流（Bacry 等人，2015；Hawkes，2018）、事件驱动传感器测量（Shukla and Marlin，2021）以及协调的神经尖峰序列（Truccolo 等人，2005；Pillow 等人，2008）。这些数据的标准数学对象是*时间点过程*（TPP），它通过其条件强度 λ∗(t∣Ht) 来建模事件流；即给定历史 Ht 时在时间 t 的瞬时事件速率。其积分，累积强度 Λ∗(t)=∫0tλ∗(s∣Hs)ds，控制着下一次事件预期的等待时间。拟合一个 TPP 相当于选择 λ∗ 的参数化并从数据估计其参数。这个拟合问题中的一个反复出现的困难是评估：标准的回归诊断不适用于事件数据，并且由于每个过程都有自己的强度、时间尺度和形状，因此没有明显的参考分布来比较拟合的模型。在 2000 年代初，时间重标定定理（TRT）（Brown 等人，2002）解决了这个问题：如果拟合的 Λ 是正确的，那么重标度的间隔 Δzi=Λ(ti)−Λ(ti−1) 是独立同分布的 Exp(1)，因此 Q-Q 图或 Kolmogorov–Smirnov 统计量（Truccolo 等人，2005；Brown 等人，2002）就足以检验拟合优度。TRT 成为标准的*评估*工具。二十年后，神经 TPP 开始流行，作为利用神经网络表示灵活性进行事件流建模的一种手段。大多数神经 TPP 通过最大似然拟合，每一步都需要事件处的强度 λθ 及其在观测窗口上的积分 ∫0Tλθ(s)ds。强度优先的方法直接参数化 λθ，并通过数值求积近似积分，该成本随窗口增长，并在每个梯度步骤中累积。累积风险族（Omi 等人，2019b；Shchur 等人，2019）通过使用单调神经网络参数化 Λθ 并通过微分恢复 λθ 来避免这一点，将窗口积分塌缩为单个评估 Λθ(t)。我们的关键洞察是，这个累积风险族实际上只拟合了 TRT 的正向方向。SurF 将 Λ 视为双射，并在两个方向上都使用它，从而实现生成模型：Λθ 将事件序列映射到独立同分布的 Exp(1) 噪声（正向，用于训练），而 (Λθ)−1 将指数噪声映射回事件时间（反向，用于采样）。我们开发了三种累积强度参数化方法，两种产生闭式似然，第三种的成本与 T 无关，并且在所有六个基准上的经验误差低于梯度噪声下限（附录 H.3）。先前的神经 TPP 是按数据集训练的；连接事件流并对其似然求和。然而，这种方法可能导致学习不稳定，因为不同数据集的损失具有不相容的尺度。SurF 通过认识到我们可以使用单个共享的规范目标来学习多个事件流中的模式来解决这个问题，即 Λθ 在 K 个流上联合拟合优化了一个定义良好的单一目标，并将每个数据集推向 Exp(1)。由于所有序列都映射到同一个目标，共享的 (φθ,Λθ) 以通用方式累积事件流之间的相似性，使得相同的参数能够成功地对新的（未见过的）数据集进行零样本预测（第 3.2 节）。

**贡献。**  
(1) **TRT 作为显式双向流。** 先前的累积风险神经 TPP（Omi 等人，2019a；Shchur 等人，2019）在训练时隐式地调用 TRT。我们将两个方向都明确化，并记录了 Λθ（在 R+ 上光滑、严格递增）满足逆函数定理以产生光滑双射的条件（定理 2）；我们的贡献在于框架及其推论。  
(2) **强度函数的三种参数化。** 我们将 Λθ 参数化为一个单调神经网络，并通过自动微分恢复 λθ。MoE 和 CSB 是完全闭式的；GLQ 使用一个无约束的正值 MLP，配合固定的 O(Q) 每间隔规则，其成本与 T 无关，并且误差在实践中可忽略不计（附录 H.3）。  
(3) **跨数据集和零样本评估。** 在六个基准上，一个联合训练的 SurF 检查点在 Earthquake、Retweet 和 Taobao 上取得了最佳报告的时间 RMSE，在其余三个基准上处于试验级噪声范围内，与最强基线相当。在严格的留一法协议下，留出检查点在 5/6 数据集上击败了所有经典和神经自回归基线（仅在 StackOverflow 上失利）；据我们所知，这是首次报告的针对学习到的累积强度的留一法跨数据集评估，也是向异步事件流基础模型迈进的初步一步。

## 2 背景  
我们研究不规则采样多元事件流的生成建模和预测——具体来说，密度估计、下一事件预测以及从学习到的条件强度进行的多步展开。令 D={(ti,ki)}i=1N 表示 [0,T] 内 N 个事件的序列，其中 0 ≤ t1 < t2 < … < tN ≤ T，ki ∈ {1,…,K} 是类型标记，K 为类型数量。观测的历史直到时间 t 记为 Ht={(ti,ki): ti < t}。一个时间点过程（TPP）由条件强度 λ∗(t∣Ht) > 0 定义，并定义累积强度 Λ∗(t)=∫0tλ∗(s∣Hs)ds。变换后的时间 zi=Λ∗(ti) 形成一个单位速率泊松过程；等价地，间隔 Δzi=zi−zi−1 是独立同分布的 Exp(1)（附录 A）。该定理将*任何*时间点过程映射到相同的规范分布 Exp(1)，从而使得能够通过生成模型创建一个流。为了能够在学习后生成有效样本，我们需要能够学习反向方向，下一节将建立这一点。

## 3 SurF：时间点过程的生存流  
虽然定理 1 建立了将点过程映射到单位速率泊松参考的正向映射 t↦Λ∗(t) 的存在性，但仍有三个问题。首先，它不保证 Λ∗ 是*可逆的*，因此我们无法将噪声映射回事件时间；它没有建立逆映射的*光滑性*，而这对于基于梯度的训练是必需的；并且它没有提供在变量变换下评估似然所需的*雅可比*。我们提出以下定理，在 λ∗ 的温和正性条件下弥补了所有三个空白。这使我们能够将 TRT 从评估工具转变为可学习的流。

###### 定理 2（反向重标度和双射性）。假设 λ∗(⋅∣H⋅) 是连续的，并且对于所有 t ≥ 0 满足 λ∗(t∣Ht) ≥ λmin > 0。那么 Λ∗: R+ → R+ 是一个具有 C1 逆映射的 C1 双射；如果此外 λ∗ 是 Ck（k ≥ 0），那么 Λ∗ 和 (Λ∗)−1 都是 Ck+1。反过来，如果 {zi} 是单位速率泊松过程的一个实现，那么 {ti=(Λ∗)−1(zi)} 是具有条件强度 λ∗ 的原始点过程的一个实现，并且变量变换 t ↦ z 具有对角雅可比 det(∂z/∂t)=∏i=1Nλ∗(ti∣Hti) > 0。  
证明概要：(Λ∗)′ = λ∗ ≥ λmin > 0，因此 Λ∗ 严格递增且为 C1，并且 Λ∗(0)=0 且 Λ∗(t) ≥ λmin t → ∞；结合单调性，这给出了一个 C1 双射 R+ → R+，而反函数定理给出了一个 C1 逆映射。反向方向是定理 1 的逆否命题：重标度 Φ: {ti} ↦ {Λ∗(ti)} 将原始过程的分布推前到单位速率泊松，并且由于 Φ 的双射性，Φ−1 将单位速率泊松分布拉回到原始分布（附录 A）。  
定理 2 要求 λ∗(t∣Ht) ≥ λmin > 0。我们通过一个小的底层 λfloor > 0（可学习，默认 10−4；参见附录 A.1）从结构上强制执行这一点。这在每个事件间间隔中引入了一个大小为 τi·λfloor 的加性偏差，每序列上限为 T·λfloor（在所有六个基准上低于 NLL 噪声下限：在 λfloor=10−4 且归一化 T≤103 时 <0.1 nats 每序列），但对于具有死区时间（神经不应期、市场关闭）的过程可能很重要，附录 A.1 为此提供了一种可学习底层和显式掩码方案，可恢复双射性而不改变雅可比分解。  
这两个定理定义了互逆的映射，它们共同构成了 SurF 双射（图 1）。正向映射 Fλ(t)=Λ∗(t) 扭曲时间，使得高强度区域拉伸，低强度区域压缩，产生独立同分布的 Exp(1) 间隔。逆映射 Rλ(z)=(Λ∗)−1(z) 重建时间结构，可以通过求解 dt/dz=1/λ∗(t∣Ht) 且 t(0)=0 得到：高强度使时间缓慢前进（事件簇），低强度使时间快速前进（间隙）。与先前的累积风险神经 TPP（FullyNN（Omi 等人，2019a），对数正态混合（Shchur 等人，2019））的详细比较见附录 H.2。

### 3.1 训练目标：摊还的 SurF 损失  
为了学习 SurF 双射，我们*直接摊还累积强度*：一个神经网络学习 Λθ(Δt∣h)，并通过微分恢复瞬时强度。这反转了通常的流程——不是*先建模 λ 再积分*，而是*先建模 Λ 再微分*；从而得到了一个不涉及 [0,T] 上窗口级积分的最大似然目标。我们将 Λθ: R+ × Rd → R+ 参数化为 Δt=t−ti−1 的单调递增函数，并以

SurF：面向多元不规则时间序列预测的生成模型

相似文章

Surflo：具有全局状态的一致3D表面流模型

REGEN: 面向预测的参考引导型多元时间序列合成生成

LakeFM：面向水生生态系统的基础模型，使用不规则多变量多深度时间序列数据

面向数据稀缺时间序列的统一生成模型：结合领域专家

面向自回归动力系统预测的可扩展单步生成建模

提交意见反馈