HEPA：一种用于时间序列的自监督地平线条件化事件预测架构

arXiv cs.LG 2026/05/13 04:00 论文

time-series self-supervised-learning jePA anomaly-detection predictive-maintenance transformer arxiv

摘要

本文介绍了 HEPA，这是一种用于预测时间序列中罕见关键事件的自监督架构，采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比，它在多个领域均展现出卓越的性能，同时所需的标记数据和调整参数显著减少。

arXiv:2605.11130v1 公告类型：新文章摘要：多元时间序列中的关键事件——从涡轮机故障到心脏心律失常——需要准确的预测，但由于此类事件罕见且标注成本高昂，标记数据非常稀缺。我们提出了 HEPA（地平线条件化事件预测架构），其构建基于两个核心原则。首先，因果 Transformer 编码器通过联合嵌入预测架构 (JEPA) 进行预训练：地平线条件化预测器学习预测未来的表示而非未来的具体数值，从而迫使编码器仅从未标记数据中捕获可预测的时间动态。其次，我们冻结编码器并仅针对目标事件微调预测器，从而生成随预测地平线变化的单调生存累积分布函数 (CDF)。在所有基准测试中保持固定的架构和优化器超参数，HEPA 处理了水污染、网络攻击检测、波动率状态以及其他八个事件类型，涵盖 11 个领域。在至少 14 个基准中的 10 个上，HEPA 的表现优于包括 PatchTST、iTransformer、MAE 和 Chronos-2 在内的领先时间序列架构，其调整参数的数量减少了两个数量级，且在生命周期数据集上所需的标记数据也减少了一个数量级。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:30

# 用于时间序列的自监督水平条件事件预测架构

来源: https://arxiv.org/html/2605.11130

Jonas Petersen$^{1,2}$ Gian-Alessandro Lombardi$^2$ Riccardo Maggioni$^2$ Camilla Mazzoleni$^2$ Federico Martelli$^{1,2}$ Philipp Petersen$^3$

$^1$苏黎世联邦理工学院 (ETH Zurich)
$^2$Forgis
$^3$维也纳大学

通讯作者: [email protected]

###### 摘要

多元时间序列中的关键事件，从涡轮机故障到心脏心律失常，都需要准确的预测，但由于此类事件罕见且标注成本高昂，标签数据稀缺。我们引入了 HEPA（Horizon-conditioned Event Predictive Architecture，水平条件事件预测架构），其构建基于两个关键原则。首先，因果 Transformer 编码器通过联合嵌入预测架构（JEPA）进行预训练：一个水平条件预测器学习预测未来的*表示*而非未来的值，迫使编码器仅从无标签数据中捕捉可预测的时间动态。其次，我们冻结编码器并*仅微调预测器*以针对目标事件，从而在预测水平上产生单调的生存累积分布函数（CDF）。在所有基准测试中保持固定的架构和优化器超参数，HEPA 处理了水污染、网络攻击检测、波动率区间以及其他八个领域中的事件类型，在 14 个基准中的至少 10 个上超过了包括 PatchTST、iTransformer、MAE 和 Chronos-2 在内的领先时间序列架构，同时调整的参数数量减少了一个数量级，并且在生命周期数据集上使用的标注数据也减少了一个数量级。

## 1 引言

**图 1：一种标签高效、领域和事件无关的架构。**
(a) 14 个基准（涵盖 11 个领域）上的 h-AUROC（水平平均 AUROC，越高越好）。HEPA 在全标签情况下赢得 14 个基准中的 10 个；在 10% 标签（空心圆）情况下，它在生命周期数据集上保留了 $\ge 92\%$ 的全标签性能。
(b) 涡轮风扇退化（上图）和心脏心律失常（下图）的预测概率曲面 $p(t, \Delta t)$。

涡轮叶片在 12,000 飞行小时后出现裂纹。轴承在数周的振动数据中逐渐退化。卫星传感器在触发级联故障前 silently 漂移了 48 小时。这些事件在运营数据中虽然罕见，但它们遵循部分可预测的前兆动态 [25]：过热前温度逐渐上升，机械故障前振动幅度增大，航天器故障前传感器读数系统性偏离。多种机器学习方法试图从多元传感器流中预测此类事件。剩余使用寿命（RUL）模型 [10] 估计机器多久后会故障；异常检测器 [35, 14] 标记传感器读数何时出现异常。尽管针对这两类任务都存在通用架构，但两个社区却发展出了独立的基准、指标和评估协议：RUL 模型从未见过异常基准；异常检测器从未预测失效时间。然而，所有这些任务共享相同的结构：给定直到时间 $t$ 的观测值，估计每个预测水平 $\Delta t$ 下 $P(\text{event within } \Delta t)$ 的概率。这种结构的一致性表明可以分离关注点。*编码器*从无标签数据中学习时间动态，而无需知道下游哪个事件重要。*预测器*通过少量事件标签进行微调，将学到的动态专门化到相关事件上。

关键的设计选择是编码器在预训练期间应该预测什么。值预测方法，无论是监督式 [22] 还是在大型语料库上预训练 [1, 6]，都会围绕信号中的所有变化（包括与下游事件无关的噪声）来塑造表示。联合嵌入预测架构（JEPA）[2] 提供了一种替代方案：通过预测未来的*表示*而非未来的值，编码器学习一个保留未来可预测部分并丢弃不可预测部分的潜在空间。我们将这一原则应用于时间序列，即 HEPA（Horizon-conditioned Event Predictive Architecture）。因果 Transformer 编码直到时间 $t$ 的观测值；水平条件预测器将编码和水平 $\Delta t$ 映射到预测的未来表示，迫使编码器内化多个时间尺度上的动态（图 1）。在自监督预训练后，标准的 JEPA 方案会丢弃预测器并在冻结的编码器上训练线性探测层。而我们则保留预测器：冻结编码器，但连同输出离散时间生存 CDF 的轻量级事件头一起微调预测器，确保随着水平增长，预测的事件概率不会减小。这种“预测器微调”方案仅调整 198K 参数，比端到端训练少约 $11\times$，但由于预测器重塑其水平条件输出以对齐下游事件，因此比线性探测层更具表达能力。

我们的贡献包括：
1. **一种架构，适用于任何事件，任何领域。** 单一 2.16 M 参数架构，固定超参数，通过统一的概率曲面 $p(t, \Delta t)$ 在 11 个领域的 14 个基准上进行评估。HEPA 在 14 个基准中的 10 个上胜出，同时调整的参数比 PatchTST 少 $11\times$。
2. **预测器微调作为下游方案。** 冻结编码器并仅微调预测器和事件头，比端到端训练少调整 $11\times$ 参数。在 C-MAPSS 基准 [24] 上，退化过程持续数百个周期，HEPA 在仅使用 2% 标签的情况下保留了 92% 的全标签 h-AUROC。信息论界限（命题 1）形式化了这种机制何时及为何有效，且该界限的关键预测——即较低的预训练损失意味着更强的下游表现——与跨越 14 个数据集的经验趋势一致（图 3）。

## 2 相关工作

#### 时间序列的自监督学习。
时间序列表示学习的自监督学习（SSL）分为三类。对比方法，包括 TS2Vec [37]、TNC [28]、TimesURL [19]、CPC [30] 和 CoST [33]，通过对比正负对学习表示。掩码重建方法，如 PatchTST [22]、SimMTM [8] 和 TimesNet [34]，在输入空间中恢复被掩码的补丁。JEPA [2, 4] 采取不同的路径：预测未来的*表示*而非重建输入，避免将潜在空间绑定到值级别的保真度。对于时间序列，TS-JEPA [9] 应用时间掩码进行分类，MTS-JEPA [14] 添加码本正则化用于异常检测。所有这些方法在推理时都丢弃预训练头，仅探测编码器。HEPA 则保留预测器并将其微调至下游事件，将预测器视为冻结表示与事件概率之间的可学习桥梁。防崩溃机制遵循 LeJEPA / SIGReg 路线 [3]，而非 I-JEPA 的 EMA 调度。

#### 时间序列的基础模型。
Chronos-2 [1]、TFM-2.5 [6]、MOMENT [13]、Moirai [32] 和 UniTS [11] 在大规模语料库上进行预训练以进行通用值预测。生成式预训练 [21] 和 LLM 复用 [38] 提供了替代的迁移策略。这些方法针对未来的通道值；HEPA 针对事件概率。编码器规模适中且针对每个数据集进行预训练；跨领域迁移的是*方案*（架构 + 预测器微调），而非权重。我们将 HEPA 与这四个基础模型进行基准测试，使用相同的下游头以隔离编码器质量（第 5 节，附录 G）。

#### 预后、异常预测和生存建模。
C-MAPSS [24] 是标准的剩余使用寿命（RUL）基准，其中监督式最先进水平是 STAR [10]（均方根误差 RMSE 10.61）。用于 RUL 预测的自监督方法仍然有限 [7, 31]。异常检测方法如 Anomaly Transformer [35]、DCdetector [36] 和 TranAD [29] 报告点调整后的 F1 分数，该指标因通过单次检测给予整个片段信用而被证明会显著夸大分数 [15, 26]。这些特定领域的指标在不同任务间不可比。HEPA 的下游参数化建立在离散时间生存模型 [17, 12] 之上，这些模型将事件概率分解为组成生存 CDF 的每区间风险；我们将其适应于多水平事件预测设置。我们通过 h-AUROC 统一评估，即计算概率曲面上每水平 AUROC 值的均值，该指标无阈值且对类别不平衡具有鲁棒性（第 4 节）。特定领域的指标作为同一曲面的有损投影报告，以便与已发表的基线进行比较。

## 3 方法

### 3.1 架构与预训练

**图 2：HEPA 架构。**
两个阶段都在每一集的所有 $(t, \Delta t)$ 对上扫过。
*阶段 1：* 因果编码器 $f_\theta$ 将 $x_{\le t}$ 映射到 $h_t$；预测器 $g_\phi(h_t, \Delta t)$ 通过自监督 JEPA 目标预测未来表示。
*阶段 2：* 编码器冻结；预测器产生 $K$ 个水平特定的风险率 $\lambda_{\Delta t}$，组合成生存 CDF $p(t, \Delta t)$。

HEPA 由三个组件组成，它们跨越两个阶段相互作用（图 2）。*上下文编码器* $f_\theta$ 是一个因果 Transformer ($d=256$, 2 层, 4 头)，它将观测值 $x_{\le t}$ 映射到摘要嵌入 $h_t = f_\theta(x_{\le t}) \in \mathbb{R}^d$，其中观测值被分词为大小为 $P=16$ 的不重叠补丁（遵循 PatchTST [22]），并采用每上下文实例归一化 [16] 和正弦位置编码。*预测器* $g_\phi$ 是一个 2 层多层感知机（MLP），它接收编码器输出 $h_t$ 以及预测水平 $\Delta t$，并产生未来区间的预测嵌入：
$$ \hat{h}_{(t, t+\Delta t]} = g_\phi(h_t, \Delta t). \quad (1) $$
在预训练期间，$\Delta t$ 从 $[1, \Delta t_{\text{max}}]$ 上的对数均匀分布中采样，迫使编码器内化多个时间尺度上的动态。相同的编码器 $f_\theta$，双向应用于 $x_{(t, t+\Delta t]}$ 并采用注意力池化，产生*目标表示* $h^*_{(t, t+\Delta t]} \in \mathbb{R}^d$。两个编码器均通过优化器联合训练；预测器输出上的 SIGReg（Sketch Isotropic Gaussian Regularisation，素描各向同性高斯正则化）项 $L_{\text{SIG}}$ [3] 防止表示崩溃，替代了标准 JEPA 中使用的指数移动平均（EMA）动量调度（附录 I.3）。SIGReg 将预测的表示约束为各向同性高斯，Balestriero 和 LeCun [3] 证明这是联合嵌入架构中最小化下游预测风险的最优嵌入分布；这消除了无需启发式手段的崩溃。单一混合权重 $\alpha=0.1$ 控制其对总损失的贡献（附录 I.3）。

#### 与经典 JEPA 的关系。
HEPA 与 BYOL/I-JEPA/V-JEPA 风格的联合嵌入预测架构在两方面有所不同：(a) 目标编码器是 $f_\theta$ 的权重共享副本，而非 EMA 副本或停止梯度分支；(b) 崩溃由 SIGReg（预测器输出的各向同性高斯约束）防止，而非通过在线/目标不对称性。平凡崩溃 $\hat{H}=H^*=\text{const}$ 由 SIGReg *和* 不对称输入（在线分支的 $x_{\le t}$ 对比目标分支的 $x_{(t, t+\Delta t]}$）共同防止：预测器永远不会直接看到未来窗口。这使得 HEPA 更接近 LeJEPA / SIGReg 变体 [3]，而非原始的 I-JEPA 方案。

预训练损失结合了 L1 预测目标（选择 L1 而非 L2，因为 L1 在各样本间均匀分布梯度幅度，避免被异常预测主导）与 SIGReg 正则化项：
$$ L = (1-\alpha) \|\hat{h} - h^*\|_1 + \alpha L_{\text{SIG}}, \quad (2) $$
其中 $\alpha$ 平衡这两项。由于目标编码器与在线编码器共享权重，因此不需要停止梯度；两者均通过优化器接收梯度。不使用任何标签。在单个 A10G GPU 上，每个数据集的预训练耗时不到一分钟，包含 14 个数据集、5 个种子在内的完整扫描在两小时内完成。每个数据集的预处理细节见附录 L。

### 3.2 下游：预测器微调

预训练后，我们冻结编码器 $f_\theta$ 并仅微调预测器 $g_\phi$ 以及一个轻量级线性事件头。这种“预测器微调”（pred-FT）方案调整 198K 参数，相比之下，端到端训练需要 2.16M 参数，而冻结线性探测层仅涉及 513 参数（注：原文此处截断，通常指线性头参数极少，但表达能力有限）。

HEPA：一种用于时间序列的自监督地平线条件化事件预测架构

相似文章

CF-JEPA：利用不对称编码器进行无掩码前向预测的时间序列表示学习

STST-JEPA: 浅层目标时空联合嵌入预测架构用于EEG自监督学习

我构建了Micro-JEPA：一个轻量级的JEPA（联合嵌入预测架构）Python实现

CGM-JEPA：通过预测性自监督预训练学习一致的连续血糖监测表征

@AbdelStark: 是时候让世界服下JEPA药丸了！awesome-jepa：一份精心整理的论文、模型、代码、数据集和学习资源列表……

提交意见反馈