TS-Fault:针对结构性故障的时间序列预测器基准测试
摘要
本文介绍了TS-Fault,这是一个用于评估时间序列预测模型在结构化故障场景(如依赖关系断裂和机制变化)下的基准测试。研究发现,干净数据上的准确性通常与鲁棒性呈负相关,且基础模型特别脆弱。
arXiv:2606.18539v1 公告类型:新
摘要:时间序列预测(TSF)支撑着能源、交通、金融和医疗等领域的关键决策,然而,TSF模型的排名几乎总是基于干净保留数据上的单一数字(如平均误差),隐含假设是它能预测部署后的可靠性。然而,实际故障并非独立同分布的噪声,而是具有时间形状的结构化事件、交叉变量依赖关系断裂、伴随缺失的机制变化,以及跨传感管道的因果传播。将TSF鲁棒性视为数据质量问题,我们提出了TS-Fault,这是一个在具有可控语义难度的显式、参数化故障场景下评估预测模型的基准。TS-Fault将重复出现的故障沿两个正交轴(观测级 vs 机制级;单变量 vs 多变量)组织为四种模式,并通过统一的显著性分数将每种故障注入预测最关键的时间窗口。这种设计使得鲁棒性测试能够针对模型实际依赖的结构进行,而不是简化为一般性噪声敏感性。我们在成对干净/损坏协议下,评估了6个数据集、4种模式、5个难度级别下的21个模型。结果揭示了三个与常见排行榜直觉相悖的发现:(i)干净数据准确性与鲁棒性呈负相关;(ii)在观测级故障下干净排名得以保持,但在机制级故障下排名被重新洗牌;(iii)所有灾难性故障均发生在机制级故障下,基础模型在干净数据上达到最高准确性,但表现出最大的脆弱性。代码公开在 https://github.com/Ray-zyy/TS-Fault。
查看缓存全文
缓存时间: 2026/06/18 05:44
# 针对结构故障的时间序列预测器基准测试 ⊠通讯作者。来源:https://arxiv.org/html/2606.18539
###### 摘要
时间序列预测(TSF)支撑着能源、交通、金融和医疗等关键领域的决策,然而,TSF 模型几乎普遍是依据在干净保留数据上的单一数值(例如,平均误差)进行排名,其隐含假设是该数值能预测部署后的可靠性。但实际上,真实故障并非独立同分布噪声,而是具有时间形状的结构化事件、断裂的跨变量依赖关系、伴随数据缺失的状态转移,以及跨感知管道的因果传播。本文将 TSF 鲁棒性视为一个数据质量问题,提出了 TS-Fault 基准,该基准在显式、参数化且语义难度可控的故障场景下评估预测模型。TS-Fault 将重复出现的故障沿着两个正交轴(观测级 vs. 机制级;单变量 vs. 多变量)组织成四种模式,并通过统一的关重要性分数将每种故障注入到对预测最关键的窗口。这种设计使得鲁棒性能够针对模型实际依赖的结构进行测试,而非简化为通用噪声敏感性。我们在配对干净/损坏协议下,对 6 个数据集、4 种模式、5 个难度级别上的 21 个模型进行了评估。结果揭示了三个与常见排行榜直觉相悖的发现:
*(i)* 干净数据准确性与鲁棒性负相关;
*(ii)* 干净排名在观测级故障下得以保持,但在机制级故障下被打乱;
*(iii)* 所有灾难性失败均发生在机制级故障下,以基础模型在干净数据上获得最高准确性,却展现出最大的脆弱性。
代码公开在 https://github.com/Ray-zyy/TS-Fault。
## I. 引言
边缘计算和移动传感的普及产生了海量时间序列数据,这些数据被收集并存储在时序数据库系统 [34 (https://arxiv.org/html/2606.18539#bib.bib111), 80 (https://arxiv.org/html/2606.18539#bib.bib112)] 中,推动了各种实际应用 [71 (https://arxiv.org/html/2606.18539#bib.bib6), 85 (https://arxiv.org/html/2606.18539#bib.bib97)],例如时间序列预测 [59 (https://arxiv.org/html/2606.18539#bib.bib19)]。预测本身很少是最终目的。在能源调度 [30 (https://arxiv.org/html/2606.18539#bib.bib1), 56 (https://arxiv.org/html/2606.18539#bib.bib2)]、临床监测 [69 (https://arxiv.org/html/2606.18539#bib.bib4), 54 (https://arxiv.org/html/2606.18539#bib.bib5)]、金融风险控制 [66 (https://arxiv.org/html/2606.18539#bib.bib3)] 和交通管理 [71 (https://arxiv.org/html/2606.18539#bib.bib6)] 中,预测是后续关键下游动作的输入,其可靠性依赖于一个当前评估很少检验的假设:模型在评估期间表现出的误差能够代表其部署后产生的误差。
主流 TSF 评估已经固化这一假设。超过二十年来,长期 TSF 的进展是通过单一数值——即在干净、完整、均匀采样的保留序列上的平均 MSE/MAE 来衡量的,而后续的基准测试世代(M3/M4 [49 (https://arxiv.org/html/2606.18539#bib.bib12), 50 (https://arxiv.org/html/2606.18539#bib.bib13)]、Monash [24 (https://arxiv.org/html/2606.18539#bib.bib14)]、GIFT-Eval [1 (https://arxiv.org/html/2606.18539#bib.bib18)]、TFB [59 (https://arxiv.org/html/2606.18539#bib.bib19)])主要是在细化这个数值的测量方式,而不是质疑它是否反映了部署风险。简而言之,现有排行榜回答的是“哪个模型在干净数据上最准确?”,而部署问的是另一个问题:“在什么条件下,模型会失效,以及失效程度有多严重?”这两个问题并不等价,它们之间的差距大到足以颠覆模型选择决策。在我们的研究中,干净数据上误差第二低的模型在结构化故障下崩溃成性能最差的模型,而几个在干净数据上表现平平的模型却成为最鲁棒的。因此,按照当前普遍做法,依据干净数据上的 MSE 选择预测器,可能会系统性地偏向在部署中最脆弱的模型,而当前的评估范式无法提前揭示这一点。
这种差距之所以持续存在,部分原因在于现有的鲁棒性研究将故障建模为观测值上偏离名义值的偏差:加性高斯噪声、随机掩码 [13 (https://arxiv.org/html/2606.18539#bib.bib26), 19 (https://arxiv.org/html/2606.18539#bib.bib28)] 或 ε 有界对抗性扰动 [26 (https://arxiv.org/html/2606.18539#bib.bib104), 48 (https://arxiv.org/html/2606.18539#bib.bib67)]。这些偏差通常假设损坏在时间和变量上是独立的,且分布近似同质。因此,它们无法表达实际部署中占主导的故障。现实世界的故障常常违反这些假设。冻结的传感器不会产生白噪声;它会产生一个具有起始、峰值和衰减的事件,可能还会因缓冲流水线而在时间上发生位移。市场冲击会重写资产间的领先-滞后关系与增益结构,而非独立扰动每个资产 [20 (https://arxiv.org/html/2606.18539#bib.bib71)],即使每个序列单独看起来仍然合理。当电网进入紧急运行状态时,其监测会以状态依赖、块状结构的方式删除样本,且集中在关键转变附近,而非随机 [9 (https://arxiv.org/html/2606.18539#bib.bib7)]。上游传感器漂移会沿着因果依赖关系传播而非停留在局部,拖拽下游真实状态一同变化,导致二次观测故障。这些机制都无法被干净信号上的独立同分布扰动忠实地表示,无论方差或掩码率如何改变。因此,评估 TSF 可靠性应被视为一个涉及结构化脏数据的数据质量问题,而非对加性噪声的敏感性问题。
我们认为,弥合这一差距需要改变评估的对象,而不仅仅是增加更难的样本。我们提出了 TS-Fault,这是一个在显式、参数化故障场景而非仅干净测试输入下评估时间序列预测器的基准。每个场景指定了故障类型、发生位置、严重程度以及它破坏了哪些时间或跨变量结构。这使得故障本身成为评估的一级对象,使得模型退化能够依据命名的失效机制进行解释,而不仅仅是报告为总体错误增加。我们沿着两个正交轴将重复出现的真实故障组织成四种故障模式:故障是损坏观测(瞬态事件)还是改变数据生成机制(持续状态),以及它是作用于单序列还是跨变量结构。关键在于,每个故障并非注入到随机位置,而是通过统一的关重要性分数,注入到对预测最关键的窗口,这样基准就能着重于模型实际依赖的区域,而不是退化为随机扰动。
我们的主要贡献可总结如下:
- • **一个故障算子框架**(第三节 https://arxiv.org/html/2606.18539#S3),围绕显式故障场景、语义故障参数、可控难度级别、最差情况和平均风险度量,以及识别预测关键窗口的统一策略,重新构建 TSF 鲁棒性评估。
- • **四种参数化故障模式**(第四节 https://arxiv.org/html/2606.18539#S4),覆盖 2×2 分类体系,每种模式都有具体、有因果基础的构建和显式的难度分解:时间扭曲冲击(模式 I)、依赖断裂冲击(模式 II)、状态转移缺失(模式 III)和级联传感器到系统故障(模式 IV)。
- • **一个可重现的基准和大规模实证研究**,在配对干净/损坏协议下覆盖 21 个模型、6 个数据集、4 种模式和 5 个难度级别。结果揭示了三个挑战标准排行榜直觉的发现:(i)干净数据性能与鲁棒性负相关;(ii)故障影响在不同模式间存在尖锐分层;(iii)所有灾难性失败集中在机制级模式,预训练基础模型最准确但也最脆弱。
- • **一个预测鲁棒性的诊断视图**,将模型退化归因于特定故障机制和难度级别。TS-Fault 不是将鲁棒性视为通过/未通过的噪声测试,而是允许对预测器在结构化故障下何时、如何以及为何失败进行类似消融的分析。
## II. 相关工作
### II-A. TSF 基准与评估范式
几十年来,时间序列预测 (TSF) 一直通过基准测试协议进行评估,这些协议根据保留数据上的总体预测误差对模型进行排名,如表一 (https://arxiv.org/html/2606.18539#S2.T1) 所示。第一代(M3, M4 [49 (https://arxiv.org/html/2606.18539#bib.bib12), 50 (https://arxiv.org/html/2606.18539#bib.bib13)])建立了跨异构领域的准确性比较;第二代(Monash [24 (https://arxiv.org/html/2606.18539#bib.bib14)] 和 LTSF 套件 [84 (https://arxiv.org/html/2606.18539#bib.bib15)])标准化了跨域和长预测期多变量协议;第三代(GIFT-Eval [1 (https://arxiv.org/html/2606.18539#bib.bib18)]、TFB [59 (https://arxiv.org/html/2606.18539#bib.bib19)]、BasicTS+ [67 (https://arxiv.org/html/2606.18539#bib.bib65)])加强了保留数据的纪律性和比较的公平性;第四代(fev-bench [68 (https://arxiv.org/html/2606.18539#bib.bib20)]、TSFM-Bench [42 (https://arxiv.org/html/2606.18539#bib.bib21)]、ProbTS [82 (https://arxiv.org/html/2606.18539#bib.bib22)])则响应预训练预测器的出现,承认预训练数据泄露已无法可靠排除。
表格 I: TSF 基准的世代演变.
尽管有这些改进,评估仍然集中在干净保留数据上的平均 MSE 或 MAE。这个标量排名揭示了哪个模型准确,但无法揭示故障何时发生、严重程度如何或为何发生。相比之下,TS-Fault 在显式故障条件下评估模型,按故障模式和难度级别报告退化,并将每次退化归因于一个命名的、参数化的机制。
### II-B. 时间序列基础模型及其评估
随着时间序列基础模型 (TSFM) 的兴起,评估问题变得更加紧迫。在大规模异构语料库上训练 [35 (https://arxiv.org/html/2606.18539#bib.bib60), 29 (https://arxiv.org/html/2606.18539#bib.bib61)] 并零样本应用的模型,如 Chronos [4 (https://arxiv.org/html/2606.18539#bib.bib35)]、TimesFM [17 (https://arxiv.org/html/2606.18539#bib.bib36)] 和 Moirai [74 (https://arxiv.org/html/2606.18539#bib.bib37)],无需任务特定训练就能获得强大的干净数据准确性 [43 (https://arxiv.org/html/2606.18539#bib.bib23)]。然而,基础模型也使得评估复杂化。因为它们的预训练语料库庞大、仅部分可审计,并且常常与后来提供基准测试集的公共仓库重叠,因此强大的保留数据性能很难与记忆化或对基准数据的隐式暴露区分开来 [62 (https://arxiv.org/html/2606.18539#bib.bib42), 25 (https://arxiv.org/html/2606.18539#bib.bib44), 77 (https://arxiv.org/html/2606.18539#bib.bib41)]。现有的基准回应主要是加强保留数据协议、要求披露预训练语料库,或引入更仔细的数据集过滤。这些措施保护了干净分数的可解释性,但留下了一个先验的未解问题:当输入出现结构故障时,这些模型的行为如何。TS-Fault 通过在评估时从受控场景参数合成故障实例,直接解决了这个问题,即使记忆化了的干净序列也不能直接提供用于测试的结构化故障模式(第六节 D 部分 (https://arxiv.org/html/2606.18539#S6.SS4))。
见图说明
图 1: TS-Fault 流水线.
### II-C. 时间序列中的鲁棒性评估
时间序列中现有的鲁棒性研究可以沿着两个互补的轴组织:扰动是从分布中采样还是由显式算子构造,以及它是无结构的(在时间和变量上独立同分布)还是结构化的(具有时间形状、跨变量耦合或因果传播)。表二 (https://arxiv.org/html/2606.18539#S2.T2) 总结了这一图景。噪声和掩码假设时间步独立同分布,无法表达跨时间故障结构 [13 (https://arxiv.org/html/2606.18539#bib.bib26), 19 (https://arxiv.org/html/2606.18539#bib.bib28), 10 (https://arxiv.org/html/2606.18539#bib.bib30)];对抗性扰动是 ε 球内的数学对象,缺乏语义基础 [26 (https://arxiv.org/html/2606.18539#bib.bib104), 48 (https://arxiv.org/html/2606.18539#bib.bib67)];而分布偏移基准,尽管最接近我们的关注点,但仍然是观察性的——它们测量随时间间隙的退化,却无法进行反事实控制,以了解同一偏移在变得更严重时的行为 [79 (https://arxiv.org/html/2606.18539#bib.bib31), 21 (https://arxiv.org/html/2606.18539#bib.bib32), 39 (https://arxiv.org/html/2606.18539#bib.bib34)]。剩下的象限(构造的且结构化的)在 TSF 鲁棒性评估中尚未被充分探索。这与部署故障最为相关,在部署中,故障通常具有时空形态、跨变量依赖性、状态依赖性和传播效应。TS-Fault 通过引入显式的、基于场景的、具有可控难度的故障算子来填补这一空白。这遵循了损坏鲁棒性基准(如 ImageNet-C [27 (https://arxiv.org/html/2606.18539#bib.bib105)])的总体哲学,但将其适应于时间序列的独特结构,其中鲁棒性取决于故障如何在时间和变量上展开,而不仅仅是损坏强度。
表格 II: TSF 鲁棒性研究的四个象限.
## III. 故障算子框架
本节分四步发展一种替代干净准确性评估的方法。第三-A 节 (https://arxiv.org/html/2606.18539#S3.SS1) 定义了故障算子及其产生的结构化测试实例,以及关于它们的两种风险度量。第三-B 节 (https://arxiv.org/html/2606.18539#S3.SS2) 约束了哪些可以作为场景参数,并用难度映射对其进行分级。第三-C 节 (https://arxiv.org/html/2606.18539#S3.SS3) 将每个故障放置在模型实际依赖的窗口中。第三-D 节 (https://arxiv.org/html/2606.18539#S3.SS4) 将这些组件结合成一个可重现的生成器。图 1 (https://arxiv.org/html/2606.18539#S2.F1) 总结了由此产生的流水线。该流水线的主要思想是引入一个变换,基于显式且可解释的参数,将特定的故障机制注入到干净数据中。
### III-A. 结构化实例与风险度量
定义 1 (故障算子)。一个*故障算子*是一个映射 T_Θ: R^{L×C} → R^{L×C},由场景参数向量 Θ 参数化。将其应用于干净上下文 X,会产生一个损坏的测试实例。它通过对输入时间序列应用显式、语义化的损坏来产生结构化损坏实例。
(注:原文此处 Definition 1 后内容被截断?原文只有“Applied to a clean context XX, it produce”后面没有内容,按照上下文补充“产生一个损坏的测试实例”。但翻译中保持原文内容,只翻译已有部分。)
定义 1 (故障算子)。一个*故障算子*是一个映射 T_Θ: R^{L×C} → R^{L×C},由场景参数向量 Θ 参数化。应用于干净上下文 X,它产生相似文章
TSFMAudit: 时间序列基础模型预测中的数据污染审计
本文介绍了TSFMAudit,这是首个用于审计时间序列基础模型预训练数据污染的方法,通过探针适应动态来检测异常高效的微调,从而指示先前的数据暴露。
时间序列基础模型基准测试是否隐藏了依赖状态的失败?来自交通速度预测的证据
本文提出了面向时间序列基础模型的状态分层评估方法,揭示出聚合指标会掩盖交通状态转换期间的严重失败,并提出了双峰混合增强方法,在保持整体准确性的同时改善覆盖范围。
超越整体模型:深度多元时间序列预测的系统组件级基准测试
本文介绍了TSCOMP,一个大规模基准测试,系统地将深度多元时间序列预测方法分解为细粒度组件,以实现自动化模型选择,性能优于复杂的整体架构。
TailedTS: 用于重尾时间序列预测和周期量化的基准数据集
TailedTS是一个大规模基准数据集,源自维基百科每小时页面浏览量,旨在评估重尾和非高斯条件下的时间序列模型。它包含一个周期量化框架和使用鲁棒损失函数的标准化预测基准。
评估基础模型在时间序列预测中的运行可行性
本文对基础模型在时间序列预测中的应用进行了评估,与四种操作领域中的监督学习方法进行了比较,并提出了一种复杂性路由器,用于选择性地将序列分配给最优模型类别,以平衡准确性和推理成本。