TailedTS: 用于重尾时间序列预测和周期量化的基准数据集
摘要
TailedTS是一个大规模基准数据集,源自维基百科每小时页面浏览量,旨在评估重尾和非高斯条件下的时间序列模型。它包含一个周期量化框架和使用鲁棒损失函数的标准化预测基准。
arXiv:2605.16361v1 公告类型:新
摘要:我们提出TailedTS,这是一个大规模基准数据集,源自2024年全年维基百科每小时页面浏览量观测数据,专门设计用于测试时间序列预测模型在重尾、零膨胀和非高斯条件下的表现。该数据集包含约246.9亿个数据点,每月涵盖约300万个独立维基百科页面,以高效的Apache Parquet格式存储。维基百科流量遵循明显的幂律分布,大约5%的页面占据了总浏览量的70%以上,这为模型应对极端波动性提供了自然且严格的测试平台,而现有基准(如M4、M5和UCI电力数据集)中缺乏或未充分体现这种波动性。TailedTS支持多项研究任务。首先,我们引入了一个基于稀疏自回归的周期量化框架,施加稀疏性和非负性约束,揭示了高频页面相比低频页面具有明显较弱的周期结构,这对大型数字平台的服务器分配和流量预测有直接影响。其次,我们提供了一系列非高斯损失函数下的标准化预测基准评估,包括$\ell_1$-范数、Huber、分位数和$\ell_p$-范数损失,证明基于高斯的标准估计器在高流量页面类别上性能大幅下降,而鲁棒替代方法在所有流量规模上均实现了一致的性能提升。TailedTS公开可获取于https://doi.org/10.5281/zenodo.17070469。
查看缓存全文
缓存时间: 2026/05/19 06:42
# TailedTS:用于重尾时间序列预测与周期性量化的基准数据集 **来源:** https://arxiv.org/html/2605.16361 Xinyu Chen 中佛罗里达大学,奥兰多,佛罗里达州 32816 [email protected] & HanQin Cai 中佛罗里达大学,奥兰多,佛罗里达州 32816 [email protected] Lijun Ding 加州大学圣地亚哥分校,拉霍亚,加利福尼亚州 92093 [email protected] & Jinhua Zhao 麻省理工学院,剑桥,马萨诸塞州 02139 [email protected] ###### 摘要 我们提出 TailedTS,这是一个从 2024 年全年 Wikipedia 每小时页面浏览量观测中衍生的、大规模基准数据集,专门用于测试时间序列预测模型在重尾、零膨胀和非高斯条件下的表现。该数据集包含约 246.9 亿个数据点,覆盖每月约 300 万个独立 Wikipedia 页面,以高效的 Apache Parquet 格式存储。Wikipedia 流量遵循明显的幂律分布:约 5% 的页面贡献了超过 70% 的页面浏览量,从而为模型的鲁棒性提供了一个自然且严格的测试平台,尤其是针对现有基准(如 M4、M5 和 UCI 电力数据集)中缺失或代表性不足的极端波动性。 TailedTS 支持多种研究任务。首先,我们引入了一个基于稀疏自回归(带稀疏性和非负性约束)的周期性量化框架,揭示了热门页面的周期结构明显弱于冷门页面,这对大型数字平台的服务器分配和流量预测具有直接启示。其次,我们提供了一套标准化的预测基准,使用一系列非高斯损失函数(包括 ℓ₁ 范数、Huber、分位数和 ℓₚ 范数损失)进行评估,结果表明标准的高斯估计在高流量页面类别上性能显著下降,而鲁棒替代方案在所有流量规模上均能带来一致增益。 TailedTS 公开获取地址:https://doi.org/10.5281/zenodo.17070469 ## 1 引言 重尾数据在现实应用中无处不在,涵盖从统计学到机器学习的多个领域 [1, 2, 3, 4]。在时间序列分析中,识别并预测此类数据中的模式至关重要且极具挑战性。传统的预测模型通常假设残差服从高斯分布,而经验数据集中的重尾行为常常违反这一假设。尽管现有的基准(如 M 竞赛 [5, 6] 或 UCI 电力数据集 [7])捕获了各种时间动态,但它们往往难以代表复杂人类兴趣模式中固有的极端事件驱动波动和高维稀疏性。 本文中,我们提出 **TailedTS**,这是一个用于重尾时间序列预测和周期性量化的基准数据集。基于 Wikipedia 页面浏览量观测,该数据集呈现明显的幂律分布:一小部分热门页面吸引了绝大部分全球关注。由于 Wikipedia 页面浏览量时间序列的幂律分布非常显著,因此需要寻找合适的机器学习模型来分析和预测这些重尾时间序列。 本文的贡献主要体现在三个方面: * **基准数据集**:我们提供了一个高维、重尾、零膨胀的时间序列数据集,使研究界能够针对非高斯残差和随机突发评估机器学习模型。TailedTS 数据集包含数百万个长时间段(即 2024 年全年的 8784 个每小时时间步长)的时间序列,涉及复杂的周期性模式和极端值。虽然大多数时间序列模型基于高斯残差假设,与重尾行为相悖,但 TailedTS 数据集允许研究界在重尾噪声情况下检验时间序列建模任务。 * **周期性量化**:我们利用带稀疏性和非负性约束的稀疏自回归,自动识别主导自相关性,例如日循环和周循环。我们的分析表明,热门 Wikipedia 页面的页面浏览量时间序列的周期性明显弱于冷门页面。在数字平台上,虽然热门 Wikipedia 页面是整个数据集的重尾部分,但预测它们未来的页面浏览量颇具挑战性。 * **鲁棒预测建模**:我们采用多种非高斯损失函数(包括 Huber 损失、分位数损失和 ℓₚ 范数损失)来评估自回归预测模型,以提高对重尾噪声和波动尖峰的抵抗能力。虽然通过机器学习模型提升时间序列预测性能有多种途径,但我们重点考察了损失函数的选择,并验证了使用这些损失函数对重尾时间序列进行非高斯残差建模的重要性。 通过将 TailedTS 与现有的气象基准相结合,研究人员可以更好地评估现代框架的可扩展性以及鲁棒损失函数在捕捉不规则、相互关联的人类兴趣模式方面的有效性。 ## 2 相关工作 ### 2.1 现有数据集 时间序列预测或预报模型的评估高度依赖于多样化的基准数据集,这些数据集捕捉了从季节模式到随机波动等各种时间动态。这些数据集展示了广泛的经验分布,并突出了真实世界时间序列数据的非高斯特性和不同尺度,通常以显著的偏斜和重尾行为为特征(见图 1 和 6)。然而,这些数据集并非幂律分布。 参考说明 (a) UCI 电力数据 [7] 参考说明 (b) SF 交通数据 [8] 参考说明 (c) 空气质量数据 [9] 参考说明 (d) 天气数据 [10] **图 1:** 时间序列数据集的对数-对数直方图。这些图展示了 (a) UCI 电力负荷曲线、(b) SF 交通占用率、(c) 空气质量指数和 (d) 气象天气变量的频率分布,两轴均采用对数刻度。这些图中观察到的近似线性衰减是重尾分布的特征指标。 在零售与经济领域,M 竞赛(如 M4 [5] 和 M5 [6])仍然是最具影响力的基准。M4 数据集包含大量跨多个频率的 100,000 个单变量序列 [5],为模型泛化能力提供了严格测试。源自 Walmart 的 M5 零售数据引入了层次复杂性和外生变量(如价格和促销)[6],将焦点转向间歇性需求预测和静态元数据的整合。 能源消耗与基础设施监测是时间序列研究的另一个关键支柱。UCI 电力负荷曲线和家庭用电数据集常用于在高频多变量数据上评估模型 [11, 7]。这些数据集通常表现出明显的日和周期周期性,但正如我们的对数-对数分析所示(见图 1),它们也包含偏离高斯假设的极端消费事件。同样,SF 交通占用率和太阳能数据集提供了时空挑战 [8],目标是在较长预测范围内捕捉数百个传感器或发电厂之间的相关性。 本文中,呈幂律分布的 Wikipedia 页面浏览量数据集显著补充了传统基准(如 M5 零售或 UCI 电力数据),因为它引入了独特尺度的高维稀疏性和极端的事件驱动波动性,这偏离了明确的周期性。如图 2(a) 中对数-对数幂律分布所示,Wikipedia 流量受长尾动态支配,极小部分热门页面吸引了绝大多数全球关注,为模型针对非高斯异常值和随机突发的鲁棒性提供了严格的压力测试。通过将此数据集与现有气象基准相结合,研究人员可以更好地评估 GPU 原生框架的可扩展性以及鲁棒损失函数(如 Huber 损失)在捕捉复杂、相互关联的人类兴趣模式方面的有效性,这些模式比交通或气候系统中的物理约束远为不规则。 ### 2.2 文献综述 为了将重尾时间序列分析所带来的评估挑战置于背景中,我们回顾了具有代表性的时间序列预测和鲁棒自回归估计建模方法。我们并非提供详尽的综述,而是关注那些隐含形成基准设计和评估实践的建模假设与损失函数。 #### 2.2.1 时间序列预测 时间序列预测是机器学习中的核心问题,其应用涵盖经济学、环境科学、工程学和自然科学。经典方法强调通过线性动态捕捉时间依赖性的参数化模型,例如自回归(AR)、移动平均(MA)和 ARIMA 模型。在平稳性和轻尾噪声假设下,这些模型允许高效估计并具有强理论保证 [12, 13]。 机器学习的最新进展扩展了建模版图。RNN 及其门控变体(如 LSTM 和 GRU)能够灵活建模非线性时间依赖性 [14, 15, 16]。时间卷积网络则基于因果卷积和扩张提供了另一种选择 [17, 18]。基于注意力的模型和 Transformer 变体进一步改进了长程依赖性建模,并在大规模基准上取得了强大的经验表现 [19, 20, 21]。最近,LLM 被重新编程用于时间序列预测,通过将数值序列转换为基于提示的表示,实现了一系列基准设置中的零样本和少样本预测 [22, 23, 24]。 尽管模型种类繁多,但时间序列预测器——从经典方法到深度学习和基于 LLM 的方法——通常使用均方误差或基于似然的目标进行评估,这些目标强调平均情况性能,并隐含地偏好表现良好的噪声分布。 #### 2.2.2 鲁棒自回归模型 AR 模型是时间序列分析中最基础的工具之一,但经典 AR 程序通常依赖于高斯假设和有限二阶矩,因此在重尾或脉冲噪声下变得脆弱。当创新项服从重尾分布时,方差可能无限大,从而使得基于最小二乘(LS)(即 ℓ₂ 范数)的推断无效 [25]。这激发了基于损失函数(对异常值具有降低敏感性的)鲁棒替代方案的长期研究工作。 **最小绝对偏差(ℓ₁ 范数损失)**:最小绝对偏差(LAD)估计用基于 ℓ₁ 范数的目标替代二次损失,产生具有有界影响且在重尾噪声下具有改进鲁棒性的估计量。早期工作建立了在温和条件下 LAD 估计量对 AR 模型的一致性和渐近正态性 [26]。最近的分析表明,LAD 估计量在重尾和条件异方差噪声下仍表现良好,其收敛速率明确取决于尾部指数 [27]。针对各种 AR 设置,LAD 的众多扩展已被开发 [28, 29, 30, 31, 32]。 **Huber 损失**:Huber 损失通过将二次惩罚应用于小残差,将线性惩罚应用于大残差,从而在 ℓ₂ 和 ℓ₁ 损失之间进行插值。因此,Huber 损失在轻尾噪声下保持了统计效率,同时限制了异常值的影响 [33]。在时间序列设置中,Huber 型估计器已被扩展到 AR 模型,相比纯 LAD 或最小二乘法提供了更有利的偏差-方差权衡 [34]。最近的工作研究了在重尾分布下自适应选择 Huber 阈值,表明适当调整的估计器在弱矩假设下可达到接近最优的统计速率 [35, 36]。 **分位数损失**:分位数损失(又称 pinball 损失)通过引入非对称线性惩罚,能够估计条件分位数而非回归中的条件均值 [37]。该框架自然地推广了 LAD,并在捕捉分布不对称性的同时提供了对重尾噪声的鲁棒性。它已被扩展到 AR 模型,并在均值动态之外刻画了完整的条件分布 [38]。最近的工作将分位数 AR 模型应用于捕捉时间和空间依赖数据(如环境和经济时间序列)中的异质和分布动态 [39, 40, 41]。 **ℓₚ 范数损失**:基于 ℓₚ 范数(其中 p ∈ (0,1))的损失提供了一种更积极的鲁棒性形式,通过次线性方式惩罚残差。与 ℓ₁ 范数损失相比,这些目标进一步降低了大偏差的权重,使其特别适用于极端观测占主导的重尾或脉冲噪声。然而,这些损失
相似文章
TS-Fault:针对结构性故障的时间序列预测器基准测试
本文介绍了TS-Fault,这是一个用于评估时间序列预测模型在结构化故障场景(如依赖关系断裂和机制变化)下的基准测试。研究发现,干净数据上的准确性通常与鲁棒性呈负相关,且基础模型特别脆弱。
Toto 2.0:时间序列预测进入规模化时代(13分钟阅读)
DataDog 发布了 Toto 2.0,这是一系列参数量从 4M 到 2.5B 的开源时间序列基础模型,展现出持续的规模化改进,并在包括 BOOM、GIFT-Eval 和 TIME 等多个基准测试中取得了领先成果。
PESD-TSF:一种周期感知与显式结构化分解的长期时间序列预测框架
提出PESD-TSF,一种受物理启发的结构化分解框架,用于长期时间序列预测,通过乘法周期性门控、多尺度结构化编码器和跨尺度协作注意力来解决周期感知退化、趋势-噪声纠缠和跨变量依赖关系丢失的问题。
时间序列基础模型基准测试是否隐藏了依赖状态的失败?来自交通速度预测的证据
本文提出了面向时间序列基础模型的状态分层评估方法,揭示出聚合指标会掩盖交通状态转换期间的严重失败,并提出了双峰混合增强方法,在保持整体准确性的同时改善覆盖范围。
TS-Skill:评估时间序列问答中分析技能的基准测试
TS-Skill 引入了一个受控的基准测试,包含三种可组合的分析技能用于时间序列问答。在 LLMs 和 TSLMs 上的实验揭示了显著的能力差距,特别是在跨区间整合方面。