模拟体:用于近最优时间序列预测与推断的决策理论预训练

arXiv cs.LG 论文

摘要

本文介绍了一个统一的决策理论预训练框架,用于基于神经网络的时间序列估计器,该框架在分层模拟上进行训练以逼近近最优决策规则。实验表明,所得估计器在合成和现实基准上均优于最大似然估计等传统方法。

arXiv:2606.27711v1 公告类型:新 摘要:我们提出了一种基于神经网络的框架,通过我们称之为决策理论预训练的过程来学习时间序列估计器。分析人员指定一个生成世界、数据生成过程的分布以及一个目标决策目标。在这个世界上,一个在分层模拟上训练的神经网络逼近相应的最优决策规则,生成一个神经估计器,该估计器可为前所未见的时间序列提供预测、参数估计、预测区间或模型选择以实现零样本推断。 生成世界和目标的联合规范使估计器能够直接逼近过程级别的有限样本性质:近最优风险、偏差控制、极小化极大性能和均匀校准。我们的实验表明,这些神经估计器在相同的模型结构类中,可以优于传统基线,如最大似然估计和通过AICc进行的模型选择。此外,即使仅基于结构模型的模拟进行训练,它们与统计模型、神经网络或大型预训练模型相比,在主要现实世界基准上也能达到竞争性或最先进的预测精度。 我们通过解决两个长期存在的挑战来展示该框架:AR(p)模型中的有限样本偏差和校准不当,以及预测组合难题。这些应用突出了该方法的主要优势:它能够逼近在分析上难以处理或计算上不可行的时间序列问题的解,包括复杂结构方程或最优性准则。最终,通过允许对决策理论权衡进行显式控制,该框架为分析人员提供了高度高效的估计工具,以满足其特定的分析需求。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:25

# 面向近最优时间序列预测与推断的决策理论预训练 本文核心思想的初步版本曾在早期会议和特邀报告中展示,包括CMStatistics 2022 [45]、国际预测研讨会2023 [47]以及M6竞赛会议2023 [46]。本文首次为该框架提供了统一的决策理论表述,并辅以全面的实证验证。来源:https://arxiv.org/html/2606.27711 Pablo Montero\-Manso 本工作的部分内容是在作者担任谷歌访问研究员期间完成的。所表达的观点仅代表作者本人,不一定反映谷歌的观点。(工作进展中:) ###### 摘要 我们提出了一种基于神经网络的框架,通过学习时间序列估计器,我们将此过程称为**决策理论预训练**。分析人员指定一个**生成世界**(即数据生成过程上的分布)和一个**目标决策目标**。一个在此世界的分层模拟上训练的神经网络可以逼近相应的最优决策规则,从而产生一个**神经估计器**,能够对未见时间序列进行零样本推理,提供预测、参数估计、预测区间或模型选择。生成世界与目标的联合设定使估计器能够直接逼近过程层面的有限样本性质:近最优风险、偏差控制、极小极大性能以及均匀校准。我们的实验表明,对于相同的模型结构类,这些神经估计器可以优于传统的基准方法,如极大似然估计和基于AICc的模型选择。此外,即使仅基于结构模型的模拟进行训练,它们在与统计、神经或大型预训练模型相比时,也能在主要的真实世界基准上达到具有竞争力或最先进的预测精度。我们通过解决两个长期存在的挑战来说明该框架:AR(p)模型中的有限样本偏差与误校准,以及预测组合难题。这些应用突显了该方法的主要优势:它能够逼近解析上难以处理或计算上不可行的时间序列问题的近似解,包括复杂的结构方程或最优性准则。最终,通过允许对决策理论权衡进行显式控制,该框架为分析人员提供了高度高效、量身定制的估计工具。 **关键词:** 神经网络;估计;时间序列;大模型;缩放定律;基于模拟的推断;AI ## 1 引言 时间序列模型是科学和工业中的一个核心分析工具,用于推断演化过程的属性并预测其轨迹。传统上,研究者依赖结构模型:这些框架施加特定的数学假设以捕捉系统的动态,或将其分解为可解释的成分,如趋势、周期、持久性和制度变化。尽管结构模型简洁且刻意风格化,但它们通常足以满足实际应用。然而,它们的实用性不仅取决于假定的结构是否合适,更取决于其参数、状态和预测含义能否被可靠估计。正如我们在第8.1节(https://arxiv.org/html/2606.27711#S8.SS1)中所讨论的,结构模型的主要限制往往不在于结构本身,而在于参数如何从数据中估计。常用模型的知名估计器仍然存在数据效率低、有限样本偏差、数值不稳定和误校准等问题。这些缺陷会传播到模型预测中;因此,改进估计可以直接带来更好的预测精度和更可靠的推断。 近年来,深度学习预测方法,包括时间序列基础模型(TSFMs)[3 (https://arxiv.org/html/2606.27711#bib.bib48),12 (https://arxiv.org/html/2606.27711#bib.bib47)] 和全局预测模型(GFMs)[54 (https://arxiv.org/html/2606.27711#bib.bib63),51 (https://arxiv.org/html/2606.27711#bib.bib39),39 (https://arxiv.org/html/2606.27711#bib.bib80)],通过在大规模、多样化的时间序列集合上训练灵活的神经架构,取得了强大的实证精度。然而,它们的标准训练目标并非旨在提供过程层面的有限样本保证或简洁的结构解释。简洁的假设不仅是获得更好预测的途径;它们常常是研究的主要目标,允许研究者检验机制的有效性、保持可解释性并确保结果可审计。此外,个体序列层面的统计保证(例如投资组合中特定资产的风险覆盖)对于TSFMs和GFMs来说难以实现。因为这些模型优化的是跨异构数据集的平均性能,强大的聚合指标可能会掩盖特定序列或参数区间中的系统性错误。这个问题无法通过纯经验数据缩放来解决:即使在庞大的数据集中,任何单个序列的历史仍然是一个“小样本”,缺乏足够的信息来提供正式保证。 为了弥合这一差距,本文介绍了**Simulacrum**,一个将时间序列估计重新构建为统计决策问题[65 (https://arxiv.org/html/2606.27711#bib.bib68),6 (https://arxiv.org/html/2606.27711#bib.bib69)]并通过模拟求解的计算框架。分析人员指定两个要素:一个**生成世界**,即估计器应在其上表现良好的数据生成过程的分布;以及一个**决策目标**,它编码了期望的性能概念。两者共同定义了一个最优决策规则。这样的规则很少能通过经典方法获得:极大似然仅渐近最优且在有限样本中存在偏差[42 (https://arxiv.org/html/2606.27711#bib.bib5)],而极小极大估计器虽然定义明确但没有封闭形式。通过一个我们称为**决策理论预训练**的过程,我们利用大规模模拟直接训练神经网络以逼近这个最优规则。通过这样做,我们能够为现有和新颖的模型类推导出近最优的**神经估计器**。 该框架的核心创新是一个两阶段的分层模拟方案。外层循环在一个通用模型类(**生成世界**)内对模型参数进行采样,而内层循环则从该特定参数集生成多个复制轨迹。一个世界可以包含多个模型、污染算子和数据增强。在有足够多复制的情况下,损失函数可以测量神经估计器与过程层面最优性(例如条件偏差或误校准)的偏离。网络被训练以最小化该损失,从而收敛到整个模型类的最优决策规则的近似。 例如,考虑估计一个短的AR(5)序列。像极大似然这样的标准估计器在有限样本中是有偏的,并且它们产生的区间很少是一致校准的。我们的框架对平稳AR(5)系数向量的世界进行采样,从每个系数向量生成多个独立轨迹,并训练一个神经网络从单个观测轨迹中恢复系数或预测分位数。外层循环提供系数向量,而内层循环提供复制,使得条件偏差或误覆盖在训练中可以被逐过程地测量和惩罚。训练后的网络成为一个快速的、有限样本的估计器,其统计属性由所选的世界和目标刻意固定。参见图1(https://arxiv.org/html/2606.27711#S3.F1)了解框架概述。 世界视角将本框架与近年来的神经预测工作联系起来。全局预测模型、时间序列基础模型以及先验数据拟合网络[49 (https://arxiv.org/html/2606.27711#bib.bib83)]都可以被视为在一个生成世界(例如经验语料库、大型预训练混合体或合成先验)上训练估计器。然而,在这些方法中,目标通常是固定的:最小化世界上的风险。我们的贡献在于使估计器本身成为一个设计对象。分析人员指定世界以及结果估计器应满足的属性。当世界是模拟的时候,我们可以直接针对并验证这些属性。在单个贝叶斯模型且目标为平均风险的特殊情况下,该框架与神经贝叶斯估计[53 (https://arxiv.org/html/2606.27711#bib.bib55)]一致;其广度在于对该情况的一般化,即针对那些最优估计器以前无法获得的目标和模型类。 我们的实验展示了世界设计原则:为精度而训练,神经估计器在指数平滑和AR(p)世界下优于极大似然;为偏差控制而训练,它们在极大似然系统性存在偏差的地方实现了近乎无偏的有限样本估计;为最坏情况风险而训练,它们拉平了风险曲线并减少了最大的预测误差。另外两个结果解决了经典估计中长期存在的困难。对于AR(p)类,该框架产生的估计区间比经典的插件程序或标准经验风险最小化(后者表现出系统性的条件误校准)更接近均匀校准(覆盖在每参数值上条件成立)。对于预测组合,我们将平均预测的启发式方法重新构想为生成类内的估计:观测值被建模为ARIMA和指数平滑成分的凸组合,由共同冲击驱动,这是一个最优估计器在解析上难以处理的类。直接学习这个组合规则将长期存在的启发式方法转变为有原则的方法,并生成了对预测组合难题[10 (https://arxiv.org/html/2606.27711#bib.bib8),57 (https://arxiv.org/html/2606.27711#bib.bib13)]的生成性解释。 这些设计选择也转化为在真实数据上的竞争性精度。尽管神经估计器完全在模拟的结构世界上训练并且从未见过测试序列,但在标准基准上,它们与经典和现代替代方案相比具有竞争力,并且常常超越它们。在M1竞赛数据上,一个用于加性指数平滑类的神经估计器在所有21个竞赛参赛者(包括指数平滑类的几种替代估计器)中,在竞赛的中位数误差指标上取得了最低误差。在Monash档案上,组合的ARIMA-ETS估计器在几个数据集上改进了报告的最强基线。 ### 贡献与论文组织 本文有三个主要贡献。 - •**统一的基于模拟的结构时间序列估计框架(第2-4节)**:我们介绍了**Simulacrum**,一个决策理论框架,将神经网络训练为用户定义生成世界上的估计器。该框架将标准基于模拟的训练扩展到平均风险最小化之外,并使得针对有限样本性质如极小极大风险、崩溃点鲁棒性和均匀校准成为可能。在第2节中,我们将生成世界定义为时间序列数据生成过程(DGPs)的泛化,连同编码统计目标的损失函数。第3节详细介绍了用于训练神经估计器的两阶段模拟机制,第4节讨论了神经架构的考虑。与其他相邻范式如摊销推断、先验数据拟合网络(PFNs)以及全局或时间序列基础模型的联系将在后面的第8节讨论。 - •**有限样本估计与不确定性量化的方法论结果(第5-6节)**:该框架恢复了经典程序难以获得的具有统计属性的估计器。在指数平滑(ETS)类中,为预测精度训练的神经估计器在真实DGP下(第5.1节)和在真实数据中(第5.3节,与M1数据集上五种ETS估计器和21个竞争模型相比)都实现了优于标准替代方案(如极大似然)的性能。在AR(p)类(第6节)中,该框架产生了具有近乎无偏有限样本行为和**均匀校准**的估计器,这是一种比标准深度学习方法通常实现的边际校准更强的性质。这些结果表明,基于模拟的神经估计器可以被训练以满足过程层面的标准,而不仅仅是聚合预测精度。 - •**模型选择、预测组合和比较风险分析中的实证演示(第7节及相关结果)**:我们进一步展示了同一框架自然地适用于多模型世界。在第七节中,我们通过将预测组合本身建模为一个结构过程,提出了对“预测组合难题”的生成性处理。这产生了组合规则的直接神经估计器,而无需依赖先拟合成分模型再估计权重的标准两步过程。在真实数据中,所得估计器与简单的等权组合具有竞争力,并且在某些情况下有所改进,同时也阐明了为什么等权重仍然是一个强有力的基准。更广泛地说,本文包含了比较风险和缩放分析,描述了神经估计器何时优于经典替代方案,以及差距何时缩小。在第5.2节中,我们研究了近似率如何随序列长度和模型复杂性变化。我们还比较了随着序列长度增加,ETS子类的神经模型选择与基于AIC的选择(第7.1节),并提供了针对已建立基线的详细误差曲线,包括ETS的极大似然和贝叶斯MCMC(第5.1节),以及AR(p)类的OLS、Yule-Walker和Burg(第6.1节)。 ##### 阅读指南。 主要对实际预测表现和应用工具感兴趣的读者,可以先从第5.3节和第7.2.1节开始,这两节展示了指数平滑和预测组合在基准数据集上的真实数据结果。然后可以阅读第2-3节,将其作为这些应用如何源自共同训练原理的统一解释。对统计基础、决策理论或基于模拟的推断感兴趣的读者,可能更喜欢从第2-3节开始。这些节介绍了生成世界、总体风险以及条件

相似文章

ForecastBench-Sim:模拟世界预测基准

arXiv cs.AI

介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。

线性模型在时间序列预测中能有多好?

Hugging Face Daily Papers

本文表明,精心的预处理——尤其是上下文长度选择、归一化和正则化——可以使简单的线性模型(如 Ridge 回归)在时间序列预测基准测试中与大型 Transformer、MLP 和 CNN 模型相竞争或更优。

用于时间序列预测的仅解码器基础模型

Papers with Code Trending

本文介绍了一篇关于时间序列基础模型(TimeFM)的研究论文,这是一种仅解码器模型,通过借鉴大型语言模型技术,在多样化的时间序列数据集上实现了近乎最佳的零样本性能。

将预测未来行为作为一项学习任务

Hugging Face Daily Papers

本文提出训练行为预测器,从单条推理轨迹预测大型推理模型的输出,在计算成本更低的情况下优于GPT-5.4和Claude Opus-4.6等大型语言模型,绕过了传统的可解释性方法。