学习错误的上下文:时间序列基础模型的黑盒在线自适应

arXiv cs.LG 论文

摘要

本文提出ORCA,一种通过学习预测错误的上下文来实现时间序列基础模型黑盒在线自适应的方法。该方法在五个TSFM和八个数据集上展示了有效性,解决了基于闭源API的模型自适应挑战。

arXiv:2606.14222v1 公告类型:新 摘要:时间序列基础模型(TSFMs)的快速发展推动了跨领域零样本预测的进步。受当前大型语言模型形式的启发,未来的TSFMs可能作为商业化闭源API服务提供。然而,许多现有的在线自适应方法仍然依赖白盒访问进行参数微调或梯度反向传播。这种范式不匹配引发了一个问题:在TSFMs的黑盒在线自适应中,我们应该学习什么?我们用一个见解来回答:基础模型的预测错误同时依赖于基础模型的输入和输出(即错误的上下文)。为了验证这一见解,我们提出了ORCA(在线残差上下文自适应)。我们在5个最先进的TSFMs和8个数据集上进行了广泛实验,以展示我们方法的有效性。此外,通过消融研究,我们定量分析了不同适配器学习假设对黑盒在线自适应最终性能的影响。代码可在 https://github.com/Fifthky/ORCA 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:12

# 学习错误的上下文:时间序列基础模型的黑箱在线适应 来源:https://arxiv.org/html/2606.14222 戴西霖¹˒²,刘依鼎¹,夏宏杰¹,胡逸凡¹,董泽伟¹˒∗,杨江明¹,徐强² ¹蚂蚁国际 ²香港中文大学 \{daixilin\.dxl, zewei\.dong\}@ant\-intl\.com ###### 摘要 时间序列基础模型(TSFMs)的快速发展推动了跨多个领域的零样本预测。受当前大语言模型形态的启发,未来的TSFMs可能作为商业化、闭源的API服务提供。然而,许多现有的在线适应方法仍然依赖于白箱访问来进行参数微调或梯度反向传播。这种范式不匹配引出一个问题:在TSFMs的黑箱在线适应中,我们应该学习什么?我们的回答基于一个洞见:基础模型的预测错误是条件于基础模型的输入和输出的(即错误的上下文)。为验证这一洞见,我们提出ORCA(在线残差上下文适应)。我们在5个最先进的TSFMs和8个数据集上进行了广泛实验,以证明我们方法的有效性。此外,通过消融研究,我们定量分析了在适应器学习假设对黑箱在线适应最终性能的影响。代码见 https://github.com/Fifthky/ORCA。 ## 1 引言 时间序列预测是跨多个领域的基础任务,包括能源管理、交通规划和气象学(Miller et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib46); Liang et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib34); Dai et al., 2026b (https://arxiv.org/html/2606.14222#bib.bib75); Huang et al., 2026a (https://arxiv.org/html/2606.14222#bib.bib24))。传统上,时间序列预测从经典统计方法(Gardner Jr., 1985 (https://arxiv.org/html/2606.14222#bib.bib16); Piccolo, 1990 (https://arxiv.org/html/2606.14222#bib.bib50))过渡到深度学习架构(Zhou et al., 2021 (https://arxiv.org/html/2606.14222#bib.bib61); Wu et al., 2022 (https://arxiv.org/html/2606.14222#bib.bib56); Zeng et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib58))。最近,受大语言模型(LLMs)成功的启发,预测范式正朝着时间序列基础模型(TSFMs)转变(Liang et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib34); Liu et al., 2026b (https://arxiv.org/html/2606.14222#bib.bib72))。这些模型在跨多个领域的大规模时间序列数据语料库上进行预训练,在未见过的数据集上展现出卓越的零样本能力(Aksu et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib64); Xu et al., 2026c (https://arxiv.org/html/2606.14222#bib.bib76)),包括Chronos系列(Ansari et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib3), 2025 (https://arxiv.org/html/2606.14222#bib.bib2))和Moirai系列(Woo et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib55); Liu et al., 2026a (https://arxiv.org/html/2606.14222#bib.bib37), 2025a (https://arxiv.org/html/2606.14222#bib.bib38))。 看向图注 图1: 时间序列在线适应方法分类。根据对基础模型的访问级别,现有方法分为三种范式。在即将到来的商业TSFM API时代,只有黑箱范式能提供可行的解决方案。 对于TSFMs,在线适应至关重要:流式数据天然存在时间概念漂移,通用预训练TSFMs与应用场景的特定动态之间仍存在知识鸿沟(Zhang et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib59); Benechehab et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib7); Dai et al., 2026a (https://arxiv.org/html/2606.14222#bib.bib73); Lee et al., 2026 (https://arxiv.org/html/2606.14222#bib.bib31))。根据对基础模型所需的访问级别,现有的在线适应可分为三种范式(如图1 (https://arxiv.org/html/2606.14222#S1.F1)所示):(1) 参数微调,以SOLID(Chen et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib10))和DSOF(Lau et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib30))为代表,需要本地计算图来显式修改骨干网络的内部权重或特定层;(2) 冻结白箱,包括TAFAS(Kim et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib27))、δ-Adapter(Liang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib33))和ADAPT-Z(Huang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib23)),需要通过冻结的基础模型进行梯度反向传播来更新输入微调或潜在表示;(3) 黑箱,如ELF(Lee et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib32))和δ-Adapter中的Ada-Y变体(Liang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib33)),仅对外部接口进行操作。 受LLMs成功和商业价值的启发,未来的TSFMs可能越来越多地作为商业化、闭源的API服务提供(Xu et al., 2026b (https://arxiv.org/html/2606.14222#bib.bib77))。在此范式下,用户将仅有黑箱推理访问权限。严格的API限制使得参数微调和冻结白箱方法均不可行。因此,黑箱范式成为唯一可行的解决方案。然而,当前在这一领域的探索有限。ELF(Lee et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib32))执行并行轻量级预测器集成。但其性能受限于这种与骨干无关的预测器的绝对容量,当基础模型持续主导时其贡献变得边缘化。同时,Ada-Y(δ-Adapter的输出侧变体)(Liang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib33))仅依赖基础模型的输出,只捕获了模型犯了什么错误,而缺乏理解这些错误何时发生的输入上下文。这引出了一个问题:在TSFMs的黑箱在线适应中,我们应该学习什么? 我们认为,我们应该既学习错误是什么,更重要的是,学习基础模型何时产生这些错误(即学习错误的上下文)。错误并非孤立的噪声;相反,它们是条件于基础模型的输入和输出的。具体来说,我们应该建模在给定输入序列和基础模型预测条件下误差的条件分布。为了实现这一洞见,我们提出ORCA(在线残差上下文适应),一种即插即用的黑箱在线适应框架,用于时间序列的流式TSFM API推理。给定基础模型的输入和输出,ORCA学习上下文感知的错误表示。为减轻对噪声残差的过拟合,ORCA使用具有强结构偏置的线性适配器作为其核心组件。为促进持续学习,我们设计了一种带有历史遗忘衰减的缓冲区训练机制,以及预测空间贝叶斯损失。此外,为利用历史错误,我们引入了玻尔兹曼路由器。该路由器将基础预测和适应预测的历史错误视为玻尔兹曼能量状态,动态推导出置信度值,将其融合为最终组合输出。 我们的工作贡献总结如下: - • TSFMs的黑箱在线适应:我们利用最新一代TSFMs进行黑箱在线适应分析,为未来商业化API预测研究奠定了及时的基础。 - • ORCA框架:我们提出ORCA,一种用于TSFMs的黑箱在线适应框架。ORCA利用具有结构偏置的线性适配器提供上下文感知的残差修正,集成了带有历史遗忘衰减的缓冲区训练机制、预测空间贝叶斯损失和动态玻尔兹曼路由器。 - • 上下文错误建模与“学什么”:我们提出适配器应学习错误的上下文,即错误是什么以及基础模型何时产生它们。通过适配器输入配置的消融研究,我们定量分析了不同学习假设的影响。 ## 2 相关工作 ### 2.1 时间序列预测的深度学习 历史上,时间序列预测的演进从经典统计方法(Gardner Jr., 1985 (https://arxiv.org/html/2606.14222#bib.bib16); Piccolo, 1990 (https://arxiv.org/html/2606.14222#bib.bib50))过渡到深度学习架构,包括循环神经网络(RNNs)、卷积神经网络(CNNs)(Connor et al., 1994 (https://arxiv.org/html/2606.14222#bib.bib12); Hochreiter and Schmidhuber, 1997 (https://arxiv.org/html/2606.14222#bib.bib20); Lai et al., 2018 (https://arxiv.org/html/2606.14222#bib.bib29); Dai et al., 2025b (https://arxiv.org/html/2606.14222#bib.bib74)),以及后续的先进结构如Transformer(Zhou et al., 2021 (https://arxiv.org/html/2606.14222#bib.bib61); Wu et al., 2022 (https://arxiv.org/html/2606.14222#bib.bib56); Liu et al., 2022 (https://arxiv.org/html/2606.14222#bib.bib39); Nie et al., 2022 (https://arxiv.org/html/2606.14222#bib.bib47); Liu et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib36); Wang et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib54))和状态空间模型(Ahamed and Cheng, 2024 (https://arxiv.org/html/2606.14222#bib.bib1); Ma et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib43))。研究者们也质疑了复杂注意力机制的必要性,表明简单线性模型(Zeng et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib58); Xu et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib57); Dai et al., 2025a (https://arxiv.org/html/2606.14222#bib.bib66))也能取得有竞争力的结果。 ### 2.2 时间序列基础模型(TSFMs) 受自然语言和视觉领域预训练成功的推动,社区开始聚焦于时间序列基础模型(TSFMs)(Liang et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib34); Meyer et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib45); Miller et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib46)),旨在提供通用、零样本的预测能力。流行的范式包括将现有LLMs重编程用于时间序列,或从零开始使用跨领域时间序列数据预训练Transformer,例如Time-LLM(Jin et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib26))、Chronos家族(Ansari et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib3), 2025 (https://arxiv.org/html/2606.14222#bib.bib2))、Lag-Llama(Rasul et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib51))以及其他架构(Das et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib13); Zhou et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib62); Chen et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib11))。同时期的发展还引入了TimeGPT-1 (Garza et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib17))、Moirai系列(Moirai 1.0、2.0和Moirai-MoE)(Woo et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib55); Liu et al., 2026a (https://arxiv.org/html/2606.14222#bib.bib37), 2025a (https://arxiv.org/html/2606.14222#bib.bib38))、Timer家族(Timer、Timer-S1)(Liu et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib41), 2026c (https://arxiv.org/html/2606.14222#bib.bib42))、Sundial(Liu et al., 2025b (https://arxiv.org/html/2606.14222#bib.bib40))、TiRex(Auer et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib5))以及轻量级模型如Tiny Time Mixers(TTM)(Ekambaram et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib15))。这些模型的静态特性使其容易受到时间概念漂移以及预训练数据与现实世界应用之间知识鸿沟的影响。 ### 2.3 时间序列中的在线学习 现实世界的时间序列数据本质上是非平稳的,经常经历概念漂移(Besnard and Ragot, 2024 (https://arxiv.org/html/2606.14222#bib.bib8); Zhang et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib59))。为缓解灾难性遗忘(Kirkpatrick et al., 2017 (https://arxiv.org/html/2606.14222#bib.bib28))并保持可塑性(Dohare et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib14); Ao and Fayek, 2023 (https://arxiv.org/html/2606.14222#bib.bib4); Verwimp et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib52); Behrouz et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib6)),持续学习和在线学习方法随着新数据的到来顺序地更新模型。经典的深度在线预测方法包括作为独立在线演化预测器的FSNet(Pham et al., 2022 (https://arxiv.org/html/2606.14222#bib.bib49))和OneNet(Zhang et al., 2023 (https://arxiv.org/html/2606.14222#bib.bib60))。在讨论时间序列在线适配器时,根据对基础模型所需的访问级别,现有方法可分为三种范式:(1) 参数微调,如SOLID(Chen et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib10))和DSOF(Lau et al., 2024 (https://arxiv.org/html/2606.14222#bib.bib30));(2) 冻结白箱,包括TAFAS(Kim et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib27))、δ-Adapter(Liang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib33))、ADAPT-Z(Huang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib23))、PETSA(Medeiros et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib44))和DynaTTA(Grover and Etemad, 2025 (https://arxiv.org/html/2606.14222#bib.bib19));(3) 黑箱,如ELF(Lee et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib32))和δ-Adapter的Ada-Y变体(Liang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib33))。此外,在交通和时空预测等其他领域的更广泛探索引入了诸如FORESEE(Huang et al., 2026b (https://arxiv.org/html/2606.14222#bib.bib22))和ADCSD(Guo et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib67))等方法。然而,当前专门探索TSFMs在线适应的文献主要包括TAFAS(Kim et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib27))、ELF(Lee et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib32))和δ-Adapter(Liang et al., 2025 (https://arxiv.org/html/2606.14222#bib.bib33)),仍探索不足。 ### 2.4 与自然语言处理中在线学习的比较 尽管如Hu et al. (2021 (https://arxiv.org/html/2606.14222#bib.bib25)); Biderman et al. (2024 (https://arxiv.org/html/2606.14222#bib.bib9)); Houlsby et al. (2019 (https://arxiv.org/html/2606.14222#bib.bib21)); Pfeiffer et al. (2020 (https://arxiv.org/html/2606.14222#bib.bib48)); Li and Liang (2021 (https://arxiv.org/html/2606.14222#bib.bib35)); Xu et al. (2026a (https://arxiv.org/html/2606.14222#bib.bib78)) 等对LLMs的微调和在线学习已被广泛分析,TSFMs的在线适应呈现不同的范式。主要差异在于在线推理过程中反馈的可用性。在典型的NLP应用中,测试时生成期间几乎无法立即获得精确的ground truth。相比之下,在时间序列预测中,ground truth随着时间推移而显现,这一区别正是我们ORCA方法的动机。 看向图注 图2: ORCA的整体架构。历史输入Xt\boldsym

相似文章

面向上下文LLM级联的在线Pandora's Box

arXiv cs.AI

本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。

用于时间序列预测的仅解码器基础模型

Papers with Code Trending

本文介绍了一篇关于时间序列基础模型(TimeFM)的研究论文,这是一种仅解码器模型,通过借鉴大型语言模型技术,在多样化的时间序列数据集上实现了近乎最佳的零样本性能。

ADAPTOOD:面向分布外心电图时间序列模型的不确定性感知微调

arXiv cs.LG

ADAPTOOD 是一种新颖框架,利用数据不确定性量化分布偏移的严重程度,并指导心电图时间序列模型在分布外设置下的微调。它将不确定性估计与低秩模型更新和自适应超参数优化相结合,在现有OOD自适应方法基础上实现了高达7%的准确率提升和12.9%的精确度提升。