TimeRouter：高效自适应的时间序列基础模型路由

arXiv cs.LG 2026/06/11 04:00 论文

time-series foundation-models routing agentic-systems lightweight inference-efficiency selective-gating

摘要

TimeRouter 提出了一种高效的时间序列基础模型路由框架，利用轻量级判别路由和选择性门控，无需大型语言模型（LLM）开销即可自适应选择最佳专家模型，在 GIFT-EVAL 排行榜上达到了最先进水平。

arXiv:2606.11625v1 公告类型：新摘要：时间序列基础模型（TSFMs）正越来越多地被用作新兴自主时间序列系统中的预测专家。然而，TSFMs 表现出异构的归纳偏差，没有单一模型能在所有预测场景中持续占优，这使得专家选择成为一项关键挑战。现有系统通常将此决策委托给基于LLM的控制器，从而产生大量推理开销。我们提出了 TimeRouter，一种高效的路由框架，通过轻量级判别路由、选择性门控和集成回退，利用预训练 TSFMs 池中的经验互补性。具体来说，TimeRouter 结合了学习路由头、选择性门控和集成回退，能够在推理时不调用LLM即可实现自适应专家选择。TimeRouter 在 GIFT-EVAL 排行榜上取得了最先进的性能，LB MASE 为 0.6765。除了基准性能外，我们的消融研究为 TSFM 路由设计提供了实证见解，强调了池组成和选择性门控的重要性。综上所述，这些结果将 TimeRouter 定位为未来基于基础模型池的自主时间序列系统的模块化轻量级路由层。我们的代码可在 https://github.com/UConn-DSIS/TimeRouter 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:50

# 时间序列基础模型的高效自适应路由
来源：https://arxiv.org/html/2606.11625
Yushan JiangKashif RasulAnderson SchneiderYuriy NevmyvakaDongjin Song

###### 摘要

时间序列基础模型（TSFMs）正越来越多地被探索为新兴自主时间序列系统中的预测专家。然而，TSFMs 表现出异质的归纳偏差，没有单一模型能在所有预测场景中持续占据主导地位，这使得专家选择成为一个关键挑战。现有系统通常将这一决策委托给基于LLM的控制器，从而产生大量推理开销。我们提出TimeRouter，一个高效的路由框架，通过轻量级判别路由、选择性门控和集成回退，利用预训练TSFMs池中的实证互补性。具体而言，TimeRouter结合了学习路由头、选择性门控和集成回退，使得在推理时无需调用LLM即可实现自适应专家选择。TimeRouter在GIFT-EVAL排行榜上取得了最先进的性能，LB MASE为0.6765。除了基准性能，我们的消融研究为TSFM路由设计提供了实证见解，突出了池组成和选择性门控的重要性。综上所述，这些结果使TimeRouter成为未来基于基础模型池的自主时间序列系统的模块化轻量级路由层。我们的代码可在https://github.com/UConn-DSIS/TimeRouter获取。

时间序列基础模型，路由，自主预测，GIFT-EVAL

## 1 引言

过去三年，时间序列基础模型（TSFMs）快速发展：Lag-Llama（Rasulet al.,2024），Chronos（Ansariet al.,2024；Ansari and others,2025），TimesFM（Daset al.,2024），TiRex（Aueret al.,2025），Moirai（Wooet al.,2024；Liu and others,2024,2025a），Sundial（Liu and others,2025b），PatchTST-FM（Wenet al.,2026），FlowState（Graf and others,2025），TTM（Ekambaramet al.,2024），以及其他模型。每个模型都在不同的语料库上预训练，并采用不同的架构选择；最近Yuet al.（2025）的分析识别出三个设计轴（补丁大小、嵌入类型、训练损失），这些选择沿这些轴产生正交的归纳偏差。因此，没有一个单一的设计点能在所有预测范围内最优：哪个TSFM表现最佳随采样频率、预测范围、领域和噪声结构系统地变化。因此，实际挑战不在于识别一个普遍最优的TSFM，而在于为每个输入自适应选择正确的TSFM，这自然引出一个路由问题。

TSFMs作为自主系统的组件。TSFMs正越来越多地被探索为新兴自主时间序列系统中的组件，这些系统在推理时选择或组合多个TSFM。TimeCopilot（Garza and Rosillo,2025）通过通用LLM代理编排特征分析和模型选择；MoiraiAgent（Salesforce AI Research,2025）使用微调的Qwen-2.5-3B进行逐序列专家选择；TSOrchestra（Caoet al.,2025）使用R1风格微调的LLM对多FM池进行集成编排。最近的非LLM方法探索了互补方向：Synapse（Daset al.,2025）通过动态重新加权整个TSFM池在时间戳级别进行自适应仲裁，而ZooCast（Shiet al.,2025）通过嵌入和基于相似度的Top-K选择进行任务-模型匹配。这些系统展示了跨TSFMs自适应协调的实际价值，涵盖基于LLM的编排、自适应集成仲裁和基于嵌入的模型匹配。然而，用于跨TSFMs自适应专家选择的轻量级判别路由层仍然很大程度上未被探索。

理论基础。TimeRouter受两个互补思想的启发：堆叠泛化和选择性预测。*堆叠泛化*（Wolpert,1992）在将第一级输出视为特征的基础上训练第二级模型，这激发了我们将基于FM的交叉验证分数和下采样预测用作路由特征，并结合CV逆加权集成回退。*选择性预测和学习推迟*（Geifman and El-Yaniv,2017；Mozannar and Sontag,2020；Verma and Nalisnick,2022）确立了置信度阈值分类器可实现可控的风险-覆盖权衡。TimeRouter通过一个选择性门控采纳这一原则，该门控将低置信度输入路由到集成回退，而不是承诺给单一专家。

TimeRouter。TimeRouter使用一对多分类器头，从结合上下文信息和基模型输出的特征表示中为TSFM池生成路由得分。在推理时，分类器的决策空间边界和池的预测空间多样性共同驱动一个选择性门控：低置信度输入被推迟到CV逆加权集成回退，而高置信度输入则承诺给分类器的argmax。在GIFT-EVAL（Aksuet al.,2024）上，TimeRouter达到LB MASE 0.6765，成为排行榜上的新最先进。

贡献。(i) 我们提出TimeRouter，一个用于跨时间序列基础模型自适应专家选择的高效判别路由框架。(ii) 在GIFT-EVAL上，TimeRouter达到LB MASE 0.6765，成为排行榜上的新最先进。消融研究进一步为TSFM路由设计提供了实证见解。(iii) TimeRouter为未来基于基础模型池的自主时间序列系统提供了一个模块化且高效的路由层。

## 2 方法

参见图1：TimeRouter概述。给定一个输入上下文，路由模块为时间序列基础模型（TSFMs）池生成路由得分。一个选择性门控确定是承诺给顶级专家，还是在置信度较低时推迟到集成回退，从而实现对异构预测场景的自适应专家选择。

问题定义。给定一个固定的K个冻结TSFM的池F = {F₁, …, F_K}，每个F_k将一个单变量上下文x ∈ ℝ^T映射到未来H步的点预测F_k(x) ∈ ℝ^H。一个确定性集成组合器Ens: ℝ^{H×K} → ℝ^H预先固定。一个*路由*是一个策略π(x; F) ∈ {1, …, K, Ens}，产生预测

ŷ_π(x) = { F_{π(x)}(x) 若π(x) ∈ [K], Ens(F₁(x), …, F_K(x)) 若π(x) = Ens. } (1)

我们寻求一个最小化期望逐行损失的路由

π^⋆ = arg min_π E_{(x,y)~D}[ ℓ(ŷ_π(x), y) ], (2)

其中D是训练分布，ℓ是逐行MASE。

路由头与训练目标。TimeRouter通过在固定特征映射φ(x) ∈ ℝ^d上的一对多（OvA）分类器参数化π，该特征映射拼接了上下文统计量（趋势、季节性、自相关、长度……）、每个FM的上下文尾部交叉验证分数以及每个FM的下采样预测；后两个块是Wolpert（1992）意义上的堆叠风格特征。对于每个k ∈ [K]，一个二元分类器g_{θ_k}: ℝ^d → [0,1]预测F_k在输入x上是否是预言最优FM；记预言标签

k^⋆(x,y) = arg min_{k∈[K]} ℓ(F_k(x), y), (3)

每个二元分类器通过最小化期望二元交叉熵来训练：

θ_k^⋆ = arg min_{θ_k} E_{(x,y)~D}[ BCE(g_{θ_k}(φ(x)), 1{k^⋆=k}) ]. (4)

在推理时，K个分类器得分被L₁归一化为得分向量p(x) = (p₁(x), …, p_K(x))。当门控信任该预测时，路由承诺给arg max_k p_k(x)，否则推迟到Ens。

在推理时从路由得分和池预测计算两个标量信号：

边界：m(x) = p_{(1)}(x) - p_{(2)}(x), (5)
多样性：d(x) = H^{-1} ∑_{t=1}^H std_k( F_k(x;t)/s(x) ), (6)

其中p_{(j)}是得分向量p(x)的第j个顺序统计量，F_k(x;t)是FM k在预测步t的点预测，s(x)是每序列的上下文尺度。边界存在于*决策空间*；多样性存在于*预测空间*，在FM们对未来看法不一致的输入上较大。低多样性表明池预测已经高度一致，此时承诺给单个FM相比集成回退的优势有限。给定阈值(τ_m, τ_d) ≥ 0，门控路由：

π(x) = { Ens 若 m(x) < τ_m 或 d(x) < τ_d, arg max_k p_k(x) 否则. } (7)

阈值(τ_m, τ_d)在训练集OOF上选择（§3）。

集成组合器。部署的组合器是CV逆加权平均：

Ens(F₁(x), …, F_K(x)) = ∑_{k=1}^K w_k(x) F_k(x), (8)
w_k(x) ∝ 1/(CV_score_k(x) + ε),

其中CV_score_k是FM k的上下文尾部单窗口CV-MASE，权重归一化到和为1。替代组合器（未加权平均、逐步中位数、逆CRPS）可插入同一门控，无需改变头或阈值调整过程。

## 3 实验

基准与模型池。我们在GIFT-EVAL（Aksuet al.,2024）上评估，这是一个包含97个预测任务的基准测试，附有公开排行榜。作为基础模型池，我们使用来自多个预测范式的四个检查点：Chronos-2（Ansari and others,2025），FlowState（Graf and others,2025），PatchTST-FM（Wenet al.,2026），和Sundial（Liu and others,2025b）。选择这些模型是因为它们在排行榜上独立表现强劲且预测行为互补。所有池成员在路由头训练期间保持冻结。

实现细节。对于我们的四FM池，特征映射有d=305维（165个与池无关的维度加上每个FM 35个，其中3个是CV统计量，32个是预测片段桶；分块细节见附录A）。一对多分类器对每个二元g_{θ_k}使用XGBoost（Chen and Guestrin,2016），每个FM一个。我们拟合S=5个仅random_state不同的种子；每个种子的K个分类器得分被L₁归一化为每个种子的得分向量，推理时对S个种子的向量取平均。门控阈值(τ_m, τ_d)通过在5折任务分组GroupKFold OOF划分上的网格搜索选择。

主要结果。表1比较了TimeRouter与GIFT-EVAL排行榜上最强的单FM和路由基线。TimeRouter达到LB MASE 0.6765，成为排行榜上的新最先进；它比最强的单FM（Chronos-2，0.6978）改进约200个基点，并略超最强的LLM判断路由器（TSOrchestra，0.6768）约3个基点，同时在基础模型路由步骤中不产生LLM推理开销。

表1：GIFT-EVAL LB MASE 比较（越低越好）。LB MASE是97个任务上（方法MASE / 季节性朴素方法MASE）的几何平均值。

效率。TimeRouter对20个专家池（20个一对多XGBoost分类器；约155K训练行）的训练时间约为110秒，每序列仅产生9.9毫秒的推理开销。其轻量级路由设计使得随着TSFM生态系统发展能够快速适应：新发布的基础模型可以加入池中，路由头在几分钟内重新训练，无需更新任何TSFM或调用基于LLM的编排循环。与近期自主路由系统相比，TimeRouter大幅减少了路由开销，同时保留了多专家协调的灵活性。附录B提供了额外的实现和硬件细节。

表2：与已发布的路由和自主预测系统（TSOrchestra (Caoet al.,2025), MoiraiAgent (Salesforce AI Research,2025), TimeCopilot (Garza and Rosillo,2025), Synapse (Daset al.,2025), ZooCast (Shiet al.,2025)）的效率比较。路由延迟对所有方法均排除基础模型预测时间。

## 4 消融实验

### 4.1 选择性门控消融

保持一对多分类器和CV逆加权回退不变，我们将部署的选择性门控与始终承诺给分类器argmax的无门控变体进行比较。图2报告了GIFT-EVAL上按项划分的LB MASE。

选择性门控将整体性能提升了+13个基点，但效果高度依赖于项：它提升了长程任务+90个基点和中程任务+14个基点，同时在短程任务上略有倒退（-14个基点）。这与直觉一致，即f

TimeRouter：高效自适应的时间序列基础模型路由

相似文章

评估基础模型在时间序列预测中的运行可行性

从早期经验中学习智能体路由

重新思考逐步模型路由：一种面向表格推理的成本高效视角

表征优先于路由：克服多时间尺度PPO中的代理劫持

使用流形幂迭代重新设计混合专家路由器

提交意见反馈