自适应分块在时间序列预测中比看起来更难实现

arXiv cs.LG 2026/06/04 04:00 论文

摘要

本文从理论和实验两个角度对时间序列 Transformer 的自适应分块方法进行了深入研究，推导出内容自适应分词应优于调优后的均匀分块的条件。在标准基准上的受控实验表明，经过良好调优的均匀基线与动态分块方法具有相当的竞争力，这对自适应方法所假设的优势提出了质疑。

arXiv:2606.04074v1 公告类型：新论文摘要：自适应分块是近年来针对时间序列 Transformer 提出的一种颇具吸引力的方案：在序列局部信息量较大的区域分配更细粒度的块。本文探讨在何种条件下，内容自适应分块算子应优于经调优的均匀分块算子。仅凭局部异质性并不足够：在逐点预测损失下，看似复杂的区域并不自动意味着更细粒度的分块能够降低损失。我们将分块建模为有预算约束的比特率分配问题，推导出动态分块规则击败良好调优的均匀基线所需满足的显式阈值，并分别从局部（二次代理）和全局（模型假设下的强凸性界）两个层面界定了可实现的改进上限。由此得出两条结构性结论：在缺乏耦合约束的情况下，标量局部复杂度无法在常见损失曲面下产生非均匀最优解；一旦骨干网络训练至其表示感知最优点，对齐增益将在良好调优的均匀块大小附近趋于消失。为验证上述预测，我们针对三种代表性架构开展了受控隔离研究，在保持骨干网络、数据和训练协议不变的前提下，将各自的自适应机制替换为均匀块大小的网格搜索。在标准长时域预测基准上，经验证集选择的均匀基线与动态对应方法具有可比的性能，各设置下的效果差异集中在零附近，按数据集聚合后无一致的方向性优势。我们所观察到的较大收益具有方法和数据集的特异性。因此，自适应分块应与经调优的均匀基线进行对比评估；其价值取决于能否获得一种低成本且可靠的路由信号，以准确识别出更细粒度的分块确实能够降低预测损失的位置。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:20

# 自适应分块比看起来更难：时间序列预测中的挑战
来源：https://arxiv.org/html/2606.04074

Federico Zucchi¹·⁵ Yi Xie² Chao Zhang³ Keyuan Luo⁴ Thomas Lampert¹ Ziyue Li²·⁶

¹ICube, University of Strasbourg, Illkirch-Graffenstaden, 法国 ²Technical University of Munich ³FinTech Thrust, The Hong Kong University of Science and Technology（Guangzhou） ⁴Computer Science Department, Hainan Bielefeld University of Applied Sciences ⁵Cephalgo, Strasbourg, 法国 ⁶Heilbronn Data Science Center, Munich Data Science Institute

[email protected] [email protected] [email protected] [email protected] [email protected] [email protected]

###### 摘要

自适应分块是近年来针对时间序列 Transformer 提出的一种颇具吸引力的方案：在序列局部信息量较大的区域分配更细粒度的分块。本文探讨在何种条件下，内容自适应分块算子能够优于经过调优的均匀分块算子。仅有局部异质性并不充分：在逐点预测损失下，看起来复杂的区域并不自动意味着更细粒度的分块能够降低损失。我们将分块建模为受预算约束的码率分配问题，并推导出动态分块规则要优于调优均匀基线所需满足的显式阈值，进而在局部（二次代理）和全局（模型假设下的强凸性界）两个层面对可实现的改进量进行了上界分析。由此得到两个结构性结论：在没有耦合约束的情况下，标量局部复杂度在常见损失景观下无法产生非均匀最优解；而一旦骨干网络训练至其表征感知最优点，对齐增益会在调优良好的均匀分块尺寸附近坍缩。为验证上述预测，我们在三种代表性架构上进行了受控隔离实验，在保持骨干网络、数据和训练协议不变的前提下，将各自的自适应机制替换为均匀分块尺寸扫描。在标准长期预测基准上，通过验证集选择的均匀基线与动态对应方案表现相当，各设置下的效果集中在零附近，按数据集汇总后无一致的方向性优势。我们观察到的较大增益具有方法和数据集特异性。因此，自适应分块应与调优均匀基线进行比较；其价值取决于是否能找到一种廉价且可靠的路由信号，以识别更细粒度分块实际上能降低预测损失的区域。

## 1 引言

分块如今已成为时间序列 Transformer 的默认分词步骤。这一构造直接源自视觉领域（Dosovitskiy et al., 2021），经由 PatchTST（Nie et al., 2023）引入，并被后续的预测架构和基础模型所沿用（Liu et al., 2024；Das et al., 2024；Woo et al., 2024；Ansari et al., 2024）。视觉领域已进一步演进。该领域的一条研究路线认为，均匀网格会在平坦区域浪费分辨率，而在细节丰富的区域又分辨率不足，因此在图像结构更丰富的地方自适应调整 token 预算（Dehghani et al., 2023；Ronen et al., 2023；Yin et al., 2022；Bolya et al., 2023；Yin et al., 2025）。将这一思路迁移到时间序列看似合理：变化点、状态转换以及高频结构的爆发在输入中看起来具有意义，因此它们应该是更细粒度分块能够降低预测损失的地方。这是一系列动态分块方法的出发点，这些方法利用预测熵、时间异质性、学习到的信息密度或混合尺寸机制来路由边界或 token 粒度（Abeywickrama et al., 2025；Ding et al., 2026；Huang et al., 2024；Ankireddy et al., 2026；Feng et al., 2025）。

这一前提比看起来更难成立，因为"看起来信息量大"和"更细粒度分块有助于降低损失"是两个不同的表述。首先，预测序列中没有规范的局部信息密度定义，因此每种方法都要选择一个代理指标，并继承该代理所带来的所有错误。其次，MSE 等逐点损失本身并不能说明应在哪里投入额外的分辨率；高方差区域不一定是更细粒度分块实际上能减小误差的区域。第三，即使路由方向正确，任何增益都必须超过路由机制的开销，而一旦代理有噪声或与损失弱对齐，这种增益就会迅速缩小。

Refer to caption Refer to caption

**图 1：调优均匀分块与三种动态方法的对比。** 对每个（方法，数据集，预测步长）组合，我们选择验证集 MSE 最低的均匀分块尺寸，并报告相应的测试集 MSE 增益和训练速度。左图：该验证集选择的均匀分块相对于匹配的动态基线的测试集 MSE 相对增益。右图：加速比使用相同的选定分块，在每个数据集内对各预测步长取平均。

#### 本文工作。

我们的出发点是实证研究。我们选取三种近期的动态分块方法——EntroPE（Abeywickrama et al., 2025）、TimeMosaic（Ding et al., 2026）和 HDMixer（Huang et al., 2024）——并在保持骨干网络、数据和训练协议不变的前提下，将各自的自适应机制替换为均匀分块尺寸扫描。通过验证集选择的均匀基线的测试集 MSE 在 EntroPE、HDMixer 和 TimeMosaic 分别 $56.3\%$、$75.0\%$ 和 $59.4\%$ 的设置上与动态变体持平或更优（图 1，左），且训练成本持平或更低（在验证集选定分块下，各方法的平均训练加速比分别为 EntroPE $1.27\times$、HDMixer $1.69\times$、TimeMosaic $1.24\times$；在个别数据集上最高可达 $3.4\times$，图 1，右）。

这一模式在长期预测领域并不陌生——Zeng et al.（2023）曾表明 DLinear 可以媲美调优的 Transformer 架构，Chen et al.（2023）也通过 TSMixer 进一步印证了这一点。我们将这一直觉再深入一层：不再质疑骨干网络是否必须是 Transformer，而是聚焦于底层分词策略本身是否需要自适应。

为解释这种情况何时应当发生、何时不应发生，我们采用了一种信息论框架。将分块视为受预算约束的码率分配，局部复杂度 $K_t \geq 0$ 与码率 $r_t$ 匹配，预测误差由严格凸失真函数 $D$ 近似。简短的推导给出了动态调度相对于预算匹配均匀基线所能获得的增益上界（定理 3.8）：

$$\Delta_{\max} = \frac{\bigl(-D'(\bar{r})\bigr)^{2}\,\rho(K,r)^{2}\,\sigma_{K}^{2}}{2\,\bar{K}\,D''(\bar{r})}. \tag{1}$$

分子汇集了动态调度通过将码率路由至能降低损失的区域所能获得的收益。分母是其必须付出的代价：曲率 $D''(\bar{r})$ 是 Jensen 不等式在凸损失下惩罚任何非均匀分配的速率。从该公式可直接读出三个结论，与图 1 相吻合。

当对齐度为零（$\rho = 0$）时，上界为零：与损失相关复杂度不相关的路由不提供任何增益。此外，若时间步之间没有预算耦合约束，无论路由信号如何，标量局部复杂度都无法产生非均匀最优解；这是标量不变性结果（定理 3.3）。由于 $\rho$ 以二次方出现，增益上界随对齐度减弱而迅速下降：即使是轻微的错位也能消除大部分可用空间。自适应性还需要真实的复杂度变化，而不仅仅是可观测的不规则性，因为 $\sigma_K^2$ 线性地控制着可用空间。而一旦均匀基线调优至其表征感知最优点附近，$-D'(\bar{r})$ 趋近于零，上界坍缩；这就是最优性陷阱。

#### 贡献。

- •**针对 EntroPE、TimeMosaic 和 HDMixer 的受控隔离研究**：在骨干网络、数据和训练协议保持不变的条件下，将各自的自适应机制替换为调优的均匀分块尺寸后，精度近乎持平，训练成本持平或更低，在选定的预测步长设置上加速比最高可达 $5.3\times$（图 1）。
- •**关于自适应性何时有效、何时无效的理论解释**：动态分块胜出的前提是其路由信号与额外分辨率实际上能降低预测损失的区域有良好的对齐，且对齐程度必须足够强，以克服不均匀分配预算的惩罚。这一可用空间在结构上是脆弱的。轻微的错位会消除其大部分；将均匀分块尺寸调优至骨干网络的最优点会使剩余空间坍缩，即最优性陷阱；而仅凭局部复杂度的标量度量，若无时间步之间的耦合约束，则无法驱动非均匀最优解（定理 3.3）。

## 2 相关工作

#### 时间序列 Transformer 的均匀分块。

PatchTST（Nie et al., 2023）确立了将长度为 $T$ 的序列划分为 $N = \lceil T/b \rceil$ 个固定长度为 $b$ 的分块的做法，将注意力计算复杂度从 $\mathcal{O}(T^2)$ 降至 $\mathcal{O}(N^2)$，同时提供隐式局部平滑；iTransformer（Liu et al., 2024）保留了固定 token 的惯例，同时重新组织了每个 token 所代表的内容。后续基础模型工作（TimesFM（Das et al., 2024）、Chronos（Ansari et al., 2024）、Moirai（Woo et al., 2024））大多保留了静态分块或分词选择作为默认设置。我们将*调优后的*均匀分块尺寸作为研究其改进难度的工作点，将 DLinear 和 TSMixer 为骨干网络建立的强基线经验延伸至分词策略层面（Zeng et al., 2023；Chen et al., 2023）。

#### 时间序列中的动态分块与自适应分词。

近期方法使用多种代理指标自适应地放置边界或调整粒度：EntroPE（Abeywickrama et al., 2025）使用预测熵；TimeSqueeze（Ankireddy et al., 2026）使用 SSM 编码器衡量信息密度；TimeMosaic（Ding et al., 2026）使用时间异质性；PathFormer（Chen et al., 2024）、DualSG（Ding et al., 2025）、PatchMLP（Tang and Zhang, 2025）和 Kairos（Feng et al., 2025）对多种粒度进行路由或混合；HDMixer（Huang et al., 2024）混合层次化、长度可变的分块。ReinPatch（Wu et al., 2026）则将分块边界放置作为强化学习策略与下游序列骨干网络联合学习。另一条相关但不同的研究路线重塑了训练目标或分块特定的处理方式，而非边界本身（Kudrat et al., 2025；Hu et al., 2025）。固定多尺度替代方案，如 TimeMixer（Wang et al., 2024）和 N-HiTS（Challu et al., 2023），表明无需动态分块分配即可利用层次化结构；归因于自适应性的增益可能部分反映的是这种层次结构，而非窗口内部的变化。

#### 自适应分词与计算。

视觉 Transformer 为自适应分词提供了实证先例。NaViT（Dehghani et al., 2023）通过打包可变长度 token 序列以原始分辨率处理图像；自适应分块尺寸 ViT（Ronen et al., 2023）学习空间变化的粒度；A-ViT（Yin et al., 2022）根据信息量标准按 token 停止计算；Token Merging（Bolya et al., 2023）在后处理阶段压缩冗余 token。同样的思路在*自适应计算*领域有更长的历史：Adaptive Computation Time 让循环网络学习依赖输入的计算步数（Graves, 2016）；PonderNet 学习概率停机分布（Banino et al., 2021）；稀疏混合专家将样本或 token 路由至专家子集（Shazeer et al., 2017；Fedus et al., 2022）；Mixture-of-Depths 将 token 路由通过 Transformer 块的子集（Raposo et al., 2024）。这些工作揭示了与本文所研究的相同权衡：只有当路由或停机策略廉价、稳定且与目标对齐时，自适应计算才有价值。

## 3 理论：动态分块的结构性局限

一个简洁的形式化模型使本文的核心问题更加明确：动态分块方案何时以及能在多大程度上优于调优的均匀基线？我们的形式化遵循经典的率失真理论（Cover and Thomas, 2006），该理论在码率与失真之间进行权衡。

### 3.1 设置

###### 定义 3.1（码率密度）。

固定预测步长为 $T$ 步，每个 token 的容量为 $C$。分块方案产生 $N$ 个分块 $P_1, \dots, P_N$，覆盖（可能重叠的）长度为 $L_i$ 的区间 $S_i$。步骤 $t$ 处的*有效码率*为

$$r_t := \sum_{i=1}^{N} \frac{C}{L_i} \mathbf{1}\!\left\{t \in S_i\right\} \tag{2}$$

即每个分块在其跨度内均匀贡献 $C/L_i$ 比特。

###### 定义 3.2（可行分配与目标）。

在分析中，将 $t$ 从 $\{0, \ldots, T{-}1\}$ 均匀采样，记 $K = K_t$，$r = r_t$，$\mathbb{E}$ 表示时间上的经验平均。令 $K_t \geq 0$，$\bar{K} := \mathbb{E}[K] > 0$，

自适应分块在时间序列预测中比看起来更难实现

相似文章

PatchSTG: 用于不规则传感器网络交通预测的可扩展时空图变换器

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

Scratchpad Patching：在字节级语言模型中解耦计算量与补丁大小

PMDformer：面向长期预测的补丁均值解耦信息变换器

TS-Fault：针对结构性故障的时间序列预测器基准测试

提交意见反馈