PMDformer:面向长期预测的补丁均值解耦信息变换器
摘要
PMDformer 引入了补丁均值解耦和专用注意力机制,以改进长期时间序列预测中的形状相似性建模,在多个基准测试上优于现有方法。
arXiv:2606.26549v1 公告类型:新
摘要:长期时间序列预测(LTSF)在能源管理、金融和交通预测等领域中发挥着关键作用。基于Transformer的模型采用了基于补丁的策略来捕获长程依赖关系,但由于尺度差异,准确建模跨补丁和变量的形状相似性仍然具有挑战性。为了解决这一问题,我们引入了补丁均值解耦(PMD),通过减去每个补丁的均值来分离趋势和残差形状信息,保留原始结构,确保注意力机制捕获真实的形状相似性。此外,为了更有效地建模长程依赖关系并捕获跨变量关系,我们提出了趋势恢复注意力(TRA)和近端变量注意力(PVA)。前者模块在计算注意力输出的同时重新整合PMD解耦的趋势。后者则将跨变量注意力聚焦在最相关的近期时间片段上,以避免对过时相关性的过拟合。结合这些组件,我们提出了PMDformer,一个旨在有效捕获长期预测场景中形状相似性的模型。大量实验表明,PMDformer在多个LTSF基准测试上的稳定性和准确性均优于现有最先进方法。代码可在https://github.com/aohu1105/PMDformer获取。
查看缓存全文
缓存时间: 2026/06/26 05:13
# PMDformer:面向长期预测的补丁均值解耦信息Transformer
来源:https://arxiv.org/html/2606.26549
胡奥¹,²任梁健¹,⁷段江¹,⁶¹¹脚注标记:¹戴勇⁵何燕⁶王东凯¹王军¹张宇坤⁴,²蒋若曦²,³徐增林²,³²²脚注标记:²
¹西南财经大学
²上海人工智能实验室
³复旦大学
⁴哈尔滨工业大学(深圳)
⁵X-Humanoid研究院
⁶成都极米科技股份有限公司
⁷四川省人工智能与数字金融重点实验室
{huao1105, wlj6816, zenglin}@gmail.com
[email protected]
###### 摘要
长期时间序列预测(LTSF)在能源管理、金融和交通预测等领域发挥着关键作用。基于Transformer的模型采用了补丁策略来捕捉长程依赖关系,但由于尺度差异,准确建模不同补丁和变量之间的形状相似性仍然具有挑战性。为此,我们引入了补丁均值解耦(PMD),通过减去每个补丁的均值来分离趋势和残差形状信息,保留原始结构并确保注意力机制捕获真实的形状相似性。此外,为了更有效地建模长程依赖关系和捕捉跨变量关系,我们提出了趋势恢复注意力(TRA)和近端变量注意力(PVA)。前者模块在计算注意力输出的同时重新整合PMD解耦出的趋势。后者则将跨变量注意力聚焦在最相关、最近的时间段上,以避免在过时的相关性上过拟合。结合这些组件,我们提出了PMDformer,一个旨在长期预测场景中有效捕捉形状相似性的模型。大量实验表明,PMDformer在多个LTSF基准测试中,在稳定性和准确性方面均优于现有最先进方法。代码可在https://github.com/aohu1105/PMDformer获取。
## 1 引言
长期时间序列预测(LTSF)是机器学习中的一项关键任务,在能源管理(Box and Jenkins, 1990 (https://arxiv.org/html/2606.26549#bib.bib14))、金融市场(Hu等人,2025c (https://arxiv.org/html/2606.26549#bib.bib13))和交通预测(Guo等人,2019 (https://arxiv.org/html/2606.26549#bib.bib16);Yi等人,2023b (https://arxiv.org/html/2606.26549#bib.bib17))等领域有广泛应用。最近的基于Transformer的模型从计算机视觉(Dosovitskiy等人,2020 (https://arxiv.org/html/2606.26549#bib.bib38))中汲取灵感,越来越多地采用基于补丁的策略(Nie等人,2023 (https://arxiv.org/html/2606.26549#bib.bib11);Zhang和Yan,2023 (https://arxiv.org/html/2606.26549#bib.bib23);Chen等人,2024 (https://arxiv.org/html/2606.26549#bib.bib24);Wang等人,2024c (https://arxiv.org/html/2606.26549#bib.bib28))来更好地捕捉长程依赖关系。这些方法大多将变量独立处理(VI)(Huang等人,2025 (https://arxiv.org/html/2606.26549#bib.bib7);Lin等人,2024 (https://arxiv.org/html/2606.26549#bib.bib8)),而依赖变量(VD)的方法(Liu等人,2024a (https://arxiv.org/html/2606.26549#bib.bib10);Luo和Wang,2024 (https://arxiv.org/html/2606.26549#bib.bib27))虽然对变量间的相互作用进行建模,但尚未显示出一致的性能提升。
与具有固定空间结构的2D图像不同,时间序列是一维曲线(Germain等人,2024 (https://arxiv.org/html/2606.26549#bib.bib43);Hamilton,2020 (https://arxiv.org/html/2606.26549#bib.bib50)),主要关注点在于捕捉补丁或变量之间的形状相似性(Grabocka等人,2014 (https://arxiv.org/html/2606.26549#bib.bib41);Kacprzyk等人,2024 (https://arxiv.org/html/2606.26549#bib.bib42))以及对长程趋势的建模(Li等人,2023 (https://arxiv.org/html/2606.26549#bib.bib51))。例如,两个补丁可能具有相似的趋势,例如以相近的变化率逐渐增加。识别这种形状对应关系有助于模型提取时间上一致的模式,并提高预测准确性。然而,时间序列数据本质上是非平稳的(Fan等人,2023 (https://arxiv.org/html/2606.26549#bib.bib21);Liu等人,2022b (https://arxiv.org/html/2606.26549#bib.bib20)),补丁的尺度随时间剧烈波动。如图2 (https://arxiv.org/html/2606.26549#S1.F2) 的顶部面板所示,尽管P1与P2的形状更为相似,但注意力权重显示(P1, P3)高于(P1, P2)。这是因为P1、P2和P3之间的不同尺度影响了注意力权重,从而未能反映真实的形状相似性。因此,模型可能学到错误的相似关系,导致性能下降。此外,这种尺度偏差在变量间依赖关系建模中更为明显,进一步阻碍了VD模型的有效性。
为了平衡补丁的尺度差异,近期方法采用了补丁归一化(Patch Normalization)(Liu等人,2023b (https://arxiv.org/html/2606.26549#bib.bib25)),该方法通过减去均值并除以标准差对每个补丁进行Z-score归一化。然而,标准差的移除会无意中扭曲补丁的原始形状。因此,它阻碍了模型识别补丁或变量间形状相似性的能力。在本文中,我们提出一种简单而有效的替代方法,称为补丁均值解耦(PMD)。我们减去每个补丁的均值,从而将每个补丁重新中心化到零均值,并明确地将编码在补丁均值中的长程趋势分量与残差形状信息分离开。与补丁归一化不同,我们的方法保留了原始的幅度变化,保持了内在的形状结构,确保模型能更好地捕捉补丁间真实的形状相似性。如图2所示,通过我们的方法,注意力更倾向于形状对齐的配对(P1, P2),而不是形状未对齐的配对(P1, P3)。
参见说明图1:三个补丁在补丁均值解耦前后的注意力权重。尺度差异最初掩盖了真实的形状相似性,解耦后清晰显现为相关性增加(红色)或减少(绿色),蓝色表示(P3, P1)和(P3, P2)的类似相似性。
参见说明图2:所有基线模型与我们提出的PMDformer的MSE比较。结果取所有预测长度的平均值。
因此,PMD使得跨补丁和变量的注意力更加聚焦于形状,揭示了被尺度掩盖的真实相似性。对于跨变量形状建模,现有方法(Luo和Wang,2024 (https://arxiv.org/html/2606.26549#bib.bib27);Zhang和Yan,2023 (https://arxiv.org/html/2606.26549#bib.bib23))通常计算整个历史窗口上的相互作用。然而,跨变量关系往往是非平稳的,并随时间演变,因此最近的相互作用对预测未来动态最具预测性。例如,在金融市场中,资产相关性在危机期间经常急剧上升。依赖整个历史依赖关系会引入大量噪声和冗余,降低性能。为了解决这个问题,我们引入了近端变量注意力(PVA),它将自注意力限制在最近的补丁——即最接近预测范围的时间段。通过在这个时间相关窗口内捕捉变量间的形状相似性,PVA最小化了历史漂移带来的噪声和过拟合风险。
作为补充,PMD通过重新中心化内在削弱了长期趋势信号,可能忽略全局依赖关系。为了在不破坏时间补丁间形状匹配的情况下恢复这一信号,我们提出了趋势恢复注意力(TRA),它将解耦后的均值(长程趋势信息)显式注入到注意力机制的值通路中。这种无缝集成使模型能够联合编码局部形状模式和全局趋势,从而产生更稳定的预测。
基于上述内容,我们提出了**PMDformer**,它结合了补丁均值解耦(PMD)模块、近端变量注意力(PVA)、趋势恢复注意力(TRA)以及最终预测的投影层。我们的PMDformer与其他最先进模型的预测精度比较请参见图2。我们的贡献如下:
- •我们引入了一种新机制,通过残差均值减除在注意力模块内解耦趋势和残差形状,从而更有效地捕捉时间补丁和变量之间的形状相似性。
- •我们引入了近端变量注意力,专注于最近的补丁以捕捉最相关的形状相似性,减轻过拟合。
- •我们通过在多个LTSF基准上进行的广泛实验证明了我们方法的有效性,表明PMDformer比当前最先进的方法提供更稳定、更准确的预测。
## 2 相关工作
深度学习模型在长期时间序列预测中展现了卓越的性能。这些模型大致可分为基于Transformer的模型(Vaswani等人,2017 (https://arxiv.org/html/2606.26549#bib.bib19);Wu等人,2021 (https://arxiv.org/html/2606.26549#bib.bib52);Liu等人,2022a (https://arxiv.org/html/2606.26549#bib.bib31);Zhou等人,2022 (https://arxiv.org/html/2606.26549#bib.bib53))、基于MLP的模型(Zeng等人,2023 (https://arxiv.org/html/2606.26549#bib.bib54);Li等人,2023 (https://arxiv.org/html/2606.26549#bib.bib51);Wang等人,2024a (https://arxiv.org/html/2606.26549#bib.bib4);Hu等人,2025b (https://arxiv.org/html/2606.26549#bib.bib65))、基于GNN的模型(Huang等人,2023 (https://arxiv.org/html/2606.26549#bib.bib55);Yi等人,2023a (https://arxiv.org/html/2606.26549#bib.bib22))和基于CNN的模型(Wang等人,2023 (https://arxiv.org/html/2606.26549#bib.bib56);Eldele等人,2024 (https://arxiv.org/html/2606.26549#bib.bib57);Hu等人,2025a (https://arxiv.org/html/2606.26549#bib.bib64))。
#### 基于Transformer的时间序列模型。
Transformer(Vaswani等人,2017 (https://arxiv.org/html/2606.26549#bib.bib19))在NLP中的成功启发了其在LTSF中的改编,以捕捉长程依赖关系。早期模型将序列视为具有高效注意力的令牌序列:Informer(Zhou等人,2021 (https://arxiv.org/html/2606.26549#bib.bib30))使用ProbSparse降低复杂度;Pyraformer(Liu等人,2022a (https://arxiv.org/html/2606.26549#bib.bib31))采用金字塔注意力;Autoformer(Wu等人,2021 (https://arxiv.org/html/2606.26549#bib.bib52))添加了分解;FEDformer(Zhou等人,2022 (https://arxiv.org/html/2606.26549#bib.bib53))引入了频率块。然而,它们的有效性受到简单线性模型的挑战(Zeng等人,2023 (https://arxiv.org/html/2606.26549#bib.bib54)),这强调了更好时间建模的需求。
#### 基于补丁的时间序列模型。
受视觉Transformer(Dosovitskiy等人,2020 (https://arxiv.org/html/2606.26549#bib.bib38))的启发,近期工作将时间序列分割成重叠或不重叠的补丁,以增强局部语义捕捉。基于Transformer的例子包括PatchTST(Nie等人,2023 (https://arxiv.org/html/2606.26549#bib.bib11)),它使用变量独立的共享编码器处理时间补丁语义(在LTSF中为SOTA),以及Pathformer(Chen等人,2024 (https://arxiv.org/html/2606.26549#bib.bib24)),采用多尺度补丁和自适应路径选择处理内部/跨依赖关系。MLP变体如TSMixer(Ekambaram等人,2023 (https://arxiv.org/html/2606.26549#bib.bib26))和PatchMixer(Gong等人,2023 (https://arxiv.org/html/2606.26549#bib.bib59))通过MLP建模补丁关系,而基础模型如Moirai(Woo等人,2024 (https://arxiv.org/html/2606.26549#bib.bib33))、Timer(Liu等人,2024b (https://arxiv.org/html/2606.26549#bib.bib32))、TimesFM(Das等人,2024 (https://arxiv.org/html/2606.26549#bib.bib34))以及基于LLM的模型(Pan等人,2024 (https://arxiv.org/html/2606.26549#bib.bib60);Jin等人,2023 (https://arxiv.org/html/2606.26549#bib.bib61))利用补丁进行预训练和跨模态对齐。最近的TimeBase(Huang等人,2025 (https://arxiv.org/html/2606.26549#bib.bib7))采用正交化补丁减少冗余,实现SOTA效率,这进一步强调了补丁在LTSF建模中的成功。
#### 补丁归一化。
由于时间序列的非平稳特性,一些工作(Fan等人,2023 (https://arxiv.org/html/2606.26549#bib.bib21);Kim等人,2021 (https://arxiv.org/html/2606.26549#bib.bib62))应用归一化来缓解尺度差异并稳定分布。其中,补丁级归一化工作包括SAN(Liu等人,2023b (https://arxiv.org/html/2606.26549#bib.bib25)),一个与模型无关的框架,通过移除非平稳性自适应地归一化切片以实现灵活预测;以及SIN(Han等人,2024b (https://arxiv.org/html/2606.26549#bib.bib49)),它选择性地学习归一化参数以最大化局部不变性和全局变异性,从而实现可解释的长期预测。然而,这些归一化方法通过使用标准差缩放扭曲了内在补丁形状,阻碍了真实形状相似性的捕捉。相比之下,我们的PMD通过均值减法克服了这一限制,保留了幅度。
## 3 提出的方法
我们考虑长期时间序列预测任务,目标是在给定历史观测值的情况下预测多个相关变量的未来演变。形式上,设 \(\mathbf{X} = \{x_t \in \mathbb{R}^C \mid t = 1, 2, \ldots, L\}\) 表示长度为 \(L\) 的输入序列,其中 \(C\) 是变量数量。每个 \(x_t = (x_t^1, x_t^2, \ldots, x_t^C)\) 包含时刻 \(t\) 所有变量的值。给定 \(\mathbf{X}\),目标是预测后续 \(T\) 个时间步 \(\hat{\mathbf{Y}} = \{\hat{x}_t \in \mathbb{R}^C \mid t = L+1, \ldots, L+T\}\)。
### 3.1 总体结构
我们提出的**PMDformer**架构是一个统一框架,由四个协同模块组成,旨在显式地将长期趋势与形状结构解耦,选择性地聚焦于最相关的变量间依赖关系,并确保准确恢复全局动态以实现稳定预测,如图3所示。
(a) **补丁均值解耦(PMD)**:该模块将输入时间序列分割成不重叠的补丁,并将每个补丁显式分离为其长期趋势分量和残差形状分量。
(b) **近端变量注意力(PVA)**:为了捕捉最相关的跨变量依赖关系,PVA模块将其自注意力机制仅聚焦于最后一个(近端)补丁的 \(C\) 个令牌,对所有变量间的相互作用进行建模。
(c) **趋势恢复注意力(TRA)**:该模块旨在建模补丁间的形状相似性。关键在于,它将长程趋势信息**恢复**到值通路中,从而能够准确捕捉和利用整体的长期趋势。
(d) **投影层**:该最终层结合学习到的时间表示相似文章
PESD-TSF:一种周期感知与显式结构化分解的长期时间序列预测框架
提出PESD-TSF,一种受物理启发的结构化分解框架,用于长期时间序列预测,通过乘法周期性门控、多尺度结构化编码器和跨尺度协作注意力来解决周期感知退化、趋势-噪声纠缠和跨变量依赖关系丢失的问题。
自适应分块在时间序列预测中比看起来更难实现
本文从理论和实验两个角度对时间序列 Transformer 的自适应分块方法进行了深入研究,推导出内容自适应分词应优于调优后的均匀分块的条件。在标准基准上的受控实验表明,经过良好调优的均匀基线与动态分块方法具有相当的竞争力,这对自适应方法所假设的优势提出了质疑。
MMDiff: 扩展扩散变换器以实现多模态生成
MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。
从长新闻到精准预测:重要性感知融合与PRM引导的反思在时间序列预测中的应用
本文介绍了一个时间序列预测框架,该框架利用重要性感知的新闻压缩和过程奖励模型引导的检索,在固定上下文长度内融入长新闻文章,从而提高金融、能源、交通和比特币基准上的预测精度。
预测中期阿尔茨海默病进展:基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器
本文提出了一种残差间隙感知变换器,将混合效应统计参考与基于变换器的残差学习相结合,利用ADNI临床和生物标志物历史数据预测24个月CDR-SB变化,在均方误差和相关性上均优于基线模型。