PESD-TSF:一种周期感知与显式结构化分解的长期时间序列预测框架

arXiv cs.LG 论文

摘要

提出PESD-TSF,一种受物理启发的结构化分解框架,用于长期时间序列预测,通过乘法周期性门控、多尺度结构化编码器和跨尺度协作注意力来解决周期感知退化、趋势-噪声纠缠和跨变量依赖关系丢失的问题。

arXiv:2605.16449v1 公告类型: 新 摘要:深度预测模型常常随着网络深度增加而遭受周期感知衰减和趋势-噪声表示纠缠的问题。此外,广泛采用的通道独立范式虽然提高了训练稳定性,但破坏了变量之间的内在动态协调,阻碍了多变量时间序列中跨变量一致性的建模。为了解决这些问题,我们提出了PESD-TSF,一种受物理启发的结构化分解框架,用于长期时间序列预测,同时强调可解释性和预测准确性。PESD-TSF引入了三种关键设计。首先,乘法周期性门控机制结合连续时间先验动态调节信号幅度,在深层中保持周期结构。其次,多尺度结构化编码器将去趋势注意力与层次采样相结合,显式地将长期趋势与高频变化解耦,同时保留细粒度的时间语义。第三,为了恢复被破坏的变量间依赖关系,我们提出了跨尺度协作注意力(CSCA)以及RLC正则化方案,该方案在深层特征空间中重建全局变量间拓扑,并通过正交性和一致性约束强制实现物理一致的合作。在多个领域的基准数据集上进行的大量实验表明,PESD-TSF consistently achieves state-of-the-art performance,尤其在涉及复杂变量耦合的多变量预测任务上取得了特别强的提升,凸显了其优越的结构建模能力和泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:43

# PESD-TSF:一种周期感知的显式结构分解框架用于长期时间序列预测
来源: https://arxiv.org/html/2605.16449
###### 摘要

深度预测模型常常随着网络深度增加而出现周期性感知衰减和趋势-噪声表征纠缠的问题。此外,广泛采用的通道独立范式虽然提升了训练稳定性,但破坏了变量间固有的动态协调性,阻碍了对多元时间序列中跨变量一致性的建模。为解决这些问题,我们提出PESD-TSF,一种受物理启发的结构化分解框架,用于长期时间序列预测,同时强调可解释性和预测精度。PESD-TSF引入了三个关键设计。首先,一种乘法周期门控机制结合连续时间先验,动态调节信号幅度,在深层中保持周期性结构。其次,一个多尺度结构化编码器整合了去趋势注意力与分层采样,将长期趋势与高频变化显式解耦,同时保留细粒度的时间语义。第三,为恢复被破坏的变量间依赖关系,我们提出了跨尺度协作注意力(CSCA)以及一种RLC正则化方案,该方案在深层特征空间中重建全局变量间拓扑,并通过正交性和一致性约束强制实现物理一致的协作。在多个领域的基准数据集上进行的大量实验表明,PESD-TSF持续实现了最先进的性能,在涉及复杂变量间耦合的多元预测任务上尤其取得了显著提升,凸显了其优越的结构建模能力和泛化能力。

时间序列预测,深度学习,分解,可解释性,时空建模

## 1 引言

多元长期时间序列预测(LSTF)(Vaswani et al., 2017 (https://arxiv.org/html/2605.16449#bib.bib42)) 对于能源和交通管理等领域至关重要 (Qian et al., 2019 (https://arxiv.org/html/2605.16449#bib.bib43))。虽然深度学习模型在准确性上已超越传统统计方法,但它们通常作为“黑箱”运行,缺乏物理归纳偏置 (Zhang et al., 2026a (https://arxiv.org/html/2605.16449#bib.bib26); Wang et al., 2026b (https://arxiv.org/html/2605.16449#bib.bib30))。因此,这些模型难以将稳健的物理规律(例如周期性、变量间依赖关系)与随机噪声区分开来,导致在分布偏移下预测脆弱 (Wang et al., 2025 (https://arxiv.org/html/2605.16449#bib.bib34))。具体来说,现有架构面临三个局限:(1) 信号稀释:静态位置编码无法在深层特征层次中保持周期模式(例如日历效应)(Luo and Wang, 2024b (https://arxiv.org/html/2605.16449#bib.bib40));(2) 噪声纠缠:注意力机制常被突变扰动分散,阻碍长期趋势与噪声的分离;(3) 相关性丢失:如图1 (https://arxiv.org/html/2605.16449#S1.F1) 所示,流行的通道独立策略人为切断了固有的跨变量依赖关系 (Xue et al., 2023 (https://arxiv.org/html/2605.16449#bib.bib41)),无法建模动态系统协调。

参照图注 图 1:捕获 vs. 丢失依赖关系。左图:多元序列中固有的动态协同。右图:通道独立方法切断了这些关键连接,阻碍了一致的特征学习。为应对这些挑战,我们提出PESD-TSF,一种由物理归纳偏置引导的深度分解框架。如图2 (https://arxiv.org/html/2605.16449#S1.F2) 所示,PESD-TSF 将时间信号显式分解为三个维度:长期趋势、短期扰动和跨变量协作。首先,为缓解周期衰减,我们设计了一种乘法周期门控机制,利用连续时间先验调节信号幅度。其次,我们构建了一个多尺度结构化编码器,采用去趋势注意力与分层采样来将趋势与局部变化分离。最后,为恢复变量间依赖关系,我们引入了带 RLC 正则化的跨尺度协作注意力(CSCA)。该模块强制执行正交性和一致性约束,引导模型学习结构一致的拓扑依赖关系。大量实验表明,PESD-TSF 实现了最先进的性能,有效统一了高预测精度与物理可解释性。

参照图注
图 2:PESD-TSF 示意图。该框架将信号显式分解为三个物理分量:(a) 长期趋势、(b) 短期变化和 (c) 跨变量一致性。这种结构化分解将高预测精度与物理可解释性统一起来。

总之,本文的主要贡献如下:

- • 我们提出了PESD-TSF,一个将时间动力学显式分解为三个物理维度——趋势、扰动和协作——的框架,以有效解决长程依赖衰减和动态变量耦合问题。
- • 我们设计了一个集成周期门控的多尺度结构化编码器。该架构注入连续时间先验以缓解信号稀释,并采用分层采样以解耦多粒度特征。
- • 我们引入了一个正则化潜在分量(RLC)模块。通过施加正交性约束,它强制实现物理可解释、解耦的表征,并重建跨变量拓扑一致性。
- • 在多个不同基准上的广泛实验表明,PESD-TSF 达到了最先进的性能,验证了显式结构分解相对于单纯堆叠深层架构的优越性。

## 2 方法论

为应对时间序列预测中的长程依赖衰减和被忽视的跨变量相关性,我们提出 PESD-TSF,一个基于物理归纳偏置的框架。PESD-TSF 摒弃通用的“黑箱”范式,采用结构化的流程——周期增强、多尺度解耦、协作重建和正则化——来显式捕获底层的序列动力学。

参照图注图 3:PESD-TSF 框架包含三个核心组件:(1) 周期门控:通过幅度调制融合时间特征以捕获周期模式;(2) 多尺度结构化编码器:整合 IntAttention、PatchSampling 和 CSCA 用于多分辨率特征处理和上下文聚合;(3) RLC 模块:利用正交约束 (Lorth\\mathcal{L}_{\text{orth}}) 将表征解耦为趋势、季节性和一致性分量。最后,一个线性层输出预测结果 YY。

### 2.1 问题定义与总体架构

我们将历史观测 X∈RB×L×CX\\in\\mathbb{R}^{B\\times L\\times C} 映射到未来状态 Y∈RB×O×CY\\in\\mathbb{R}^{B\\times O\\times C}。如图 3 (https://arxiv.org/html/2605.16449#S2.F3) 所示,PESD-TSF 采用分层架构,从实例归一化和周期门控开始,通过时间先验调节幅度。随后,一个三阶段编码器解耦趋势、局部变化和相关性,然后是一个线性解码器,并由 RLC 模块施加结构约束进行监督。

### 2.2 周期感知门控与多尺度嵌入

标准加性位置编码存在信号稀释问题且缺乏物理语义。我们提出乘法周期门控,将时间属性建模为连续先验。特征 M∈RB×L×Nfreq\\mathcal{M}\\in\\mathbb{R}^{B\\times L\\times N_{\\text{freq}}} 被映射到嵌入子空间 Wemb(k)∈RVk×Demb\\mathbf{W}_{\\text{emb}}^{(k)}\\in\\mathbb{R}^{V_{k}\\times D_{\\text{emb}}} 中:

Eb,t(k)=Wemb(k)[mb,t,k]∈RDemb.E_{b,t}^{(k)}=\\mathbf{W}_{\\text{emb}}^{(k)}[m_{b,t,k}]\\in\\mathbb{R}^{D_{\\text{emb}}}. (1)

嵌入被拼接成 EcatE_{\\text{cat}},并通过 WfuseW_{\\text{fuse}} 投影到上下文 EtimeE_{\\text{time}}:

Ecat=Concat(E(1),E(2),…,E(Nfreq)),\\begin{split}E_{\\text{cat}}&=\\text{Concat}(E^{(1)},E^{(2)},\\dots,E^{(N_{\\text{freq}})}),\\end{split} (2)

Etime=EcatWfuse∈RB×L×D,E_{\\text{time}}=E_{\\text{cat}}W_{\\text{fuse}}\\in\\mathbb{R}^{B\\times L\\times D}, (3)

其中 Ecat∈RB×L×(Nfreq⋅Demb)E_{\\text{cat}}\\in\\mathbb{R}^{B\\times L\\times(N_{\\text{freq}}\\cdot D_{\\text{emb}})},DembD_{\\text{emb}} 是嵌入维度。WfuseW_{\\text{fuse}} 桥接了多尺度依赖关系。然后一个门控网络生成 GperiodG_{\\text{period}}:

Gperiod=σ(EtimeWgate+bgate)∈(0,1)B×L×1,G_{\\text{period}}=\\sigma(E_{\\text{time}}W_{\\text{gate}}+b_{\\text{gate}})\\in(0,1)^{B\\times L\\times 1}, (4)

其中 Wgate,bgateW_{\\text{gate}},b_{\\text{gate}} 是投影参数,σ\\sigma 是 Sigmoid 函数。该信号调节归一化后的输入 XnormX_{\\text{norm}} 以得到 X′X^{\\prime}:

Xb,t,c′=Xnorm,b,t,c⋅(1+γ⋅Gperiod,b,t),X^{\\prime}_{b,t,c}=X_{\\text{norm},b,t,c}\\cdot(1+\\gamma\\cdot G_{\\text{period},b,t}), (5)

其中 γ\\gamma 控制增强强度。最后,X′X^{\\prime} 的第 nn 个块 pb,n,c∈RPp_{b,n,c}\\in\\mathbb{R}^{P} 被投影到潜在空间 Z(0)Z^{(0)}:

Zb,n,c(0)=pb,n,cWemb∈RD,Z_{b,n,c}^{(0)}=p_{b,n,c}W_{\\text{emb}}\\in\\mathbb{R}^{D}, (6)

其中 WembW_{\\text{emb}} 是投影矩阵。使用零填充和步长 SS,总块数 NN 为:

N=⌊L−PS⌋+1.N=\\lfloor\\frac{L-P}{S}\\rfloor+1. (7)

这得到 Z(0)∈RB×N×C×DZ^{(0)}\\in\\mathbb{R}^{B\\times N\\times C\\times D},将局部特征与周期先验融合以输入编码器。

### 2.3 多尺度结构化分解编码器

编码器采用级联的三阶段设计,带有物理归纳偏置:IntAttention 捕获稳健的时间模式,PatchSampling 聚合多尺度特征,跨尺度协作注意力(CSCA)建模变量间依赖关系。这些阶段共同构成了一个连贯的解耦-重建流水线。

阶段 1:整合注意力(IntAttention)——去噪趋势提取

阶段 1 接收嵌入 Z(0)∈RB×N×C×D\\mathbf{Z}^{(0)}\\in\\mathbb{R}^{B\\times N\\times C\\times D},旨在通过平滑卷积提取稳健趋势。使用均匀核 Kw=1w1wK_{w}=\\frac{1}{w}1_{w}(核大小 w=3w=3,使用相同填充以保持序列长度 NN),我们计算局部趋势 Ztrend(0)Z_{\\text{trend}}^{(0)}:

Ztrend(0)=Z(0)⊛Kw∈RB×N×C×D,Z_{\\text{trend}}^{(0)}=Z^{(0)}\\circledast K_{w}\\in\\mathbb{R}^{B\\times N\\times C\\times D}, (8)

其中 ⊛\\circledast 表示时间卷积。我们减去此分量以获得包含高频波动的去趋势分量 Zdet(0)Z_{\\text{det}}^{(0)}:

Zdet(0)=Z(0)−Ztrend(0).Z_{\\text{det}}^{(0)}=Z^{(0)}-Z_{\\text{trend}}^{(0)}. (9)

我们采用非对称设计。为严格保持通道独立性,我们在注意力操作之前将输入张量重塑为 (B⋅C)×N×D(B\\cdot C)\\times N\\times D。然后我们使用去趋势分量 Zdet(0)Z_{det}^{(0)} 作为查询和键以强调结构相似性,而值来自完整的 Z(0)Z^{(0)}。输出 HattnH_{\\text{attn}} 定义为:

Q=Zdet(0)WQ,K=Zdet(0)WK,V=Z(0)WV,Q=Z_{\\text{det}}^{(0)}W_{Q},\\quad K=Z_{\\text{det}}^{(0)}W_{K},\\quad V=Z^{(0)}W_{V}, (10)

其中 H=8H=8 是注意力头数。输出定义为:

Hattn=Softmax(QK⊤D/H)V.H_{\\text{attn}}=\\text{Softmax}\\left(\\frac{QK^{\\top}}{\\sqrt{D/H}}\\right)V. (11)

最后,我们应用残差连接和层归一化得到 Z(1)Z^{(1)}:

Z(1)=LayerNorm(Z(0)+Hattn)∈RB×N×C×D.Z^{(1)}=\\text{LayerNorm}(Z^{(0)}+H_{\\text{attn}})\\in\\mathbb{R}^{B\\times N\\times C\\times D}. (12)

这保留了原始信息,同时注入了去噪后的上下文特征。

阶段 2:PatchSampling——多粒度特征聚合

为捕获长周期依赖关系,PatchSampling 通过双分支结构(Conv1dtime\\text{Conv1d}_{\\text{time}} 和 MaxPooltime\\text{MaxPool}_{\\text{time}},步长 2,核大小 3)压缩 Z(1)Z^{(1)},并将拼接后的输出映射到维度 DD 而无需信息丢失:

Zagg=Wagg(Concatdim=D[Conv1dtime(Z(1)),MaxPooltime(Z(1))]),\\begin{split}Z_{\\text{agg}}=\\mathbf{W}_{\\text{agg}}\\big(&\\text{Concat}_{\\text{dim}=D}[\\\\ &\\quad\\text{Conv1d}_{\\text{time}}(Z^{(1)}),\\\\ &\\quad\\text{MaxPool}_{\\text{time}}(Z^{(1)})]\\big),\\end{split} (13)

其中 Conv1dtime\\text{Conv1d}_{\\text{time}} 表示一维卷积,Concatdim=D\\text{Concat}_{\\text{dim}=D} 表示特征拼接。这将时间维度减少到 N′=⌊N/2⌋N^{\\prime}=\\lfloor N/2\\rfloor,形成粗粒度特征:

Z(2)∈RB×N′×C×D.Z^{(2)}\\in\\mathbb{R}^{B\\times N^{\\prime}\\times C\\times D}. (14)

这为后续的 CSCA 阶段提供了多尺度上下文。

阶段 3:跨尺度协作注意力(CSCA)——全局协同重建

阶段 3 输入 Z(2)Z^{(2)} 以提取全局变量协同。不同于计算昂贵的动态图建模,我们专注于稳定的、系统范围的相关性。具体来说,我们沿时间维度执行全局平均池化(GAP)以生成紧凑表征 HcH_{c}:

Hc=1N′∑t=1N′Z:,t,:,:(2)∈RB×C×D.\\mathbf{H}_{\\text{c}}=\\frac{1}{N^{\\prime}}\\sum_{t=1}^{N^{\\prime}}Z_{:,t,:,:}^{(2)}\\in\\mathbb{R}^{B\\times C\\times D}. (15)

此操作聚合了时间上下文,使后续注意力机制能够发现变量间固有的、时不变的依赖关系。

我们在变量维度 CC 上对 Hc\\mathbf{H}_{\\text{c}} 构建自注意力以捕获隐式依赖关系,生成协作上下文 Ccontext\\mathbf{C}_{\\text{context}}:

Ccontext=Softmax((HcWq)(HcWk)⊤D)×(HcWv)∈RB×C×D,\\begin{split}\\mathbf{C}_{\\text{context}}&=\\text{Softmax}\\left(\\frac{(\\mathbf{H}_{\\text{c}}\\mathbf{W}_{q})(\\mathbf{H}_{\\text{c}}\\mathbf{W}_{k})^{\\top}}{\\sqrt{D}}\\right)\\\\ &\\quad\\times(\\mathbf{H}_{\\text{c}}\\mathbf{W}_{v})\\in\\mathbb{R}^{B\\times C\\times D},\\end{split} (16)

其中 Wq,Wk,Wv\\mathbf{W}_{q},\\mathbf{W}_{k},\\mathbf{W}_{v} 是投影矩阵。最后,我们通过结构化调节机制将此全局结构注入局部流,得到 ZfinalZ_{\\text{final}}:

Zfinal,b,t,c=Zb,t,c(2)+Ccontext,b,c.Z_{\\text{final},b,t,c}=Z^{(2)}_{b,t,c}+C_{\\text{context},b,c}. (17)

这迫使局部动态满足系统范围的拓扑约束,同时避免了昂贵的动态图计算。

### 2.4 最终预测与正则化约束

为减轻自回归误差累积,我们采用“混合编码、独立解码”策略。

相似文章

嵌套时空时间序列预测

arXiv cs.LG

本文提出一种嵌套时空预测框架,利用谱聚类构建语义一致的宏观区域,为细粒度的微观预测提供自上而下的指导。在高维数据集上的实验表明,该方法始终优于最先进的基线模型。