RAVEN:一种面向金融时间序列预测的体制感知变上下文专家网络

arXiv cs.LG 论文

摘要

本文提出了RAVEN,这是一种混合专家框架,能够自适应地为每个输入样本确定时间上下文窗口,以处理非平稳金融时间序列。该方法在金融和交通基准上取得了最先进的性能。

arXiv:2606.24062v1 Announce Type: new 摘要:金融时间序列预测面临标准基准中不存在的结构性挑战。对数收益率是非平稳的,信噪比(SNR)极低,并且受制于体制依赖的时间依赖性。我们发现了最先进的(SOTA)时间序列模型在金融场景中的一个关键局限性:固定的上下文窗口与非平稳价格过程的时变最优回溯长度不匹配。我们提出了体制感知变上下文专家网络(RAVEN),这是一种混合专家框架,旨在自适应地为每个输入样本确定时间上下文。RAVEN 不依赖固定的回溯水平,而是构建一个嵌套连续窗口的层次结构,其长度由数据本身决定。具体来说,RAVEN 按逆时间顺序根据学习的重要性对补丁进行评分,并应用累积重要性阈值(CIT)机制来推导嵌套前缀窗口,每个窗口被路由到专门的尺度专家。全局压缩表示(GCR)分支在全上下文上并行运行,保留了局部专家无法保证的全局时间连贯性。由于嵌套路由导致专家输入之间存在结构重叠,我们引入了相关性感知加权(CAW)来对齐可变长度的专家输出,并在聚合前惩罚成对余弦相似度。在累积对数收益率预测(HS300、S&P500)和基金销售预测上的实验表明,RAVEN 取得了 SOTA 性能,在 HS300 上将皮尔逊相关系数提高了 9.2%,在 S&P500 上提高了 20.2%,在基金销售预测上 MSE 降低了 18.2%,同时在四个 PEMS 交通基准的 16 个指标中取得了 14 个最佳结果。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:50

# 一种面向金融时间序列预测的、具有制度感知能力的可变上下文专家网络 *通讯作者 来源:https://arxiv.org/html/2606.24062 Cheng He1,2, Zhenyu Guan2, Xijie Liang2, Defu Lian1∗, Jiajia Li3∗, Enhong Chen1, Patrick P\. C\. Lee4, Geng Hu5, Zehao Chen2 ###### 摘要 金融时间序列预测具有标准基准数据集中不存在的结构性挑战。对数收益率是非平稳的,信噪比(SNR)极低,并且受制于制度依赖的时间依赖性。我们发现,最先进(SOTA)时间序列模型在金融环境中存在一个关键局限性:固定上下文窗口与非平稳价格过程中时变的最优回溯期不匹配。为此,我们提出了制度感知可变上下文专家网络(RAVEN),这是一种混合专家(MoE)框架,旨在自适应地为每个输入样本确定时间上下文。RAVEN 不依赖固定的回溯窗口,而是构建一个嵌套连续窗口的层次结构,其长度由数据本身决定。具体来说,RAVEN 按逆时间顺序对补丁进行学习的重要性评分,并应用累积重要性阈值(CIT)机制来推导嵌套前缀窗口,每个窗口被路由到一个尺度特化的专家。一个全局压缩表示(GCR)分支并行处理完整上下文,保留了局部专家无法保证的全局时间一致性。由于嵌套路由导致专家输入之间存在结构性重叠,我们引入了相关性感知加权(CAW)来对齐变长专家输出,并在聚合前惩罚成对余弦相似度。在累积对数收益率预测(HS300、S&P500)和基金销售预测上的实验表明,RAVEN 实现了 SOTA 性能,在 HS300 上 Pearson 相关系数提升 9.2%,在 S&P500 上提升 20.2%,在基金销售预测上 MSE 降低 18.2%,同时在四个 PEMS 交通基准数据集的 16 项指标中取得 14 项最佳结果。 ## I. 引言 金融时间序列预测是量化投资的基石,支撑着从风险管理到自动化交易等任务。与通用时间序列领域中众所周知的基准数据集(如 ETTh、ETTm、Weather、Electricity 或 Traffic[37 (https://arxiv.org/html/2606.24062#bib.bib12)],这些数据通常呈现清晰的周期模式和确定性趋势)不同,金融数据是噪声且非平稳的[23 (https://arxiv.org/html/2606.24062#bib.bib1)]。在这种对抗性环境中,预测时间 \(t\) 的原始价格水平 \(C_t\) 是不切实际的:价格不具备尺度不变性和跨资产可比性,通常遵循随机游走,且表现出极高的自相关性,导致伪回归和夸大的样本内表现。为了捕捉有意义的预测信号,现有方法将问题重新表述为对数收益率的回归:\(r_t = \ln(C_t/C_{t-1})\) [15 (https://arxiv.org/html/2606.24062#bib.bib3),13 (https://arxiv.org/html/2606.24062#bib.bib2)]。这一转换将建模目标从追踪绝对值转变为捕捉价格创新[15 (https://arxiv.org/html/2606.24062#bib.bib3)],即由新市场信息到达驱动的不可预测的随机成分。虽然对数收益率在统计上比原始价格更稳定,但仍表现出极低的 SNR 和厚尾分布,使得精确回归成为一项艰巨任务[13 (https://arxiv.org/html/2606.24062#bib.bib2)]。 历史上,金融时间序列分析一直由基于树的集成方法主导,例如 XGBoost[6 (https://arxiv.org/html/2606.24062#bib.bib9)] 和 LightGBM[17 (https://arxiv.org/html/2606.24062#bib.bib10)],它们是梯度提升框架[12 (https://arxiv.org/html/2606.24062#bib.bib6)] 的后继者。它们擅长对基于手工特征的非线性交互进行建模,但将每个预测视为静态表格问题,忽略了市场制度的固有时间拓扑结构。后续的深度学习架构,从多层感知机通过循环神经网络[10 (https://arxiv.org/html/2606.24062#bib.bib19)] 到长短期记忆网络[16 (https://arxiv.org/html/2606.24062#bib.bib18)] 和门控循环单元[7 (https://arxiv.org/html/2606.24062#bib.bib11)],通过循环和门控机制恢复了时间记忆的概念,但仍然偏向于最近的观测,并且常常无法区分瞬态市场噪声与长期结构性制度转变。 最近,基于 Transformer 的模型,从 Informer[45 (https://arxiv.org/html/2606.24062#bib.bib21)]、PatchTST[26 (https://arxiv.org/html/2606.24062#bib.bib22)]、TimesNet[36 (https://arxiv.org/html/2606.24062#bib.bib40)] 和 iTransformer[22 (https://arxiv.org/html/2606.24062#bib.bib23)] 到频域变体如 FredFormer[27 (https://arxiv.org/html/2606.24062#bib.bib44)] 和 WPMixer[25 (https://arxiv.org/html/2606.24062#bib.bib45)],通过利用注意力机制捕捉长程依赖,增强了通用时间序列预测。然而,当应用于金融市场时,这些模型继承了一个很少被审视的结构性瓶颈:依赖于固定长度的历史上下文窗口 \(L\)。在非平稳的金融环境中,静态的 \(L\) 造成了一个不可调和的冲突:短窗口缺乏跨越结构性制度转变的记忆,而长窗口不可避免地会将前一个制度中的过时信息作为加性噪声混入当前预测中。 经典计量经济学模型已经暗示了自适应多水平推理的价值。最初为波动率预测引入的已实现波动率的异质自回归模型(HAR-RV)[8 (https://arxiv.org/html/2606.24062#bib.bib7)],通过线性聚合日、周、月滚动平均值来捕捉长记忆结构,表明多个固定的回溯窗口携带互补的时间信息,这是任何单窗口模型都无法涵盖的。然而,HAR-RV 及其后续模型采用了设计者固定的窗口集合和线性函数形式;互补的窗口本身以及组合它们的最佳方式仍然是手工设计的。更近期的深度学习多期间研究,例如 MLF[42 (https://arxiv.org/html/2606.24062#bib.bib20)],通过复杂的注意力机制扩展了这种多期间直觉,并成为我们最具竞争力的替代方案。尽管如此,MLF 仍然依赖于预定义的期间和均匀分布的补丁。这种静态设计使其无法自适应地感知动态市场中的最优上下文。 参照图注 (a) HS300 成分股 600176.SS(日度对数收益率,2020–2024) 参照图注 (b) PEMS03 交通流量(5 分钟) 图 1:用于多尺度分析的 CWT 尺度图。金融数据 (a) 呈现出非平稳的能量分布,没有固定的周期性;而交通数据 (b) 则显示出稳定、周期性的模式。 为了实证验证这一观点,我们应用连续小波变换(CWT)作为多尺度诊断工具: \[W_f(a,b)=\frac{1}{\sqrt{|a|}}\int_{-\infty}^{+\infty}f(t)\,\psi^*\!\left(\frac{t-b}{a}\right)dt,\] 其中尺度 \(a\) 与频率成反比,\(b\) 表示时间位置。图 1 (https://arxiv.org/html/2606.24062#S1.F1) 可视化了两个代表性序列的尺度图。对于 HS300 成分股 600176.SS(图 1(a) (https://arxiv.org/html/2606.24062#S1.F1.sf1)),在五年时间跨度内,能量集中度在尺度间不可预测地迁移。2020 年高频成分占主导地位,2021 年至 2022 年转向较低频带,到 2023 年底又回归高频主导。没有任何尺度存在稳定的周期结构。相反,PEMS03 交通序列(图 1(b) (https://arxiv.org/html/2606.24062#S1.F1.sf2))在 200 到 260 的尺度范围内表现出时不变的能量带,反映了在整个观测期间均匀保持的固定日周期性。这种差异揭示了金融数据中主导预测信息的时间尺度本身也是非平稳的。因此,固定上下文窗口机制引入了一种与底层数据生成过程不匹配的归纳偏置。 为了弥补这一差距,我们提出了**RAVEN**(制度感知可变上下文专家网络),这是一种新颖的基于 MoE 的框架,专为金融时间序列预测中的自适应上下文建模而设计。RAVEN 的核心在于其可学习的补丁加权和选择机制。与采用单个固定上下文长度的静态方法不同,RAVEN 动态评估每个历史补丁的重要性。它按逆时间顺序累积这些分数,并针对基于累积重要性阈值(CIT)的阈值,生成一个连续的嵌套回溯窗口序列。每个窗口被路由到在其相应时间尺度上工作的专用专家。所有窗口都锚定在最近的补丁上,确保每个专家内位置注意力的时间一致性。为了确保局部特化不以全局一致性为代价,我们引入了一个全局压缩表示(GCR)分支,它在完整上下文上并行运行。它提炼出一个全局整体视角,补充了局部专家的选择性、尺度特定处理。此外,嵌套路由拓扑结构在专家输入之间创建了结构性重叠。为了解决这个问题,我们提出了形状对齐融合与相关性感知加权(CAW)策略。它在聚合之前对专家表示进行去相关,并消除冗余噪声,从而产生可靠的多分辨率预测。 我们的主要贡献总结如下: - •**动态上下文范式**:我们识别出非平稳金融环境中静态、固定长度上下文窗口的关键局限性,并提出 RAVEN。该框架自适应地将感受野调整到时变的市场动态。它通过在 CIT 阈值下按逆序累积补丁重要性,学习数据依赖的回溯窗口。 - •**双视图架构**:我们设计了一个动态 MoE 骨干网络,并辅以 GCR 分支。该架构平衡了局部特化和全局上下文建模。具有不同尺度的专家处理变长补丁,用于细粒度局部感知。同时,GCR 分支捕捉整体历史信息以保持全局一致性。 - •**冗余缓解策略**:我们引入了形状对齐融合和 CAW。通过动态压缩和去相关异构专家输出,该策略显式过滤来自重叠输入段的噪声,使得在金融时间序列低 SNR 下能够高效利用 MoE 参数。 - •**广泛评估与部署进展**:我们在跨市场累积对数收益率预测上进行了广泛评估。与 SOTA 基线相比,RAVEN 在 HS300 上 Pearson 相关系数提升 9.2%,在 S&P500 上提升 20.2%,在基金销售预测上 MSE 降低 18.2%。在四个 PEMS 交通数据集上的跨域测试进一步验证了其泛化能力,在 16 项评估指标中取得了 14 项最佳性能结果。在真实回测条件下,RAVEN 驱动的策略在累计收益率上比我们的生产基线高出 10% 以上,该系统目前正在推进最终在线集成。 ## II. RAVEN 设计 参照图注 图 2:RAVEN 概览。流程包含三个模块。**预处理**应用实例归一化、通道独立处理和补丁划分,生成嵌入补丁 \(\mathbf{E}=[\mathbf{e}_1,\ldots,\mathbf{e}_N]\)。**骨干网络**通过两个并行分支运行。(i) 局部自适应分支对补丁重要性进行评分,并按逆时间顺序累积分数,针对 CIT 阈值,生成 \(K\) 个嵌套的连续回溯窗口 \(\{\mathcal{G}_k\}\)。每个窗口由尺度特化的专家处理,变长输出通过平均池化进行形状对齐,转换为固定维度的向量,聚合成 \(\mathbf{z}_{\text{local}}\)。(ii) GCR 分支通过自注意力层捕捉整个序列 \(\mathbf{E}\) 上的整体历史依赖,然后通过平均池化提炼出全局上下文向量 \(\mathbf{z}_{\text{global}}\)。**输出投影**将 \([\mathbf{z}_{\text{local}};\mathbf{z}_{\text{global}}]\) 拼接,并通过 MLP 头投影,输出最终的 \(H\) 期累积对数收益率 \(\hat{y}_t^{(H)}\)。嵌套路由拓扑引入了专家间的共线性,这由 CAW 方案和专家多样性正则化器共同抑制。 ### II-A. 问题定义 表 I:符号汇总。 我们考虑多变量金融时间序列的多水平收益率预测任务。设 \(\mathbf{x}_t \in \mathbb{R}^D\) 表示在时间 \(t\) 观察到的 \(D\) 维市场状态,包括标准市场变量(例如 OHLCV、买卖价差)和工程因子。从收盘价 \(C_t\) 中,我们推导出单步对数收益率: \[r_t = \ln(C_t/C_{t-1}), \quad (1)\] 它编码了由新市场信息到达引起的价格创新[15 (https://arxiv.org/html/2606.24062#bib.bib3),13 (https://arxiv.org/html/2606.24062#bib.bib2)]。 **输入**。给定最大回溯长度 \(L_{\max}\),时间 \(t\) 的输入实例定义为 \[\mathbf{X}_t = [\mathbf{x}_{t-L_{\max}+1}, \dots, \mathbf{x}_t]^\top \in \mathbb{R}^{L_{\max} \times D}. \quad (2)\] **目标**。给定预测水平 \(H\),预测目标是 \(H\) 期累积对数收益率: \[y_t^{(H)} = \sum_{h=1}^{H} r_{t+h} = \ln(C_{t+H}/C_t) \in \mathbb{R}, \quad (3)\] 对应于在时间 \(t\) 开仓、在时间 \(t+H\) 平仓的已实现持有期收益率。 **目标**。RAVEN 的目标是学习一个由 \(\theta\) 参数化的映射 \(f_\theta: \mathbb{R}^{L_{\max} \times D} \to \mathbb{R}\),使得预测值 \(\hat{y}_t^{(H)} = f_\theta(\mathbf{X}_t)\) 在样本外测试分布上准确逼近真实的累积收益率(定义见方程 (3))[35 (https://arxiv.org/html/2606.24062#bib.bib4),9 (https://arxiv.org/html/2606.24062#bib.bib5)]。 ### II-B. 整体架构 图 2 (https://arxiv.org/html/2606.24062#S2.F2) 展示了 RAVEN 的整体架构。给定一个回溯窗口 \(\mathbf{X} \in \mathbb{R}^{L_{\max} \times D}\),模型通过三个功能不同的阶段产生标量 \(H\) 期累积对数收益率预测 \(\hat{y}_t^{(H)}\): - •**预处理**(§II-C (https://arxiv.org/html/2606.24062#S2.SS3))对输入实例进行归一化,独立处理每个通道,并将回溯窗口划分为嵌入补丁序列 \(\mathbf{E} = [\mathbf{e}_1, \ldots, \mathbf{e}_N] \in \mathbb{R}^{N \times d}\)。 - •**双分支骨干网络**(§II-D (https://arxiv.org/html/2606.24062#S2.SS4))通过两个

相似文章