用于交通预测的图条件图神经网络专家混合模型

arXiv cs.LG 论文

摘要

提出了GC-MoE,一种用于交通预测的图条件专家混合框架,该框架根据图拓扑和近期输入为每个节点分配个性化的冻结预训练时空图神经网络专家组合,仅训练一个轻量级路由模块(约1.7万个参数),并在四个基准数据集上取得了有竞争力的性能。

arXiv:2605.30486v1 公告类型: 新 摘要:传感器图上的时空预测通常采用统一应用于所有节点的单一骨干架构,尽管图区域可能表现出不同的动态特性。道路段在功能类别、结构和交通行为上有所不同,这表明节点级别的专家专业化是有用的。我们提出了GC-MoE,一种图条件专家混合框架,该框架根据图拓扑和近期交通输入窗口为每个节点分配个性化的冻结预测专家组合。GC-MoE将冻结的预训练时空图神经网络专家与一个输入感知、空间上下文化的路由器相结合,同时仅训练一个轻量级路由模块。我们还研究了一个有界图条件输出细化层作为可选扩展,并仅作为消融诊断包含节点自适应ST-LoRA适配器。在四个标准基准数据集(PEMS04、PEMS07、METR-LA和PEMS-BAY)上,GC-MoE在零参数集成基线上改进了MAE,同时RMSE和MAPE也具有竞争力,并且在150万个冻结专家权重之上仅训练了约1.7万个参数。实现代码可在https://github.com/Ahghaffari/gc_moe获取。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:25

# 面向交通预测的图条件化图神经网络专家混合模型††thanks: 本工作由Infotech Oulu新兴项目计划、欧盟委员会(101137711)、欧洲区域发展基金(A81373, A81376, A81568, A91867)、芬兰研究委员会(323630)、芬兰科学院下属战略研究委员会(372355)及芬兰商业署(8754/31/2022)资助。††thanks: © 2026 IEEE. 允许个人使用本文。若需以任何当前或未来媒体形式(包括广告或促销目的的转载/重版、创建新汇编作品、转售或分发至服务器或列表、或重用本作品任何受版权保护的组成部分)进行其他所有用途,必须获得IEEE的许可。
来源:https://arxiv.org/html/2605.30486

###### 摘要

传感器图上的时空预测通常采用统一的骨干网络架构处理所有节点,然而图的不同区域可能表现出不同的动态特性。道路段在功能类别、结构和交通行为上存在差异,这表明节点级别的专家专业化可能是有益的。本文提出*GC-MoE*,一种基于图条件化的专家混合框架,它根据图拓扑结构和近期交通输入窗口,为每个节点分配个性化的冻结预测专家组合。GC-MoE将冻结的预训练时空GNN专家与一个输入感知的、空间上下文化的路由器相结合,仅训练轻量级路由模块。我们还研究了一个有界图条件化输出精化层作为可选扩展,并仅将节点自适应ST-LoRA适配器作为消融诊断工具。在四个标准基准(PEMS04、PEMS07、METR-LA和PEMS-BAY)上,GC-MoE相较于零参数集成基线在MAE上有所改进,并在RMSE和MAPE上具有竞争力,同时在冻结的1.5M专家权重之上仅训练约17K个参数。实现代码见https://github.com/Ahghaffari/gc_moe。

## I 引言

时空(ST)预测支撑着关键的城市分析任务,例如交通速度/流量预测,其中测量数据来自由道路网络连接的传感器,并且随时间演变。耦合空间结构与时间动态的图神经网络(GNN)骨干网络,包括扩散循环模型、图卷积架构和频谱变体,是这些问题的强基线[17 (https://arxiv.org/html/2605.30486#bib.bib1), 25 (https://arxiv.org/html/2605.30486#bib.bib3), 24 (https://arxiv.org/html/2605.30486#bib.bib2), 2 (https://arxiv.org/html/2605.30486#bib.bib4)]。近期工作也强调了完整时空预测流程的重要性,从空间映射和图构建到模型训练与评估,突显了图设计和预处理选择对下游预测性能的影响[8 (https://arxiv.org/html/2605.30486#bib.bib12)]。尽管模型设计取得了稳步进展,仍存在一个重要的实际限制:网络的不同部分可能由于拓扑、道路功能和连接性的差异而表现出不同的动态特性,这表明统一的骨干网络可能不是最优的。

与此同时,时空图神经网络(ST-GNN)骨干网络的研究进展表明它们具有互补的优势。基于扩散的模型捕捉多跳传播[17 (https://arxiv.org/html/2605.30486#bib.bib1)];频谱图卷积捕捉平滑的图信号[25 (https://arxiv.org/html/2605.30486#bib.bib3)];自适应图模型学习节点特定的结构[1 (https://arxiv.org/html/2605.30486#bib.bib13)]。一个自然的解决方案是组合多种架构。经典集成(例如均匀平均)可以提高鲁棒性[5 (https://arxiv.org/html/2605.30486#bib.bib14)],但它忽略了最佳专家可能因节点和条件而异。通过元学习器进行的学习集成可以改进组合[12 (https://arxiv.org/html/2605.30486#bib.bib15)],但典型的路由器主要依赖于输入特征,没有显式编码节点的*图拓扑描述符*[22 (https://arxiv.org/html/2605.30486#bib.bib16), 7 (https://arxiv.org/html/2605.30486#bib.bib11)],也没有利用*空间邻居上下文*来检测网络范围的拥堵传播。

参数高效微调(PEFT)提供了另一种方法,它冻结骨干网络并仅训练小型适配器模块,例如低秩适配(LoRA)[11 (https://arxiv.org/html/2605.30486#bib.bib5)]。最近的ST-LoRA变体使用节点自适应低秩模块来适应时空预测,训练预算小[21 (https://arxiv.org/html/2605.30486#bib.bib7)]。然而,PEFT本身并没有解决架构异质性问题;即使是一个适应良好的单一专家,对于某些节点角色可能仍然不是最优的。此外,在多专家设置中,路由和适配器修正之间的相互作用仍然缺乏研究。

我们引入*GC-MoE*(用于ST-GNN预测的图条件化专家混合路由),一个模块化框架,它(i) 预训练多个不同类型的ST-GNN专家,(ii) 将它们冻结作为专家集,(iii) 学习一个*输入感知的、空间上下文化的路由机制*,该机制使用静态拓扑特征和由时间注意力处理的输入信号与空间消息传递驱动的动态路径,为每个节点分配专家权重。我们还额外研究了一个轻量级的图条件化*输出精化*层作为可选扩展。我们还评估了节点自适应ST-LoRA适配器[11 (https://arxiv.org/html/2605.30486#bib.bib5), 21 (https://arxiv.org/html/2605.30486#bib.bib7)]作为可选附加组件,并报告了结果。

本工作的主要贡献如下:

- • *输入感知的、空间上下文化的图条件化路由。* 我们提出了一种双路径路由器,融合静态拓扑描述符与通过输入窗口上的时间注意力和空间邻居消息传递计算的动态表示,使得专家选择能够适应当前交通状况,而不仅仅是静态拓扑。
- • *低训练预算下的冻结多架构专业化。* 我们通过学习路由组合了多个不同的冻结预训练专家,仅训练约17K参数,同时利用了冻结专家集的表示能力。
- • *可选的轻量级输出精化。* 我们研究了一个有界图条件化精化层,该层可以在某些设置中以可忽略的参数成本进一步提高性能。
- • *轻量级扩展的消融分析。* 我们评估了可选的精化模块,并使用节点自适应ST-LoRA适配器作为诊断消融,研究基于适配器的专家修改是否与路由互补。

本文的其余部分组织如下。第二节[II (https://arxiv.org/html/2605.30486#S2)]回顾相关工作,第三节[III (https://arxiv.org/html/2605.30486#S3)]形式化问题设定。第四节[IV (https://arxiv.org/html/2605.30486#S4)]详细介绍了提出的GC-MoE框架。第五节[V (https://arxiv.org/html/2605.30486#S5)]描述了实验设置,第六节[VI (https://arxiv.org/html/2605.30486#S6)]报告了实验结果,第七节[VII (https://arxiv.org/html/2605.30486#S7)]讨论了结果的意义、局限性和与先前工作的关系。最后,第八节[VIII (https://arxiv.org/html/2605.30486#S8)]总结全文并展望未来方向。

## II 相关工作

### II-A 时空图预测

ST-GNN联合建模传感器之间的空间依赖性和时间动态,用于交通速度和流量预测等任务。基础方法包括DCRNN[17 (https://arxiv.org/html/2605.30486#bib.bib1)],它将扩散卷积与门控循环单元相结合;STGCN[25 (https://arxiv.org/html/2605.30486#bib.bib3)],它用纯卷积时间块与图卷积交替代替了循环机制。此外,Graph WaveNet[24 (https://arxiv.org/html/2605.30486#bib.bib2)]引入了自适应邻接学习和膨胀因果卷积。频谱变体如StemGNN[2 (https://arxiv.org/html/2605.30486#bib.bib4)]联合应用图傅里叶变换和离散傅里叶变换。自适应图模型如AGCRN[1 (https://arxiv.org/html/2605.30486#bib.bib13)]通过自适应图卷积学习节点特定的循环动态。Ghaffari等人近期的工作[8 (https://arxiv.org/html/2605.30486#bib.bib12)]进一步强调了完整时空预测流程的重要性,从空间映射和图构建到模型训练与评估,表明图设计和预处理选择对下游预测性能有显著影响。

近期架构进一步提升了性能和可扩展性。PDFormer[14 (https://arxiv.org/html/2605.30486#bib.bib17)]通过时延感知的空间注意力建模传播延迟模式;STAEformer[18 (https://arxiv.org/html/2605.30486#bib.bib18)]表明具有时空自适应嵌入的Transformer可以极具竞争力;BigST[10 (https://arxiv.org/html/2605.30486#bib.bib19)]以线性复杂度针对大规模道路网络;UniST[26 (https://arxiv.org/html/2605.30486#bib.bib20)]研究基于提示的通用城市时空预测。

尽管取得了快速进展,许多强大的ST-GNN和基于Transformer的预测模型仍然对每个节点应用统一的训练后的骨干网络,忽视了因网络拓扑、道路功能和连接性差异而产生的异质性动态。本工作通过根据图结构和近期交通输入窗口调节每个节点的专家路由来解决这一局限性。

### II-B 专家混合与路由

MoE模型通过学习到的门控函数组合多个专用子网络的输出,该门控函数产生依赖于数据的混合权重。MoE的基础框架由Jacobs等人[12 (https://arxiv.org/html/2605.30486#bib.bib15)]引入,其中门控网络学习在专家之间划分输入空间。Shazeer等人[22 (https://arxiv.org/html/2605.30486#bib.bib16)]通过稀疏门控MoE层扩展了该范式,在语言建模中展示了显著的能力增益,同时依赖额外的负载均衡损失来防止专家崩溃。Switch Transformers[7 (https://arxiv.org/html/2605.30486#bib.bib11)]将稀疏路由简化为每个token的top-1专家选择,实现了高效扩展到万亿参数模型。Zhou等人[28 (https://arxiv.org/html/2605.30486#bib.bib29)]通过专家选择路由反转了路由方向,每个专家独立选择其top-k输入,实现了自然负载均衡而无需辅助损失。

近年来,出现了大量大规模MoE设计,精化了路由和专家专业化。Mixtral[13 (https://arxiv.org/html/2605.30486#bib.bib23)]展示了一个实用的开放权重稀疏MoE架构,其中每个token被路由到8个专家中的2个,其性能与规模大得多的稠密模型相当,而每次前向传播仅激活一部分参数。DeepSeekMoE[3 (https://arxiv.org/html/2605.30486#bib.bib24)]表明细粒度专家分割结合共享专家隔离改善了专家专业化,实现了专家之间更细微的知识划分。Branch-Train-MiX (BTX)[23 (https://arxiv.org/html/2605.30486#bib.bib25)]在不同数据领域上独立训练专家LLM,随后通过轻量级路由将它们合并为统一的MoE,表明独立训练的(或冻结的)专家可以有效地组合,这种范式在概念上接近我们使用冻结预训练骨干网络进行路由的方法。在路由机制方面,Puigcerver等人[20 (https://arxiv.org/html/2605.30486#bib.bib22)]提出Soft MoE,用通过学习的槽投影实现完全可微的软分配代替离散的token到专家分配,避免了复杂稀疏路由中固有的负载均衡和训练不稳定性问题。

在时空领域,TESTAM[16 (https://arxiv.org/html/2605.30486#bib.bib21)]是与本工作最相关的工作。它引入了一个带有专家混合的时间增强时空注意力模型用于交通预测,其中不同的专家专门处理不同的时间交通模式(例如,周期性拥堵与非周期性拥堵)。然而,TESTAM在几个关键方面与GC-MoE不同。TESTAM是一个端到端训练的MoE架构,旨在建模不同时间和时空交通模式,包括周期性和非周期性状态。相比之下,GC-MoE研究的是冻结专家机制,其中独立预训练且架构异质的ST-GNN骨干网络保持固定,仅训练一个轻量级的图条件化路由器。此外,GC-MoE显式地基于手工设计的图拓扑描述符连同空间传播的动态交通上下文来调节每个节点的路由。

与先前基于MoE的交通预测模型相比,GC-MoE特别关注基于图条件的、针对异质冻结专家架构的逐节点软路由,这是一个不同于对联合优化专家进行端到端MoE训练的设定。GC-MoE通过一个双路径路由器填补了这一空白,该路由器融合静态拓扑特征和动态的、空间传播的交通上下文表示,为每个节点产生专家混合权重。

### II-C 参数高效微调与LoRA

PEFT方法通过仅更新参数的一小部分而保持骨干网络冻结,来适应大型预训练模型。LoRA[11 (https://arxiv.org/html/2605.30486#bib.bib5)]向冻结的权重矩阵中注入可训练的低秩残差矩阵,实现适应而不增加推理延迟。QLoRA[4 (https://arxiv.org/html/2605.30486#bib.bib26)]通过将4位量化与LoRA适配器结合,进一步降低了内存需求,使得在有限硬件上微调大规模模型成为可能。DoRA[19 (https://arxiv.org/html/2605.30486#bib.bib27)]将预训练权重分解为幅度和方向分量,并仅对方向分量应用低秩自适应,提高了标准LoRA的学习能力和稳定性。在时空领域,ST-LoRA[21 (https://arxiv.org/html/2605.30486#bib.bib7)]将LoRA扩展为节点自适应低秩模块,以考虑传感器图上的空间异质性,实现了具有小训练预算的有竞争力的预测性能。预算分配方法如AdaLoRA[27 (https://arxiv.org/html/2605.30486#bib.bib6)]基于重要性分数在权重矩阵之间自适应分配秩预算。

最近,PEFT适配器与MoE路由之间的相互作用受到了越来越多的关注。LoRAMoE[6 (https://arxiv.org/html/2605.30486#bib.bib28)]研究了将LoRA适配器与MoE风格路由结合在大语言模型中的情况,发现简单的集成可能导致世界知识遗忘和训练冲突,需要仔细的设计来保留预训练能力。这一观察与GC-MoE直接相关,其中路由是在冻结的专家骨干网络上学习的。受此启发,我们将节点自适应ST-LoRA适配器作为冻结多专家设定中的消融实验,以测试轻量级专家适应是否与路由互补或相互干扰。

相似文章

用于交通预测的全局-局部图注意力网络

arXiv cs.AI

提出了一种具有成对编码和基于事件的邻接矩阵的全局-局部图注意力网络(GLGAT)用于交通预测,有效捕捉时空相关性,并在真实数据集上取得了有竞争力的性能。

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。

通过有限专家库实现通信高效的专家路由

arXiv cs.LG

本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。

MobileMoE:扩展端侧混合专家模型

Hugging Face Daily Papers

MobileMoE 引入了高效的端侧混合专家语言模型,参数规模低于十亿,在性能和效率上均优于密集基线模型和现有的 MoE 模型。这些模型在开源数据集上训练,并在商用智能手机上展现出显著的加速效果。