用于交通预测的全局-局部图注意力网络

arXiv cs.AI 论文

摘要

提出了一种具有成对编码和基于事件的邻接矩阵的全局-局部图注意力网络(GLGAT)用于交通预测,有效捕捉时空相关性,并在真实数据集上取得了有竞争力的性能。

arXiv:2605.16726v1 公告类型: new 摘要: 交通预测是智能交通系统的重要组成部分。交通预测的关键挑战之一是发现时空相关性。近年来,图卷积网络和图注意力网络已取代传统统计模型来预测未来交通。然而,两者都难以处理顶点具有截然不同特征的情况。为了解决这个问题,我们提出了具有成对编码和基于事件的邻接矩阵的全局-局部图注意力网络(GLGAT)。GLGAT允许顶点拥有整个图的全局注意力矩阵集,并为每个顶点分配局部注意力矩阵集。在两个真实交通数据集上的实验表明,GLGAT能够有效捕捉时空相关性,并且相对于其他最先进的基准方法具有竞争性性能。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:35

# 一种用于交通预测的全局-局部图注意力网络
来源: https://arxiv.org/html/2605.16726
###### 摘要

交通预测是智能交通系统的重要组成部分。其关键挑战之一在于发现时空相关性。近年来,图卷积网络和图注意力网络已取代传统统计模型用于预测未来交通状况。然而,这两种网络都难以让顶点拥有截然不同的特征。为解决这一问题,我们提出了带有成对编码和基于事件的邻接矩阵的全局-局部图注意力网络(GLGAT)。GLGAT允许顶点拥有一个针对全图的全局注意力矩阵集,并为每个顶点分配局部的注意力矩阵集。在两个真实交通数据集上的实验表明,GLGAT能够有效捕捉时空相关性,并且与其他最先进的基线模型相比具有竞争力的性能。

## 1 引言

如今,交通预测作为汽车自动驾驶和路线规划系统的关键部分,以及城市智能交通系统的重要组成部分,受到了越来越多的关注。随着道路上实时交通传感器数量的增加,越来越多的数据可用于预测方法,以预测交通拥堵、寻找省时的出行路线、定位城市交通瓶颈,并辅助城市规划。此外,随着移动网络和定位系统的快速发展,个人和组织实时使用交通预测已变得便捷。更准确的预测算法将对上述领域大有裨益。

交通预测的研究已持续数十年。作为一个涉及不同地点和时间的预测问题,交通预测问题的一个特点在于模型需要发现时空相关性。在研究早期,研究人员使用传统统计模型,例如自回归积分滑动平均模型(ARIMA)[5 (https://arxiv.org/html/2605.16726#bib.bib14),16 (https://arxiv.org/html/2605.16726#bib.bib12),18 (https://arxiv.org/html/2605.16726#bib.bib13)] 和卡尔曼滤波。然而,由于这些模型大多采用线性架构,不适用于高度非线性的问题。

随着近年来越来越多的深度学习模型被用于解决该问题[4 (https://arxiv.org/html/2605.16726#bib.bib16),9 (https://arxiv.org/html/2605.16726#bib.bib15)],性能得到了显著提升。在空间相关性方面,研究人员将城市视为图像,将传感器标注在其实际地理位置,并使用卷积神经网络(CNN)解决问题。最近,图卷积网络(GCN)和图注意力网络(GAT)已成为主流,因为它们不受欧几里得空间关系的限制。在时间相关性方面,循环神经网络(RNN)及其变体(长短期记忆网络 LSTM、双向 LSTM 和门控循环单元 GRU)成为近期工作中流行的序列到序列方法。自然语言处理(NLP)中的主流趋势——Transformer 的使用也出现在一些最新论文中。一些研究人员提出了能够同时识别时空相关性的方法,例如图 LSTM。

交通预测问题的另一个特点是每个传感器都有自己的特征。例如,单向道路上的传感器可能比交叉路口的传感器更具方向性偏好;市中心的传感器可能比郊区的传感器与时间更相关;狭窄街道上的传感器可能比宽阔街道上的传感器更容易受周围环境影响。然而,近年来的方法(如 GCN 和 GAT)要么无法区分不同的相邻传感器,要么需要较大的隐藏维度和较高的网络深度才能让每个传感器拥有不同的特征。

为解决这个问题,我们提出了一种新模型,称为全局-局部图注意力网络(GLGAT),它是 GAT 的扩展。更具体地说,与使用三个矩阵进行自注意力的常规图注意力不同,GLGAT 为每个传感器分配一个共享的三元组矩阵用于“全局”注意力,以及独立可学习的矩阵用于形成“局部”注意力函数。GLGAT 支持多头机制而不会丧失并行化能力,并允许不同的邻接矩阵作用于不同的头部。在我们的实验中,仅展平时间维度的 GLGAT 已具有与使用 LSTM、GRU 或 Transformer 的其他最先进模型竞争的性能。总之,本文的主要贡献如下:

1. 提出了一种新的图注意力框架,允许传感器与其邻居拥有独立的注意力函数。这使得每个传感器相比传统图注意力网络具有更局部化的偏好。
2. 引入了一种基于方向和距离的成对编码版本。与其他编码方法相比,新版本允许传感器通过其地理关系更好地区分邻域。
3. 设计了一种基于数据驱动的邻接矩阵,该矩阵基于不同传感器之间速度增加和减少事件的时间相关性。

本文其余部分的组织结构如下。第二节回顾相关研究。第三节详细阐述 GLGAT 的方法和结构。第四节展示实验和结果。最后,我们在第六节进行总结。

## 2 相关工作

在本节中,我们回顾与本研究相关的一些文献。前半部分是关于图神经网络,后半部分是关于交通预测研究中广泛使用的邻接矩阵。

### 2.1 图神经网络

CNN 结构在计算机视觉研究中展示了其在欧几里得空间中提取空间关系的能力。许多研究采用 CNN 来发现空间相关性,以超越传统统计模型(如 ARIMA 及其变体)的性能[5 (https://arxiv.org/html/2605.16726#bib.bib14),16 (https://arxiv.org/html/2605.16726#bib.bib12),18 (https://arxiv.org/html/2605.16726#bib.bib13)]。通过用交通数据标记规则网格地图,时空数据成为一系列图像。将 CNN 与发现时间相关性的模型相结合,许多研究显著提高了预测精度。在我们之前的工作[1 (https://arxiv.org/html/2605.16726#bib.bib17)]中,结合 CNN、LSTM 和额外气象数据的模型可以合理预测出租车需求。然而,我们注意到 CNN 模型忽略了传感器网络内的拓扑结构,这限制了传感器数量增加时的性能。

GCN 是一种既能保留图拓扑结构又能保留卷积机制的解决方案。Bruna 等人使用图拉普拉斯算子构建图卷积框架,而非传统的方形卷积核。Defferrard、Bresson 和 Vandergheynst 使用切比雪夫多项式降低计算复杂度。Kipf 和 Welling 提出了一阶切比雪夫多项式近似。GCN 与能够发现时间相关性的结构(如 RNN、LSTM、GRU 和 Transformer)兼容,使用原始邻接矩阵或其高阶幂。后来,注意到注意力和 Transformer 在 NLP 中的成就,许多研究者将注意力机制推广以替代 GCN 中的卷积核,并建立了一种称为 GAT 的新机制。许多研究表明,用 GAT 替换 GCN 能带来性能提升。

CNN、GCN 和 GAT 共享相同的理念:执行共享变换可以提取图结构信息。然而,在交通预测问题中,传感器有其独特的特征。全局共享的卷积滤波器或注意力矩阵需要大量隐藏维度来发现传感器的局部特征,这可能导致通道间的高冗余。此外,广泛使用的编码(例如特征向量或正弦和余弦函数)无法表示相对关系,这将阻碍注意力机制识别传感器的不同邻居。

### 2.2 邻接矩阵

邻接矩阵对于交通预测中众多最先进的深度学习模型至关重要。大量消融研究表明,合适的邻接矩阵可以提升模型性能。大多数邻接矩阵分为三类:基于连接的、动态的和基于相似性的。

基于连接的矩阵与传感器之间的连通性相关。矩阵值通常表示道路是否直接连接两个传感器,或者车辆是否能在5分钟内往返于它们之间。该方法的一个变体是使用图跳数或行程时间的倒数代替二进制数值,将关系扩展到更广的邻域。基于连接矩阵的一个局限性在于它们只能处理物理上短距离的相关性。需要多层结构才能使模型具备发现远距离传感器之间相关性的能力。

与静态矩阵不同,动态矩阵允许模型在训练过程中构建邻接矩阵。动态邻接矩阵的初始化通过特定的静态方法或随机化进行。该方法允许模型找到最适合网络结构的矩阵。然而,它需要更复杂的网络调优,并且使模型的可解释性降低。

基于相似性的邻接矩阵主要有两个子类:功能相似性矩阵和交通模式相似性矩阵。功能相似性矩阵通常表示不同传感器周围兴趣点的相似性。该方法在预测地铁人流时可能有用,因为不同车站的兴趣点差异很大。然而,对于高速公路上的传感器,如果它位于路中间,预测交通流量则意义不大,因为车辆无法随意进出。交通模式相似性矩阵从训练数据中提取,表示传感器之间流量模式的相似性。例如,动态时间规整(DTW)和 FastDTW[10 (https://arxiv.org/html/2605.16726#bib.bib19)]使用时间图来发现时间序列中的相似性。然而,它们要求传感器在大部分时间段内具有强相关性。例如,对于在短时间段(如早高峰)内具有显著相似性的传感器对,这种方法可能会将其排除。

## 3 方法论

在本节中,我们对交通预测问题进行形式化描述,定义交通数据的图模块以及 GAT。然后,我们介绍 GLGAT 作为 GAT 的改进,以及补充模型的成对编码。最后,我们提出一种基于事件的邻接矩阵,该矩阵适用于大多数现有模型。

### 3.1 预备知识

#### 3.1.1 图与邻接矩阵

我们用图 \(G=(V,E)\) 表示交通网络的拓扑结构。\(V\) 代表道路上的传感器集合,且 \(|V|=N\)。\(E\) 是边的集合,当且仅当 \(e\) 的两个端点由一条道路直接连接时,\(e\in E\)。邻接矩阵 \(A\in R^{N\times N}\) 提供了关于顶点关系的更多信息。传统上,\(a\in A\) 表示连通性:如果行和列对应的顶点相连,则 \(a\) 为零,否则为一。在更广泛的定义中,\(A\) 表示顶点之间的相关性。对于任何 \(a\in A\),较大的 \(|a|\) 表示行顶点与列顶点关系强,较小的 \(|a|\) 表示关系弱。

#### 3.1.2 交通预测问题

交通预测问题的目标是根据历史交通数据预测未来交通状况。\(X^t\in R^{N\times K}\) 表示在时间 \(t\) 每个传感器观测到的 \(K\) 个交通特征。给定图 \(G\) 以及过去 \(P\) 个时间步的图信号,交通预测问题旨在获得一个函数 \(F\),能够预测接下来 \(Q\) 个时间步的图信号。

\[
[X^{t-P+1,\dots,t},G] \stackrel{F}{\longrightarrow} [X^{t+1,\dots,t+Q}] \tag{1}
\]

其中 \(X^{t-P+1,\dots,t}\in R^{P\times N\times K}\),\(X^{t+1,\dots,t+Q}\in R^{Q\times N\times K}\)。

#### 3.1.3 图注意力网络

Veličković 等人采用注意力机制来学习顶点对之间的系数,并提出了 GAT[15 (https://arxiv.org/html/2605.16726#bib.bib18)]。大多数 GAT 模型使用自注意力模型作为图注意力层的基本组件。对于图输入数据 \(X_{\mathit{in}}\in R^{N\times K}\)、隐藏大小 \(H\) 和输出大小 \(K'\),我们可以获得自注意力的查询 \(Q\in R^{N\times H}\)、键 \(K\in R^{N\times H}\) 和值 \(V\in R^{N\times H}\),如下所示:

\[
\begin{split}
Q &= W_Q (X_{\mathit{in}} \oplus E) + b_Q \\
K &= W_K (X_{\mathit{in}} \oplus E) + b_K \\
V &= W_V X_{\mathit{in}} + b_V
\end{split} \tag{2}
\]

其中 \(E\in R^{N\times H_E}\) 是每个顶点的编码,\(\oplus\) 是拼接运算符。\(W_Q, W_K \in R^{H\times (K+H_E)}\) 和 \(W_V \in R^{H\times K}\) 是线性变换矩阵,\(b_Q, b_K, b_V \in R^{H}\) 是每个变换的偏置。对于两个顶点 \(v_i\) 和 \(v_j\),\(v_i\) 的查询为 \(q_i := Q[i] \in R^{H}\),\(v_j\) 的键为 \(k_j := K[j] \in R^{H}\)。\(v_j\) 对 \(v_i\) 的分数为 \(e_{ij}\),可计算如下:

\[
e_{ij} = \texttt{GELU}(q_i \cdot k_j) \tag{3}
\]

其中 \(\texttt{GELU}(\cdot)\)[3 (https://arxiv.org/html/2605.16726#bib.bib10)] 是 Hendrycks 等人引入的激活函数,\(\cdot\) 是向量的点积。然后,注意力系数定义为:

\[
a_{ij} = 
\begin{cases}
0, & A[i,j]=0, \\
\dfrac{\texttt{exp}(e_{ij})}{\sum_{v_j \in G, A[i,k] \neq 0} \texttt{exp}(e_{ik})}, & \text{otherwise},
\end{cases} \tag{4}
\]

该系数受邻接矩阵 \(A\) 的约束。然后,在隐藏图数据 \(X_{\mathit{hidden}} \in R^{N\times H}\) 中,\(v_i\) 的特征 \(x'_i := X_{\mathit{hidden}}[i]\) 可以通过对 \(V\) 中的值进行加权求和计算:

\[
x'_i = \sum_{v_j \in G} a_{ij} V[j]。 \tag{5}
\]

然后对 \(X_{\mathit{hidden}}\) 应用一个前馈层,使用变换矩阵 \(W_{\mathit{ff}} \in R^{K' \times H}\) 和偏置 \(b_{\mathit{ff}} \in R^{K'}\):

\[
X_{\mathit{out}} = W_{\mathit{ff}} X_{\mathit{hidden}} + b_{\mathit{ff}} \tag{6}
\]

由于 \(X_{\mathit{in}}\) 和 \(X_{\mathit{out}}\) 具有相同的图结构,只要隐藏维度匹配,堆叠 GAT 可以创建深层神经网络。

### 3.2 全局-局部图注意力网络

GLGAT 具有与 GAT 相似的结构,首先通过使用注意力机制的层将输入转换为隐藏状态,然后使用前馈层根据隐藏状态计算输出。保持相同的前馈结构,t

相似文章

用于交通预测的图条件图神经网络专家混合模型

arXiv cs.LG

提出了GC-MoE,一种用于交通预测的图条件专家混合框架,该框架根据图拓扑和近期输入为每个节点分配个性化的冻结预训练时空图神经网络专家组合,仅训练一个轻量级路由模块(约1.7万个参数),并在四个基准数据集上取得了有竞争力的性能。

时间增强图注意力网络用于可供性分类

Hugging Face Daily Papers

EEG-tGAT是一种时间增强的图注意力网络,通过融合时间注意力和dropout机制来改进交互序列的可供性分类。该模型在GATv2基础上进行了增强,适用于时间维度语义不均匀的序列数据。

基于时间增强符号图神经网络的动态链接预测

arXiv cs.LG

本文提出了一种面向符号图神经网络的模块化时间增强框架,通过历史上下文集成模块(HCIM)结合LSTM和多头时间注意力机制整合历史上下文,在真实世界的时间符号网络上进行动态链接预测时取得了持续改进。