使用K跳高斯扩散增强的图神经网络
摘要
本文提出一种K跳高斯(KHG)扩散核,作为图神经网络的预处理模块,平衡局部和全局信息传播,以缓解过度平滑和信息瓶颈问题。实验表明,相比传统的消息传递图神经网络和现有扩散核,该方法在噪声或结构复杂的图上取得了显著改进。
arXiv:2606.18317v1 公告类型:新提交
摘要:大多数图神经网络(GNN)核心依赖于图卷积,通常通过直接(单跳)邻居之间的消息传递实现。在许多现实世界的图中,边可能带有噪声或定义不清晰,从而将信息传播限制在局部邻域内。现有的扩散核,如个性化PageRank(PPR)和热核,通过全局传播缓解了这一问题,但仍难以处理复杂的局部结构和远距离节点噪声。为了解决这些局限性,我们提出了一种K跳高斯(KHG)扩散核,作为图数据的预处理模块。KHG引入多跳扩散,并对远程节点进行高斯加权,从而在应用标准GNN之前平衡局部和全局信息传播。在多个基准数据集上的实验表明,KHG显著优于传统的消息传递GNN以及PPR和热核扩散,尤其在噪声或结构复杂的图中。
查看缓存全文
缓存时间: 2026/06/18 05:41
# 使用K跳高斯扩散的增强图神经网络
来源: https://arxiv.org/html/2606.18317
###### 摘要
大多数图神经网络 (GNN) 核心依赖于图卷积,通常实现为直接(单跳)邻居之间的消息传递。在许多现实世界的图中,边可能带有噪声或定义不良,从而限制了信息传播到局部邻域。现有的扩散核,如个性化 PageRank (PPR) 和热核,通过全局传播缓解了这一问题,但仍然难以处理复杂的局部结构和远距离节点噪声。为了解决这些限制,我们提出了一种K跳高斯 (KHG) 扩散核,作为图数据的预处理模块。KHG 引入了具有高斯加权的多跳扩散,用于远程节点,在应用标准 GNN 之前平衡局部和全局信息传播。在多个基准数据集上的实验表明,KHG 显著优于传统的消息传递 GNN,以及 PPR 和热核扩散,特别是在噪声或结构复杂的图中。
索引词——图神经网络,节点分类,图分类
## 1. 引言
图神经网络 (GNN) 已成为分析图结构数据的重要工具,其应用涵盖社交网络、交通网络、分子图 [9 (https://arxiv.org/html/2606.18317#bib.bib4)]、生物网络、金融交易网络 [19 (https://arxiv.org/html/2606.18317#bib.bib6)] 和引文图 [21 (https://arxiv.org/html/2606.18317#bib.bib7)]。通过将深度学习与图数据相结合,GNN 在节点分类、图分类和链接预测方面取得了优异性能。大多数 GNN 建立在消息传递神经网络 (MPNN) 之上,后者通过聚合邻域信息来更新节点嵌入。代表性模型包括 GCN [12 (https://arxiv.org/html/2606.18317#bib.bib10)]、SGC [20 (https://arxiv.org/html/2606.18317#bib.bib3)]、ChebNet [6 (https://arxiv.org/html/2606.18317#bib.bib9)]、TAGCN [8 (https://arxiv.org/html/2606.18317#bib.bib12)] 和 JKNet [22 (https://arxiv.org/html/2606.18317#bib.bib8)],涵盖了从频谱卷积到跳跃连接聚合的技术。虽然深度神经网络通常受益于更多层,但 GNN 在层数较多时会遭受过平滑问题 [14 (https://arxiv.org/html/2606.18317#bib.bib20)],最佳性能通常出现在 2-4 跳范围内 [13 (https://arxiv.org/html/2606.18317#bib.bib18)]。诸如 DropEdge [16 (https://arxiv.org/html/2606.18317#bib.bib19)] 和 DropNode 等技术(受 dropout 启发 [18 (https://arxiv.org/html/2606.18317#bib.bib24)])试图缓解此问题,但随机删除边/节点可能会破坏图结构。另一个挑战是信息瓶颈 [1 (https://arxiv.org/html/2606.18317#bib.bib22)],即长程依赖关系难以捕获。此外,许多 GNN 假设简单的无权无向图,忽略了如自环和多重边等更丰富的结构模式。为解决这些限制,我们提出了 K跳高斯 (KHG) 扩散核,它引入了具有高斯加权的多跳扩散。此设计平衡了局部和全局传播,抑制了来自远距离节点的噪声,并与现有扩散核(如个性化 PageRank (PPR) [13 (https://arxiv.org/html/2606.18317#bib.bib18)] 和热核)相比提高了鲁棒性。
我们的主要贡献有三点:(1) 我们提出了 KHG 扩散核以缓解深度 GNN 中的过平滑和信息瓶颈问题。(2) KHG 通过高斯加权集成了多跳扩散,并且是一个模块化、即插即用的预处理组件,适用于现有 GNN。(3) 在节点和图分类基准上的广泛实验表明,它优于 PPR 和热核。
参考图注图 1:K=2 时 K跳高斯扩散过程的示意图。深蓝色节点表示扩散源,蓝色节点对应 1 跳邻域,浅蓝色节点表示 2 跳邻域。扩散后,边按其扩散权重排序,仅保留权重最高的边。对所有节点重复此过程,最后合并生成的扩散图以构建 K跳高斯扩散图。
## 2. 相关工作
不同的GNN与消息传递:在GNN中,经典模型如 GCN [12 (https://arxiv.org/html/2606.18317#bib.bib10)]、SGC [20 (https://arxiv.org/html/2606.18317#bib.bib3)] 和 ChebNet [6 (https://arxiv.org/html/2606.18317#bib.bib9)] 仅聚合 1 跳邻居,限制了长程建模,而过度的多跳扩散会导致过平滑。GraphSAGE [10 (https://arxiv.org/html/2606.18317#bib.bib29)] 是一个完整的 GNN 模型,它聚合来自 1 跳和 2 跳邻域的信息,以在计算成本和过平滑之间取得平衡。其跳数通常限制为 2,因为更大的邻域可能引入噪声并增加模型复杂性。相比之下,我们的 K跳高斯 (KHG) 扩散是一个预处理模块,而非完整的 GNN,它允许灵活选择更大的 K 跳范围来传播信息,同时通过高斯加权控制远距离节点的贡献。扩散核推广了这个思路:PPR [13 (https://arxiv.org/html/2606.18317#bib.bib18)] 使用个性化随机游走,热核则模拟热流,两者都缺乏显式的跳数控制。GRAND [4 (https://arxiv.org/html/2606.18317#bib.bib34)] 提高了灵活性,但需要迭代或采样步骤。KHG 以闭合形式实现了高效、抗噪且确定性的多跳扩散。扩散机制:在 GNN 中,信息传播是学习节点关系的关键。经典模型如 GCN [12 (https://arxiv.org/html/2606.18317#bib.bib10)]、SGC [20 (https://arxiv.org/html/2606.18317#bib.bib3)] 和 ChebNet [6 (https://arxiv.org/html/2606.18317#bib.bib9)] 依赖于 1 跳聚合,限制了长程建模,而过度的多跳扩散会导致过平滑。PPR [13 (https://arxiv.org/html/2606.18317#bib.bib18)] 和热核等方法捕获了更广泛的上下文,但缺乏显式的跳数控制。GRAND [4 (https://arxiv.org/html/2606.18317#bib.bib34)] 通过可学习或连续扩散增强了灵活性,但产生了迭代或采样开销。我们的 K跳高斯 (KHG) 扩散提供了一种闭合形式的替代方案:一个高斯衰减的多跳核,能平滑地平衡局部和全局传播,同时保持高效和抗噪性。不同的GNN与消息传递:高斯滤波是图像处理中的经典去噪技术,也广泛用于深度视觉模型 [11 (https://arxiv.org/html/2606.18317#bib.bib17)]。受图上的频谱滤波启发 [3 (https://arxiv.org/html/2606.18317#bib.bib23)],我们将其扩展到 GNN 以控制多跳传播。在图像中,像素 (x, y) 的高斯核为 G(x,y)=1/(2πσ^2) exp(−(x^2+y^2)/(2σ^2)),其中 σ 控制平滑尺度。大的 σ 产生宽泛滤波,小的 σ 保留精细细节。类似地,在图中我们用跳距 i 替代空间距离,得到权重 w(i,σ)=exp(−i^2/(2σ^2)),它随 i 平滑衰减。这桥接了局部和全局传播:小的 σ 强制局部平滑,而大的 σ 纳入更广泛的上下文,从而缓解深度 GNN 中的过平滑问题。
参考图注图 2:K跳高斯扩散模型性能比较。
## 3. 方法
### 3.1 图归一化与转移矩阵
K跳高斯 (KHG) 扩散是一种基于高斯核的方法,能够在 GNN 中实现多跳传播,确保信息随距离平滑衰减,以缓解过平滑和噪声。输入是邻接矩阵 A∈R^(N×N),其中若节点 i 和 j 之间存在边则 A_ij=1,否则为 0。目标是构建一个平衡局部平滑与长程依赖的扩散矩阵。关键步骤是对 A 进行归一化以获得稳定的转移矩阵 T。如果不进行归一化,度不平衡会导致传播不均匀。两种广泛使用的形式是:对称归一化:T_sym = D^(-1/2) A D^(-1/2),其中 D_ii = Σ_j A_ij。此形式平衡了入度和出度,如 GCN [12 (https://arxiv.org/html/2606.18317#bib.bib10)]。列归一化:T_col = D^(-1) A,它均匀地将节点的信息分配给其邻居,防止低度节点的信息过度稀释。T_sym 和 T_col 都作为多跳传播的基本算子 (T^k),随后在 KHG 扩散中与高斯权重结合。与未归一化的 A 相比,这些归一化形式保证了稳定性,并在异构图保留了结构平衡。
### 3.2 K跳高斯扩散机制
设 A∈R^(N×N) 为邻接矩阵,D=diag(d_i) 为度矩阵。我们首先形成一个归一化的转移算子 T(我们使用对称或列归一化):T_sym = D^(-1/2) A D^(-1/2),T_col = D^(-1) A。i 跳转移算子是 T 的 i 次幂,并满足递归关系:
T^(1) = T,T^(i) = T^(i-1) T (i≥2),(1)
或元素形式 T_uv^(i) = Σ_k T_uk T_kv^(i-1),它编码了 i 跳内的可达性和聚合传播。为了控制跳数影响,我们引入高斯跳权重:
w(i,σ) = exp(-i^2/(2σ^2)),i=1,...,K,(2)
其中 σ>0 是尺度,K 是最大跳数截止值。未归一化的多跳核聚合加权幂次:D̃_K = Σ_{i=1}^K w(i,σ) T^(i)。通过标量权重和 Z(σ)=Σ_{i=1}^K w(i,σ) 进行归一化,我们得到最终的扩散核:
D_K = D̃_K / Z(σ) = (Σ_{i=1}^K w(i,σ) T^(i)) / (Σ_{i=1}^K w(i,σ))。(3)
若 T = UΛU^(-1)(当 T 对称时 U 正交),则:
T^(i) = UΛ^i U^(-1),D̃_K = U(Σ_{i=1}^K w(i,σ) Λ^i) U^(-1),
因此 D_K 作为一个多项式频谱滤波器:
D_K = U diag(g(λ_j)) U^(-1),g(λ) = (Σ_{i=1}^K w(i,σ) λ^i) / (Σ_{i=1}^K w(i,σ))。(4)
因此 KHG 是一个具有高斯系数的 K 次多项式滤波器。作为比较,PPR 对应几何权重 D_PPR = α Σ_{i≥0} (1-α)^i T^i = α(I-(1-α)T)^(-1),热扩散对应阶乘/指数级数 exp(tT)=Σ_{i≥0} t^i/i! T^i。显式构建 D_K 可能会使矩阵变密;相反,可以通过递归计算 D_K X 来处理特征矩阵 X∈R^(N×d)。设 Y^(0)=X 且 Y^(i)=T Y^(i-1),i=1,...,K,则:
D_K X = (Σ_{i=1}^K w(i,σ) Y^(i)) / (Σ_{i=1}^K w(i,σ))。(5)
这避免了存储 T^(i),并导致简单的迭代过程:迭代 K 次稀疏乘法 Y←T Y,累积 w(i,σ) Y 并除以 Z(σ)。当在特征级别实现时(稀疏 T)。显式矩阵构建在最坏情况下可能导致存储密集化为 O(N^2)。实践中使用稀疏累积和可选的逐行 top-m 稀疏化以保持 D_K 稀疏。参数语义直观:小的 σ 将质量集中在低阶幂次上(局部平滑),大的 σ 将质量分布到各跳(更多全局聚合);K 限制最大传播深度。
## 4. 实验
表 1:不同扩散机制下GNN模型在各数据集上的性能对比### 4.1 数据集与基线
在我们的实验中,我们评估了所提出的 K跳高斯 (KHG) 扩散与一系列代表性 GNN 基线的比较,包括 GCN [12 (https://arxiv.org/html/2606.18317#bib.bib10)]、SGC [20 (https://arxiv.org/html/2606.18317#bib.bib3)]、ChebNet [6 (https://arxiv.org/html/2606.18317#bib.bib9)]、TAGCN [8 (https://arxiv.org/html/2606.18317#bib.bib12)]、JKNet [22 (https://arxiv.org/html/2606.18317#bib.bib8)],以及高级扩散方法 GRAND [4 (https://arxiv.org/html/2606.18317#bib.bib34)]。对于节点分类,我们使用了三个基准引文网络:Cora、CiteSeer、Pubmed [15 (https://arxiv.org/html/2606.18317#bib.bib31)] 和 Chameleon [17 (https://arxiv.org/html/2606.18317#bib.bib27)]。对于图分类,我们考虑了三个分子和蛋白质数据集:ENZYMES [2 (https://arxiv.org/html/2606.18317#bib.bib28)]、MUTAG [5 (https://arxiv.org/html/2606.18317#bib.bib30)] 和 PROTEINS [7 (https://arxiv.org/html/2606.18317#bib.bib32)]。没有官方划分的数据集(例如 Chameleon、ENZYMES、MUTAG、PROTEINS)使用固定的随机种子 42 按 7:2:1 比例随机分为训练/验证/测试集,以确保可重复性。每个实验重复多次,结果以 95% 置信区间报告,以确保稳定性和鲁棒性。
### 4.2 性能对比
表 I 报告了四种扩散机制(无、PPR、热核、KHG)在三个节点分类数据集(Cora、CiteSeer、Chameleon)和三个图分类数据集(MUTAG、ENZYMES、PROTEINS)上与五种 GNN 模型(GCN、SGC、ChebNet、TAGCN、JKNet)结合的结果。总体而言,KHG 始终优于其他核。例如,在 Cora 上,GCN+KHG 达到了 82.0%,超过了无(80.8%)和 PPR/热核。在 Chameleon 上,ChebNet+KHG 达到了 48.9%,比无高出 3.7%。在图分类中,改进更大:ChebNet+KHG 在 MUTAG 上达到了 93.0%,比无高出 7.9%;GCN+KHG 在 ENZYMES 上提高了 5.0%。这些结果表明,高斯加权有效地增强了稀疏图和复杂图中的鲁棒性。K 的选择强烈影响性能。对于较小、稀疏的图(Cora、MUTAG),小 K(<10)是最优的;而对于更密集或异质的图(Chameleon、ENZYMES),中等 K(>10)通过捕获更多全局信息而不引入过多噪声,产生更好的准确率。这一趋势凸显了 KHG 对不同图规模和结构的适应性。
参考图注图 3:σ 对准确率的影响(Cora 数据集,固定 K)。效率。与依赖于迭代幂级数或矩阵指数化的 PPR 和热核不同,KHG 是一个闭合形式的预处理步骤。在 PubMed(19000 节点,88000 边,500 维特征)上,相似文章
分层多尺度图神经网络:通过缓解过平滑和过挤压实现可扩展的异配学习
本文介绍了 HMH,这是一种分层多尺度图神经网络框架,旨在解决异配图中的过平滑和过挤压问题。它利用基于 Haar 小波基的谱滤波器,实现了可扩展的学习,并在节点和图分类任务上取得了更好的性能。
DDGAD:基于扩散的图异常检测中的轨迹动力学
提出DDGAD,一种基于扩散的图异常检测框架,利用轨迹动力学区分正常节点与异常节点,通过可靠性感知的一致性机制和三种互补的异常信号缓解污染传播。
通过扩散模型生成知识图谱推理的图状规则
本文介绍了GRiD,一个利用扩散模型和强化学习生成图状规则(如循环、分支)以进行知识图谱推理的框架,解决了现有链式规则挖掘方法的局限性。在六个基准数据集上的实验表明,该方法在知识图谱补全任务中取得了有竞争力的性能。
HyperPatch:面向n元结构漂移的序列知识编辑
HyperPatch提出了一种参数保持框架,用于处理n元结构漂移下的序列知识编辑,利用超图神经网络维护事件完整性。在MQuAKE-CF和MQuAKE-T基准上,逐跳准确率分别相对提升96.24%和21.06%。
扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断
本文将均衡传播扩展到斜梯度系统,并展示了深度能量模型与哈密顿神经网络之间的等价性,重点关注扩散耦合的Fitzhugh-Nagumo神经元。它还推导了此类网络中用于推理的逐层哈密顿递归关系。