对抗图神经网络基准:迈向实用且公平的评价

arXiv cs.LG 论文

摘要

本文提出了一个全面的基准,用于评估图神经网络中的对抗攻击与防御,强调了需要标准化和公平的实验协议。

arXiv:2605.05534v1 公告类型:新论文 摘要:对抗学习和图神经网络(GNN)的鲁棒性在机器学习社区中引起了广泛关注,这一点从为解决这些问题而设计的众多对抗攻击与防御方法中可见一斑。虽然对这些对抗方法的严格评估对于理解 GNN 在现实世界应用中的鲁棒性至关重要,但我们认为,文献中的许多研究并未采用相同的实验设置,导致科学结论模糊甚至相互矛盾。在本基准研究中,我们展示了在对抗 GNN 研究中采用公平、鲁棒且标准化的评估协议的重要性。我们在统一的框架内,针对六个流行图数据集的投毒和规避场景,对七种广泛使用的攻击和八种最新的防御方法进行了全面的重新评估。我们的研究涵盖了超过 453,000 次实验。我们观察到,在公平且鲁棒的评估流程下,对抗攻击的性能存在显著差异。我们的发现表明,先前被忽视的因素(如目标节点的选择和被攻击模型的训练过程)对攻击效果有着深远的影响,甚至完全扭曲了对性能的理解。这些结果突显了在对抗图机器学习领域进行标准化评估的紧迫需求。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:55

# 对抗图神经网络基准:迈向实用且公平评估

来源: https://arxiv.org/html/2605.05534
Tran Gia Bao Ngo<sup>1</sup>
Zulfikar Alom<sup>2</sup>
Federico Errica<sup>3</sup>
Murat Kantarcioglu<sup>4</sup>
Cuneyt Gurcan Akcora<sup>5</sup>
<sup>1</sup>曼尼托巴大学计算机科学系, <sup>2</sup>托莱多大学, <sup>3</sup>NEC欧洲实验室, <sup>4</sup>弗吉尼亚理工大学计算机科学系, 美国, <sup>5</sup>中佛罗里达大学人工智能倡议

###### 摘要

对抗学习和图神经网络(GNNs)的鲁棒性是机器学习社区广泛关注的主题,这从为此目的设计的众多对抗攻击和防御方法数量中可见一斑。虽然对这些对抗方法进行严谨评估对于理解 GNNs 在现实世界应用中的鲁棒性至关重要,但我们认为文献中的许多作品并未共享相同的实验设置,导致科学结论模糊甚至可能自相矛盾。在本基准研究中,我们展示了在对抗性 GNN 研究中采用公平、鲁棒且标准化的评估协议的重要性。我们在投毒(poisoning)和逃逸(evasion)两种场景下,跨越六个流行图数据集,对七种广泛使用的攻击和八种最新的防御方法进行了全面重新评估。我们的研究涵盖在一个统一框架内进行的超过 453,000 次实验。我们观察到,在公平且鲁棒的程序下评估时,对抗攻击的性能存在显著差异。我们的发现揭示,先前被忽视的因素,如目标节点的选择和被攻击模型的训练过程,对攻击效果有着深远影响,甚至到了完全扭曲性能认知的程度。这些结果强调了在对抗性图机器学习领域进行标准化评估的迫切需求。

## 1 引言

将机器学习应用于图结构数据(如金融交易网络和社会图谱),需要能够有效嵌入非欧几里得关系的模型。由 Scarselli 等人 [49](https://arxiv.org/html/2605.05534#bib.bib49) 和 Micheli [43](https://arxiv.org/html/2605.05534#bib.bib43) 引入的图神经网络(GNNs)已成为实现这一目的的基础工具。在过去十年中,GNNs 在各领域均取得了强劲表现,但其对对抗攻击的脆弱性引发了日益增长的关注。一系列近期研究 [73](https://arxiv.org/html/2605.05534#bib.bib73), [37](https://arxiv.org/html/2605.05534#bib.bib37), [59](https://arxiv.org/html/2605.05534#bib.bib59), [22](https://arxiv.org/html/2605.05534#bib.bib22) 表明,即使对输入图进行微小扰动,也可能显著降低 GNN 的性能。随着攻击策略的激增,评估协议的不一致性已成为科学进展的严重障碍。许多研究报告了使用不同实验设置取得的巨大增益,使得结果难以比较,结论也可能具有误导性。机器学习中的可重复性危机凸显了标准化、严谨的经验评估的重要性 [39](https://arxiv.org/html/2605.05534#bib.bib39)。在对抗性图学习中,Mujkanovic 等人 [44](https://arxiv.org/html/2605.05534#bib.bib44) 警告说,图社区尚未从视觉社区吸取“痛苦教训”,后者曾因忽视自适应攻击和评估严谨性,导致大量不可靠的防御机制评估泛滥。

在这项工作中,我们指出了当前评估中存在的几个反复出现的问题。首先,GNNs 通常使用针对特定攻击的超参数或固定的数据划分进行训练,从而导致结果偏差。其次,新的攻击模型经常在比其基线更有利的条件下进行测试。第三,评估通常以不能充分代表高度数节点的方式选择目标节点,而高度数节点通常对攻击更具抵抗力(见 [图2](https://arxiv.org/html/2605.05534#S6.F2))。因此,报告的改进可能反映的是有利的设置,而非方法设计上的真正进步。为了进一步审视这些问题,我们在一个标准化、鲁棒的评估框架下重新评估了几种广泛使用的灰盒攻击,展示了评估协议的变化如何产生不一致或夸大的发现。虽然对所有攻击进行全面重新评估是不可行的,但我们有针对性的努力旨在为社区建立更强的评估实践。为了更好地解释性能主张,我们还引入了一个天真但表现惊人的基线,L1D-RND,它以极低的计算成本实现了具有竞争力的结果。它的成功强化了提出复杂新方法时进行基本健全性检查的需求。通过展示许多现有攻击的有限可扩展性以及它们在高度数节点上效果的下降,我们的工作突出了对抗性图学习中被忽视的挑战。我们希望鼓励开发更鲁棒和可扩展的攻击和防御策略。

*免责声明。* 这项工作倡导严谨的评估实践。其目的并非对攻击进行排名或贬低先前的贡献,而是为了在未来研究中实现更可靠和可重复的比较。

## 2 相关工作

**对抗攻击。** 关于图数据对抗攻击的最新研究开发了最优策略,以在预算约束下最小化对图的扰动,同时对 GNN 的分类性能产生最大影响。最早的方法之一是 Nettack [73](https://arxiv.org/html/2605.05534#bib.bib73),这是一种基于梯度的对抗攻击策略,可生成对图结构和节点特征的扰动。随着 Nettack 的成功,新的对抗攻击策略被提出 [6](https://arxiv.org/html/2605.05534#bib.bib6), [22](https://arxiv.org/html/2605.05534#bib.bib22)。大多数早期的对抗攻击专注于节点少于 5000 个的小规模数据集。通过仅提取以目标节点为中心的小得多的子图,Li 等人 [36](https://arxiv.org/html/2605.05534#bib.bib36) 提出了 SGA 作为可扩展的对抗策略。PR-BCD 是 Geisler 等人 [22](https://arxiv.org/html/2605.05534#bib.bib22) 提出的另一种大规模对抗攻击,它采用随机块坐标下降 [45](https://arxiv.org/html/2605.05534#bib.bib45) 来解决大规模优化问题以寻找最优扰动。同时,在最近的一项研究中,GOttack [2](https://arxiv.org/html/2605.05534#bib.bib2) 通过针对拓扑等价群并利用其在基于梯度的对抗模型中的影响力,利用图结构。

**评估程序。** 我们遵循 [18](https://arxiv.org/html/2605.05534#bib.bib18) 和 [50](https://arxiv.org/html/2605.05534#bib.bib50) 的良好实践。特别是,这两项工作都标准化了评估程序,并促进了具有严格**模型选择**和**评估**框架的可复现实验环境,但处于两个不同的背景中。Errica 等人 [18](https://arxiv.org/html/2605.05534#bib.bib18) 专注于图分类任务,而 Shchur 等人 [50](https://arxiv.org/html/2605.05534#bib.bib50) 的工作主要集中在节点分类上。此外,Shchur 等人 [50](https://arxiv.org/html/2605.05534#bib.bib50) 表明,评估中使用的训练/验证/测试划分选择会显著影响性能排名,从而引起社区对在使用不同划分的评估程序中关注其必要性的重视。与他们不同,他们专注于为 GNN 模型设计严格的评估框架,我们提出了一种鲁棒的评估程序,以防止对抗攻击策略真实性能的过度乐观和有偏估计。图鲁棒性基准(GRB)[69](https://arxiv.org/html/2605.05534#bib.bib69) 是多年前引入的,它主要关注全局逃逸攻击。然而,GRB 未考虑三个有价值的场景:(i) 定向攻击,(ii) 投毒场景,以及 (iii) 同质图与异质图之间的区别。我们的基准通过纳入定向逃逸和投毒攻击,同时明确评估同质图和异质图上的性能(受害模型在每个场景中进行训练),解决了这些局限性。

## 3 预备知识

令 $G=(V,E,X)$ 表示一个图,其中 $V$ 是 $N$ 个节点的集合,$E\subseteq\{(v,w)\mid v,w\in V\}$ 是有向边的集合,$X=\{x_0,x_1,...,x_{N-1}\}$ 是节点特征向量的集合。每个 $x_i\in\mathbb{R}^M$ 编码节点 $v_i$ 的 $M$ 维属性。图结构由邻接矩阵 $A\in\{0,1\}^{N\times N}$ 表示,其中若 $(v_i,v_j)\in E$ 则 $A_{ij}=1$,否则为 0。每个节点 $v_i$ 都有一个关联的标签向量 $y_i\in\{0,1\}^{|C|}$,指示其属于 $|C|$ 个类中的一个,形成标签矩阵 $Y\in\{0,1\}^{N\times|C|}$。

**半监督节点分类。** 我们关注半监督设置下的节点分类,其中仅有一部分节点的标签可用。令 $V_L\subset V$ 表示具有已知标签 $Y^L$ 的标记节点集合,$V_U=V\setminus V_L$ 表示未标记节点集合。目标是学习一个函数 $g:G,Y^L\to Y^U$,为 $V_U$ 中的每个节点预测类别概率分布。节点 $v\in V_U$ 的预测标签 $\hat{y}_v$ 对应于 $g(v)$ 中具有最高预测概率的类别。

**节点分类间隔。** 对于具有真实标签 $y$ 的节点 $v$,分类间隔 $M_v$ 衡量模型对正确类别的信心。它定义为模型对真实类别的输出得分与分配给任何错误类别的最高得分之间的差值 [73](https://arxiv.org/html/2605.05534#bib.bib73):

$$ M_v=g(v)_y-\max_{c\in C,\,c\neq y}g(v)_c \quad (1) $$

较小或负值的间隔表明预测不确定或不正确,使得此类节点更容易受到对抗扰动的攻击。

**风险评估。** 风险评估指的是在多个随机划分下对模型性能进行经验评估 [18](https://arxiv.org/html/2605.05534#bib.bib18)。给定将 $V$ 划分为不相交子集 $V_{train}, V_{valid}$ 和 $V_{test}$ 的 $K$ 个随机划分,模型在 $V_{train}$ 上训练并在 $V_{valid}$ 上调优。对于每个划分 $k$,仅基于验证性能选择最佳超参数配置。然后通过平均 $K$ 个划分下的测试性能来估计经验风险。

**模型选择。** 模型选择旨在确定产生最高验证准确率的超参数配置。然而,验证准确率通常是泛化性能的有偏估计量 [18](https://arxiv.org/html/2605.05534#bib.bib18), [5](https://arxiv.org/html/2605.05534#bib.bib5)。过度依赖验证性能可能导致过拟合和期望膨胀。在对抗性 GNN 文献中,模型选择和最终评估经常混淆,破坏了不同攻击策略之间的公平比较。正确区分模型选择和风险评估对于避免误导性结论至关重要。

## 4 图对抗攻击

图上的对抗攻击旨在扰动图 $G=(A,X)$ 的结构或特征,以降级 GNN 的性能。我们将被攻击的模型称为**受害模型**。攻击将 $G$ 修改为扰动版本 $G'=(A',X')$,导致受害模型误分类选定的节点。

**攻击者能力。** 对抗攻击可以在推理或训练阶段引入对数据的扰动。在**逃逸**设置中,受害模型在干净的图数据 $G$ 上进行训练,以对扰动数据 $G'$ 执行推理。在**投毒**设置中,对抗攻击创建修改后的图 $G'$,然后用于训练模型。

**扰动类型。** 我们在给定预算 $\Delta$ 内扰动 $G$,方法是从 $E$ 中添加或删除边或扰动节点特征。形式上,我们可以写出...

*(注:原文此处似乎混入了伪代码片段,以下为翻译后的伪代码逻辑)*

...
9: // 添加一条边
10: $V_{candidate} = [0,1,2,...,len(A)] - N_{v_t}$ // 排除邻居节点
11: $k=\lfloor r\times|V_{candidate}|\rfloor$
12: $V'_{candidate} \sim Uniform(V_{candidate}, k)$
13: $e^*=(v_t, u) \leftarrow \arg\max_{u\in V'_{candidate}} degree(u, A')$
14: $A' = A' + e^*$
15: $N_{v_t}^{new}.append(u)$
16: else
17: // 移除一条边
18: $N_{v_t}^- = N_{v_t} - N_{v_t}^{new}$
19: $k=\lfloor r\times|N_{v_t}^-|\rfloor$
20: $V_{candidate} \sim Uniform(N_{v_t}^-, k)$
21: $e^*=(v_t, u) \leftarrow \arg\max_{u\in V_{candidate}} s_{influence}(u, A', X)$
22: $A' = A' - e^*$

**算法 4** $s_{influence}(u, A, X)$
1: 输入:节点 $u$,邻接矩阵 $A$,节点特征 $X$
2: 输出:影响力得分 $s_{influence}$
3: $N_u = neighbor(u, A) + u$
4: $s_{influence} = L1norm(X[N_u, :])$

**相对于随机攻击(RND)的改进。** 本节重点介绍 L1D-RND 中 $L_1$ 范数和节点度数相对于随机攻击(RND)的改进。表 31 ([链接](https://arxiv.org/html/2605.05534#A11.T31)) 显示,L1D-RND 在 84% 的设置中平均比 RND 高出 5.15%。特别是,在 GRAND 的所有设置中,L1D-RND 的表现比 RND 平均好 13.4%。虽然许多基准数据集使用稀疏的、类似词袋的节点特征(例如,Cora, Citeseer, Pubmed),但我们通过在 OGB-Arxiv 上评估 L1D-RND 来测试其通用性,这是一个具有从原始文本派生的连续节点嵌入的大规模图。即使在这种设置下,L1D-RND 的表现也优于 PR-BC...

相似文章

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

测试对未知对手的鲁棒性

OpenAI Blog

# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能

GraphARC:基于图结构的抽象推理综合基准

arXiv cs.AI

GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。