从模型到数据 (M2D):将图神经网络 (GNN) 的复杂性转移到图结构中以提升图学习的透明度

arXiv cs.LG 论文

摘要

本文介绍了“模型到数据 (M2D)”蒸馏框架,该框架通过将复杂性从图神经网络转移到数据空间,从而提升架构的透明度和可解释性。

arXiv:2605.06814v1 公告类型:新提交 摘要:图神经网络 (GNN) 虽然能实现高性能,但对人类而言往往缺乏透明度,这使得人们难以理解和比较众多提出的架构。现有的可解释性方法虽能将个体预测归因于节点、边或特征,但未能提供架构层面的透明度,也无法解释简单模型与复杂模型之间根本的性能差异。为了解决这一局限性,我们引入了“模型到数据 (M2D)”蒸馏,这是一种通过将模型复杂性转移到数据空间来提高透明度的新框架。M2D 将教师模型蒸馏为一个具有增强特征和结构的扩充图,使得简单的学生模型能够匹配教师模型的性能。通过将模型行为具象化到数据中,我们的方法允许人类直接检查架构优势。我们展示了 M2D 能够以可解释的方式揭示公平性目标和基于注意力的聚合等潜在机制,在保持性能的同时增强了 GNN 的透明度。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:53

# 从模型到数据(M2D):将复杂度从图神经网络转移到图结构以实现透明的图学习

来源: https://arxiv.org/html/2605.06814
Debolina Halder Lina 计算机系, 莱斯大学, 德克萨斯州休斯顿, 77005, 美国 Arlei Silva 计算机系 & 肯·肯尼迪研究所, 莱斯大学, 德克萨斯州休斯顿, 77005, 美国

###### 摘要

图神经网络(GNNs)虽然能实现高性能,但对人类而言往往缺乏透明度,这使得理解和比较众多提出的架构变得困难。虽然现有的可解释性方法将个体预测归因于节点、边或特征,但它们并未提供架构层面的透明度,也无法解释简单模型与复杂模型之间的根本性能差异。为了解决这一局限性,我们引入了模型到数据(Model-to-Data, M2D)蒸馏,这是一种新框架,通过将模型复杂度转移到数据空间来提高透明度。M2D 将教师模型蒸馏为一个具有丰富特征和结构的增强图,从而使简单的学生模型能够达到教师模型的性能水平。通过在数据中具象化模型行为,我们的方法允许人类直接检查架构优势。我们证明,M2D 能以可解释的方式揭示诸如公平性目标和基于注意力的聚合等底层机制,在保持性能的同时增强了 GNN 的透明度。

## 1 引言

图神经网络(GNNs)在节点分类、链路预测和图分类等图任务上取得了最先进的性能(Gilmer et al., 2017; Kipf and Welling, 2017; Veličković et al., 2018; Hamilton et al., 2017)。然而,随着 GNNs 变得越来越复杂以解决有偏预测、对数据扰动缺乏鲁棒性、过平滑以及表达能力有限等问题,它们对人类而言也日益变得不透明。这种**认知不透明性**具有实际影响,从限制 GNN 在高 stakes 场景中的采用,到阻碍我们理解为什么某些架构在特定基准上优于其他架构。我们的工作旨在通过使人类能够(1)理解其逻辑,以及(2)对其正确性和偏见进行审计,来提高 GNN 的透明度(Lipton, 2018)。

虽然传统的解释器确定了哪些输入特征影响了预测,但它们无法解释对于特定数据集而言,一种模型架构比另一种模型架构更合适的**原因**。例如,在 Cora 数据集上,自注意力机制是如何转化为图注意力网络(GAT)相对于图卷积网络(GCN)的性能提升的,这一点尚不清楚(Veličković et al., 2018)。如果我们能够将这种架构优势具象化为静态数据增强,我们就能够让人类直接在数据空间内审计模型的逻辑,揭示为什么复杂的架构比简单的架构表现更好。

为此,我们引入了模型到数据(M2D)蒸馏,它将复杂度从教师模型 $\mathcal{M}$ 转移到增强图 $\mathbb{D}$ 中,该增强图以丰富的节点特征和修改后的邻接权重为特征。这使得轻量级学生模型 $m$ 能够达到教师级别的性能,同时保持人类可审计的数据表示。我们在知识和数据蒸馏的统一空间中看待 M2D,如图 2 所示。知识(K)蒸馏(Gou et al., 2021)降低模型复杂度(垂直移位),数据(D)蒸馏降低数据复杂度(Lei and Tao, 2023)(水平移位),而 M2D 蒸馏则用模型复杂度交换数据复杂度,以便人类可以根据相应数据集 $\mathbb{D}$ 和 $\tilde{\mathbb{D}}$ 之间的差异来比较模型 $\mathcal{M}$ 和 $m$。

> **图 1:** 通过 M2D 增加公平图卷积网络(GCN)的透明度,使用标准 GCN 作为比较。使公平 GCN 生成公平预测的机制对用户而言并不透明(中间)。M2D 通过将公平 GCN 蒸馏为一个增强图,使得 GCN 的预测变得公平,从而提高了公平 GCN 的透明度(右侧)。直观地说,图增强应该捕捉公平 GCN 如何解决输入图特征和拓扑中的偏差。图 1 在公平机器学习的背景下说明了我们的方法,其目标是更好地理解公平图卷积网络(GCN)与简单 GCN 相比如何在节点分类中减轻偏差。更具体地说,虽然公平 GCN 产生了减轻偏差的预测,但执行公平性的内部机制通常是不透明的(中间)。

> **图 2:** 具有数据(x轴)和模型(y轴)复杂度的蒸馏设计空间。知识(K)蒸馏降低模型复杂度(垂直),数据(D)蒸馏降低数据复杂度(水平)。模型到数据(M2D)蒸馏将容量从模型转移到数据(对角线)。

通过将复杂度转移到数据(右侧),公平性不再隐藏在晦涩难懂的对抗训练或复杂的损失函数中,而是具象化为对图的修改。这对于高风险审计尤为重要:审计员可以检查为减轻偏差而添加的具体边或修改的特征,这比公平 GCN 的内部梯度提供了更直观的解释。此外,我们表明 M2D 可以有效地“捕捉”图变换器(Graph Transformers)的全局上下文,将其长距离依赖关系蒸馏为简单 GCN 可以处理的局部特征增强。

除了透明度之外,M2D 还有其他应用。图增强可以作为基准共享给在资源受限条件下(例如在边缘设备上)训练的更简单的模型。此外,M2D 可以应用于仅通过访问其 logits 来逆向工程黑盒模型。

我们将本文的贡献总结如下:(1)我们引入模型到数据(M2D)蒸馏作为 GNN 中交换模型和数据复杂度的通用框架;(2)我们通过使用特征和结构学习及多目标优化的迭代框架实例化 M2D;(3)我们通过实证展示了 M2D 如何提高公平 GNN、图注意力网络和图变换器的透明度。

### 1.1 相关工作

##### 图解释器:

GNN 解释器侧重于实例级解释,旨在解释个体预测。基于梯度的方法(例如,SA、Guided BP、CAM、Grad-CAM)使用梯度或激活归因预测;基于扰动的方法(例如,GNNExplainer、PGExplainer、GraphMask、DnX、SubgraphX)学习节点、边或特征上的掩码以保留预测;代理方法(例如,GraphLime、RelEx、PGM-Explainer)用可解释的模型近似局部模型行为;分解方法(例如,LRP、Excitation BP、GNN-LRP)将预测得分分配回输入空间(Baldassarre and Azizpour, 2019; Pope et al., 2019; Ying et al., 2019; Luo et al., 2020; Schlichtkrull et al., 2020; Pereira et al., 2023; Yuan et al., 2021; Huang et al., 2022; Zhang et al., 2021b; Vu and Thai, 2020)。模型级解释器(例如,XGNN、PAGE、GNNInterpreter、GLGExplainer、GCFExplainer、MOSE)试图通过识别在目标类别中一致影响预测的模式、子图或概念来提供全局解释(Shin et al., 2024; Vasilcoiu et al., 2024; Xuanyuan et al., 2023; Kang et al., 2022; Liu et al., 2025)。虽然这些方法解释了驱动预测的因素,但它们并没有解释为什么特定架构在数据集上优于另一种架构。相比之下,M2D 通过将模型行为翻译为数据的显式修改来针对架构透明度,从而能够通过其诱导的数据转换直接比较模型。

##### 图上的知识蒸馏:

图上的知识蒸馏沿两个轴变化:转移的知识类型和蒸馏框架。现有方法通过对齐输出分布蒸馏 logits(例如,TinyGNN、GFKD、DFAD-GNN、KDGA、CPF、GLNN)(Yan et al., 2020; Deng and Zhang, 2021; Zhuang et al., 2022; Wu et al., 2022; Yang et al., 2021; Zhang et al., 2022b),或通过保留局部和全局拓扑蒸馏结构知识(例如,LSP、FreeKD、Alignahead、GNN-SD、CKD、G-CRD、ROD、MSKD、Cold Brew、GKD、NOSMOG)(Yang et al., 2020; Feng et al., 2022; Guo et al., 2022; Chen et al., 2020b; Wang et al., 2022a; Joshi et al., 2022; Zhang et al., 2021a, 2022a; Zhen et al., 2022; Yang et al., 2022; Tian et al., 2023),或通过匹配层间表示蒸馏中间嵌入(例如,T2-GNN、SAIL、GraphAKD、RDD)(Huo et al., 2023; Yu et al., 2022; He et al., 2022; Zhang et al., 2020)。从框架角度来看,以前的工作包括无教师自蒸馏(例如,GNN-SD、CKD、RDD)和教师-学生范式,其中预训练的 GNN 将知识转移到紧凑型 GNN(例如,TinyGNN、GraphAKD、LSP)或更简单的模型如 MLP(例如,CPF、GLNN、Cold Brew、NOSMOG)。

##### 图上的数据蒸馏:

图数据蒸馏通常被称为图凝聚(GC)。GC 方法可以根据其目标进行分类,旨在保留任务特定的性能,使在凝聚图上训练的 GNN 能够匹配在原始图上训练的 GNN(例如,GCond、SFGC、CTRL、OpenGC、GC-STNK、GCSR、KiDD)(Hashemi et al., 2024; Liu et al., 2023b; Zhang et al., 2024; Gao et al., 2024b; Zhen et al., 2023; Liu et al., 2024)。广义 GC 方法,如 GDEM、SDDD、OpenGC 等,专注于通过学习在不同模型和任务上泛化的凝聚图,通过保留基本的结构和特征信息来实现(Liu et al., 2023a; Xue et al., 2023; Gao et al., 2024b)。DosCond、CaT 和 EXGC 试图通过改进编码、优化和生成等阶段来加速凝聚过程(Jin et al., 2022; Gao et al., 2024a; Fang et al., 2024)。FGD 和 GCARe 纳入约束或正则化以减轻偏差并促进公平表示(Feng et al., 2023; Mao et al., 2023)。RobGC 旨在过滤噪声并保留核心因果关系信息,以便在现实世界环境中实现可靠性能(Gao et al., 2025)。

M2D 与知识和数据蒸馏不同,它实现了模型和数据复杂度之间的权衡,允许简单模型通过增强图恢复复杂教师模型的行为。这使 M2D 位于模型-数据设计空间中一个独特且尚未充分探索的区域。我们的方法不同于传统的图重连,后者通常修改拓扑以缓解消息传递瓶颈,如过平滑或过挤压(Attal et al., 2024)。虽然以前的工作使用迭代结构学习来提高鲁棒性(Chen et al., 2020a),但 M2D 而是迭代地将教师行为蒸馏到图中,将数据视为编码教师知识的透明介质。

## 2 模型到数据(M2D)蒸馏

### 2.1 问题定义

我们提出模型到数据蒸馏(M2D),这是一种新的蒸馏范式,将复杂度从图神经网络(GNN)模型转移到数据中。M2D 丰富了数据,使得轻量级 GNN 能够实现与更复杂模型相当的性能(见图 2)。

令 $\mathcal{G}=(\mathcal{V}, \mathcal{E}, \mathbf{X})$ 为一个无向图,其中 $\mathcal{V}$ 是节点集,$\mathcal{E} \subseteq \mathcal{V} \times \mathcal{V}$ 是边集,$\mathbf{X} \in \mathbb{R}^{n \times d}$ 是节点属性。矩阵 $\mathbf{A} \in \mathbb{R}^{n \times n}$ 是 $\mathcal{G}$ 的邻接矩阵,其中如果 $u$ 和 $v$ 之间存在边,则 $A_{uv}=1$,否则 $A_{uv}=0$。令 $f_T$ 为参数为 $\theta_T$ 的教师模型,$f_s$ 为参数为 $\theta_s$ 的学生模型,其中 $\|\theta_T\| > \|\theta_s\|$。此外,令教师模型和学生模型的预测分别为 $\hat{\mathbf{y}}_T$ 和 $\hat{\mathbf{y}}_s$。

M2D 学习具有参数 $\theta_g$ 的变换 $f_g$,通过生成额外特征或修改图结构来丰富原始图数据 $\mathcal{G}$,生成 $\tilde{\mathcal{G}}=(\mathcal{V}, \tilde{\mathcal{E}}, \tilde{\mathbf{X}})$。我们通过优化以下目标联合学习图变换 $f_g$ 和学生模型 $f_s$:

$$
\min_{\theta_g, \theta_s} \mathcal{L}_{\mathrm{dis}}(f_T(\mathcal{G}), f_s(\tilde{\mathcal{G}})) + \mathcal{L}_{\mathrm{cls}}(f_s(\tilde{\mathcal{G}}), y) - \mathcal{S}(\mathcal{G}, \tilde{\mathcal{G}}),
$$

相似文章

超越金牌教师:通过LLM-GNN协同教学增强图学习

arXiv cs.LG

本文提出LLM-GNN协同教学(LLM-GNN Co-Teaching),一种面向文本属性图的小样本图学习的双向框架。LLM和GNN交换高置信度的伪标签,并利用基于轮次的偏好优化(RPL-PO)相互改进,在基准测试上优于先前方法。

通过轻量级结构引导的自回归模型实现新型图生成的可扩展性

arXiv cs.LG

研究人员提出了一种用于图生成的轻量级自回归框架,该框架使用结构引导的拓扑排序实现了接近对数线性的复杂度,解决了现有扩散和自回归方法在可扩展性和新颖性方面的局限性。该方法同时支持LSTM和Mamba风格的主干网络,在分子和非分子基准测试中展示了改进的新颖性,同时保持了有效性和独特性。

解锁门控Delta网络在大规模训练中的特征学习能力

arXiv cs.LG

本文推导了门控Delta网络的μP(最大更新参数化)缩放规则,实现了跨模型宽度的零样本超参数迁移,从而高效支持亚二次方复杂度的大语言模型架构。实验表明,在AdamW和SGD优化器下,该方法均能实现稳定的学习率迁移,而标准参数化方案则无法做到这一点。