图自监督学习对现实世界噪声的鲁棒性:基于文本驱动生物医学图的案例研究

arXiv cs.LG 论文

摘要

本文介绍了 NATD-GSSL 框架,用于评估图自监督学习在含噪声的文本驱动生物医学图上的鲁棒性。研究表明,尽管存在现实世界的噪声,某些 GNN 架构和 pretext tasks(辅助任务)仍能保持性能,为在不完美数据集上进行无监督学习提供了实用指导。

arXiv:2605.05463v1 公告类型:new 摘要:图自监督学习(GSSL)为在无标签数据下学习图表示提供了一种强大的范式。然而,现有工作假设图是干净且经过人工整理的。自然语言处理(NLP)的最新进展使得能够从文本中大规模自动提取知识图谱,这为 GSSL 开辟了新的机会,同时也引入了大量的现实世界噪声。由于先前的鲁棒性研究通常依赖于合成扰动,这种类型的噪声在很大程度上仍未得到探索。为了弥补这一空白,我们首次全面评估了针对无监督术语分类任务的文本驱动图上的 GSSL 方法。我们引入了噪声感知文本驱动图 GSSL(NATD-GSSL),这是一个结合了自动图构建、图优化和 GSSL 的统一框架。我们的评估遵循双图协议,将源自 MedMentions 的含噪声图与通过共享金标准对齐的干净统一医学语言系统(UMLS)参考图进行对比。研究结果显示,在不同的 pretext tasks 和图神经网络(GNN)架构之间,鲁棒性存在差异。关系重建对噪声高度敏感,并受益于明确定义的架构,而特征重建则相当稳健,其性能与干净图设置下的性能相当。对比目标通常受噪声影响较小,但强烈依赖于与下游任务的一致性。GNN 架构也起着关键作用:双向关系消息传递设计更适合含噪声的文本驱动图,而单向关系设计在干净图上表现最佳。总体而言,NATD-GSSL 为将 GSSL 应用于现实世界的含噪声图提供了实用指导,并与预训练语言模型基线相比实现了高达 7% 的性能提升。所有代码和基准测试均在 https://github.com/OthmaneKabal/MC2GAE 公开可用。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:24

# 图自监督学习对真实世界噪声的鲁棒性:基于文本驱动的生物医学图的案例研究
来源:https://arxiv.org/html/2605.05463
\[1\]\\fnmOthmane\\surKABAL

\[1\]\\orgdiv南特大学,\\orgnameLS2N,\\city南特,\\postcode44300,\\country法国

2\]\\orgdiv国立情报研究所,\\orgname2\-1\-2 本乡,\\orgaddress\\street千代田区,\\city东京\\postcode101\-8430\\country日本 3\]\\orgname东京科学大学,\\orgaddress\\city东京\\postcode152\-8550\\country日本

###### 摘要

图自监督学习(GSSL)为在无标签数据下学习图表示提供了一种强大的范式。然而,现有工作通常假设图是干净且经过人工精心构建的。自然语言处理(NLP)的最新进展使得能够从文本中大规模自动提取知识图谱,这为 GSSL 开辟了新的机会,同时也引入了大量的真实世界噪声。由于先前的鲁棒性研究通常依赖于合成扰动,这种类型的噪声在很大程度上尚未得到探索。为了弥补这一空白,我们提出了针对无监督术语类型识别任务中在文本驱动图上应用 GSSL 方法的首次全面评估。我们引入了噪声感知文本驱动图 GSSL(NATD-GSSL),这是一个结合了自动图构建、图精炼和 GSSL 的统一框架。我们的评估遵循双图协议,将源自 MedMentions 的噪声图与统一医学语言系统(UMLS)参考图进行对比,两者通过共享的金标准进行对齐。我们的研究结果揭示了在预训练任务和图神经网络(GNN)架构之间鲁棒性的差异性。关系重构对噪声高度敏感,并受益于明确定义的架构,而特征重构则表现出更强的鲁棒性,达到了与干净图设置相当的性能。对比学习目标通常受噪声影响较小,但强烈依赖于与下游任务的对齐程度。GNN 架构也起着至关重要的作用:双向关系消息传递设计更适合噪声大、由文本驱动的图,而单向关系设计在干净图上表现最佳。总体而言,NATD-GSSL 为将 GSSL 应用于真实世界、有噪声的图提供了实践指导,并实现了比预训练语言模型基线高达 7% 的性能提升。所有代码和基准测试均公开可用:https://github.com/OthmaneKabal/MC2GAE。

###### 关键词:

图自监督学习,知识图谱构建,噪声图,鲁棒性评估,术语类型识别,GNN 中的噪声

## 1 引言

近年来,基于图神经网络(GNN)的学习取得了 rapid 进展\[wu2020comprehensive,dai2024comprehensive\]。GNN 现在被广泛采用,并且通常优于纯基于文本的方法,因为它们共同利用了文本内容以及图中编码的关系结构\[10\.5555/3171642\.3171829,wang2024graph\]。塑造该领域的两种主要范式是:监督方法\[10\.1109/TKDE\.2020\.2981333,xiao2022graph\] 达到了最先进的水准,但需要大量标注数据,获取成本高昂;相比之下,图自监督学习(GSSL)\[liu2022graph,liu2022survey\] 通过从预训练任务中学习来避免标注,提供了跨领域的可扩展性和适应性。各种 GSSL 框架应运而生,包括生成式方法\[kipf2016variational,tan2023s2gae\]、对比方法\[you2021graphcontrastivelearningaugmentations\],这些方法采用不同的编码器-解码器架构实现\[velivckovic2017graph,yang2015embeddingentitiesrelationslearning,10\.1007/978\-3\-319\-93417\-4\_38\]。然而,大多数现有研究依赖于通用且精心策划的图,如 Wikidata\[10\.1145/2629489\]、FB15k-237\[toutanova2015observed\] 或引用网络\[sen2008collective\],这些图通常被认为高质量且易于获取。在实践中,此类资源稀缺,限制了 GSSL 方法仅适用于少数存在精心构建图形的领域,而许多其他领域则未被探索。为了扩大 GSSL 在不同领域的适用性,直接从文本资源构建知识图谱变得必要。由于人工策划耗时过多,自动图构建\[zhong2023comprehensive,kabal2024enhancing\] 往往成为唯一可行的选择。这一过程不可避免地引入噪声\[cai2025understanding\],给 GSSL 方法的鲁棒性带来重大挑战。虽然几项研究调查了噪声对 GNN 性能的影响\[liu2022survey,Ju2024ASO,zhuang2022defending\],但它们主要依赖合成扰动,如随机边删除、添加或对抗攻击\[zhuang2022defending\],并评估其对下游性能的影响。然而,这些受控设置很少能捕捉到文本驱动图中固有的噪声复杂性和异质性,这类图往往结构薄弱、稀疏且高度碎片化,此外还表现出事实和语义上的不准确\[hegde2015entity,mo2025kggen\]。由于缺乏将原始文本与大型连通知识图谱配对的真值数据集\[cai2025understanding\],一个关键问题在很大程度上仍未得到充分探索:GSSL 方法对文本驱动图质量的敏感性。本文通过系统研究提取诱导的图质量如何影响 GSSL 方法的下游性能来填补这一空白。我们特别关注**无监督术语类型识别**作为下游任务,这是 GSSL 一个基础但未被充分探索的应用,对知识抽取和本体构建具有广泛影响\[zhong2023comprehensive,kabal2024enhancing\]。我们设计了噪声感知文本驱动 GSSL(NATD-GSSL),这是一个使 GSSL 能够在自动构建的图上运行的框架,通过集成图构建步骤后跟精炼阶段,实施一系列策略以提高图质量。为了在真实场景下评估鲁棒性,我们提出了双图评估协议,对比基于同一领域构建的两个图上的 GSSL 性能:一个是从 MedMentions 语料库\[mohan2019medmentions\] 自动提取的噪声图,另一个是来自 UMLS\[bodenreider2004unified\] 的干净参考知识图谱。由于这两个图共享一组共同的实体和标注架构,这种设置能够对由自动图构建引起的性能差距进行受控和定量的分析。与基于合成扰动的先前工作不同,此评估反映了由语言歧义和提取错误自然产生的噪声。我们的实证研究涵盖了多种 GSSL 方法,采用各种 GNN 架构实现,并在不同的预训练任务上训练,以分析鲁棒性如何随模型设计和学习目标而变化。结果表明,关系重构需要具有明确定义架构的干净图,而特征重构保持最鲁棒,达到了与干净图相当的性能。相比之下,对比方法揭示出鲁棒性较少依赖于图质量,而更多依赖于与下游任务的对齐。关于模型设计,GNN 架构也起着关键作用:双向关系消息传递架构更适合噪声大、由文本驱动的图,而单向关系架构在干净图上表现最佳。此外,我们的精炼策略表明,当图稀疏时,图增强是有益的,而去噪即使在存在错误的情况下也可能导致性能下降。最后,我们的结果还显示,与预训练语言模型相比,术语类型识别性能提升了 +7%。综上所述,我们的贡献如下:

- •NATD-GSSL,第一个将图构建、精炼和 GSSL 整合到统一流程中,以从原始文本中学习的框架。
- •一种双图评估协议,使用与相同金标准对齐的成对噪声和干净知识图谱,定量衡量真实世界噪声的影响。
- •一项全面的实证研究,比较采用不同 GNN 架构实现的 GSSL 方法,并在各种预训练任务上进行训练,为稳健的模型设计提供实践指导。

本文的其余部分组织如下。第 2 节回顾了 GSSL 和噪声图下学习的相关工作。第 3 节提出了所提出的 NATD-GSSL 框架及其模块。第 4 节详细说明了实验设置,第 5 节报告结果和分析,第 6 节总结并概述未来方向。

## 2 相关工作

### 2\.1 图自监督学习

图为建模关系数据提供了一种自然且富有表现力的方式,其中实体表示为节点,其交互表示为边\[ZHOU202057\]。为了从这种结构中学习而不需要标注数据,采用了图自监督学习\[liu2022graph,wang2022graph\]。GSSL 通常设计为编码器-解码器框架,其中**编码器**由堆叠的 GNN 层组成,将节点转换为低维表示。已经提出了各种 GNN 架构来执行此转换,每种架构具有不同的聚合邻域信息的机制。GCN\[kipf2016semi\] 执行简单的邻域聚合,而 GAT\[velivckovic2017graph\] 通过注意力机制对其进行细化,但两者都不考虑多关系方面。为了解决这个问题,RGCN\[10\.1007/978\-3\-319\-93417\-4\_38\] 应用关系特定的转换,但遭受参数爆炸和单向传播的问题。TransGCN 和 RotatEGCN\[cai2019transgcn\] 通过将关系编码为平移或旋转算子来解决这些局限性,从而以较少的参数实现双向消息传递。表 1 (https://arxiv.org/html/2605.05463#S2.T1) 总结了这些架构。

表 1:代表性 GNN 架构比较。Attn:注意力机制;Multi-rel:多关系图支持;MPD:消息传递方向(→ \rightarrow 单向,↔ \leftrightarrow 双向)。
GNN 架构 | Attn | Multi-rel | 关系建模 | MPD
--- | --- | --- | --- | ---
GCN\[kipf2016semi\] | × \times | × \times | – | → \rightarrow
GAT\[velivckovic2017graph\] | ✓ | × \times | – | → \rightarrow
RGCN\[10\.1007/978\-3\-319\-93417\-4\_38\] | × \times | ✓ | 关系特定 | → \rightarrow
TransGCN\[cai2019transgcn\] | 可选 | ✓ | 基于平移 | ↔ \leftrightarrow
RotatEGCN\[cai2019transgcn\] | 可选 | ✓ | 基于旋转 | ↔ \leftrightarrow

在**解码器**侧,它通过预训练任务定义学习目标,可以采用各种架构用于相同任务,如标准神经网络(MLP)、GNN 或简单评分函数(例如,点积、余弦相似度)。基于这些任务的性质,GSSL 方法可以大致分为两个主要家族:生成式和对比式方法。生成式方法将预训练任务 formulate 为从两个互补视角重建输入图\[liu2022graph\]。首先,**结构重建**方法通常采用基于 GNN 的编码器和点积解码器来恢复邻接矩阵\[kipf2016variational,pan2019learning\]。其他方法将此思想扩展到多关系重建,旨在恢复异构图中的关系类型\[10\.1007/978\-3\-319\-93417\-4\_38\]。虽然这些方法在链接预测和关系提取方面有效,但它们强烈依赖于图结构,这可能会限制在语义相似节点连接薄弱或通过非信息性关系连接的任務中的性能。其次,**特征重建**方法侧重于重建节点属性\[wang2017mgae,park2019symmetric\],当特征有意义时保留语义内容,但通常忽略结构信息。为了解决这一局限性,第三种**双重重建**方法通过带有两个不同解码器的多任务学习联合重建结构和特征\[li2023multi,sun2021dual\],产生更全面的嵌入,尽管计算成本更高。这些方法可以通过掩码策略进一步增强\[tan2023s2gae,hou2022graphmaeselfsupervisedmaskedgraph\],其中节点或边被部分掩码随后重建,提高泛化能力并减少过拟合。尽管有效,生成式方法往往过度拟合局部图结构,并且在具有多个不连通组件的图中经常难以捕捉全局上下文信息\[ren2020heterogeneousdeepgraphinfomax\]。此外,其侧重于重建的目标往往产生判别力有限的嵌入。对比式方法由于其性质能很好地捕捉全局信息并产生更具判别力的嵌入\[10597920\],通常基于互信息最大化原理开发,其中最大化同一对象(如节点、子图或整个图)的不同增强视图之间的估计互信息\[zhu2020deepgraphcontrastiverepresentation,you2021graphcontrastivelearningaugmentations\]。在这个家族中,编码器通常是 GNN,而解码器充当判别器,估计两个实例之间的一致性水平,通常使用简单的相似性函数,如点积或双线性函数\[liu2022graph\]。这些方法主要在对齐水平和增强策略上有所不同。例如,Graph Deep InfoMax\[48921\] 将节点表示与全局图摘要进行对比,通过节点洗牌生成负样本。GraphCL\[you2021graphcontrastivelearningaugmentations\] 采用图级对比方法,并应用各种数据增强,包括节点丢弃、边扰动、特征掩码和子图采样。GRACE\[zhu2020deepgraphcontrastiverepresentation\] 专注于节点级对比学习,通过结合边移除和特征掩码丰富局部上下文,而 ASP\[chen2023attribute\] 对比原始、基于属性和全局视图,以更好地处理同质性和异质性图。虽然这些方法产生了判别性嵌入,但它们仍然对增强质量、负采样设计以及丢弃必要结构信息的风险敏感。尽管 GSSL 方法种类繁多,但大多数现有研究都在干净、精心策划的图上对其进行了评估。然而,在实践中,真实世界的图,特别是那些源自文本的图,表现出普遍的噪声。在这种噪声条件下 GSSL 方法的有效性仍未得到充分探索,特别是在与实现这些方法的 GNN 架构以及用于引导其学习的预训练任务的关系方面。

### 2\.2 图神经网络中的噪声

输入图的质量在 GNN 的有效性中起着至关重要的作用\[Ju2024ASO\]。在实践中,图很少是完美的,并且经常遭受各种类型的噪声,通常分为两大类\[paulheim2016knowledge,liu2022survey\]。**结构噪声**指的是图拓扑中的不一致性,如缺失或虚假的边,扭曲了节点之间的真实关系\[rong2019dropedge,yuan2023self\]。缺失的边增加了图的稀疏性并阻碍了有效的信息传播,而虚假的边可能引入误导性连接,导致过平滑和不正确的消息聚合。这些问题共同破坏了 GNN 的消息传递机制并对模型性能产生负面影响\[fox2019robust\]。**节点级噪声**源于错误、缺失或不完整

相似文章

时间增强图注意力网络用于可供性分类

Hugging Face Daily Papers

EEG-tGAT是一种时间增强的图注意力网络,通过融合时间注意力和dropout机制来改进交互序列的可供性分类。该模型在GATv2基础上进行了增强,适用于时间维度语义不均匀的序列数据。

基于Neuron-Activated Graph的目标导向预训练数据选择

arXiv cs.CL

本文介绍了Neuron-Activated Graph (NAG) Ranking,一种无需训练的框架,用于选择与目标任务对齐的预训练数据,通过识别并基于神经元激活模式的相似性对候选数据进行排序。该方法相较于随机采样平均提升了4.9%,并证明了稀疏神经元模式能够捕获目标学习的功能能力。

将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比

arXiv cs.CL

# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略: