用于评估知识图谱构建方法和图神经网络的统一基准

arXiv cs.LG 2026/05/08 04:00 论文

knowledge-graphs graph-neural-networks benchmark evaluation biomedical arxiv

摘要

本文介绍了一个统一的基准测试，旨在评估图神经网络在基于文本构建的噪声知识图谱上的鲁棒性，以及生物医学领域图构建方法的有效性。

arXiv:2605.05476v1 公告类型：新文章摘要：从文本自动构建的知识图谱越来越广泛应用于实际场景中。然而，其固有的噪声、碎片化以及语义不一致性显著影响了图神经网络（GNN）在下游任务中的性能。由于往往难以确定观察到的结果究竟源于学习模型还是源于构建图谱本身的质量，因此评估其性能和鲁棒性仍然十分困难。在本研究中，我们引入了一个双重用途的基准测试，旨在联合评估（i）GNN在基于文本构建的噪声图谱上的性能，以及（ii）图构建方法在下游任务中的有效性。该基准测试建立在生物医学领域，基于单一的文本语料库，包含两个使用不同提取方法生成的自动构建图谱，以及一个由专家精心构建的高质量参考图谱，后者作为性能的上界。这种设计使得可以通过半监督节点分类，对构建方法进行受控比较，并对GNN的鲁棒性进行系统评估。我们进一步提供了一个标准化、可复现且可扩展的评估框架，便于整合新的图提取方法和学习模型。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:26

# 用于评估知识图谱构建方法与图神经网络的统一基准

来源：https://arxiv.org/html/2605.05476
\\corrauth

Othmane Kabal，南特大学，LS2N，法国南特 44300\.

Mounira Harzallah11affiliationmark:Fabrice Guillet11affiliationmark:Hideaki Takeda22affiliationmark:Ryutaro Ichise33affiliationmark:11affiliationmark:南特大学，LS2N，法国南特 44300 22affiliationmark:信息学综合研究所，日本东京千代田区 101\-8430 33affiliationmark:东京科学大学，日本东京 152\-8550 othmane\.kabal@univ\-nantes\.fr (https://arxiv.org/html/2605.05476v1/mailto:[email protected])

###### 摘要

从文本自动构建的知识图谱（Knowledge Graphs, KGs）在现实应用中的使用日益广泛。然而，其固有的噪声、碎片化和语义不一致性显著影响了图神经网络（Graph Neural Networks, GNNs）在下游任务中的性能。评估其性能和鲁棒性仍然困难，因为通常不清楚观察到的结果是由于学习模型本身，还是由于构建的图谱质量所致。在这项工作中，我们引入了一项双重目的基准，旨在联合评估（i）GNN 在噪声、文本衍生图谱上的性能，以及（ii）图谱构建方法在下游任务中的有效性。该基准建立在生物医学领域，基于单一文本语料库构建，包括使用不同提取方法生成的两个自动构建图谱，以及由专家构建的高质量参考图谱（作为性能上限）。这种设计使得能够在受控条件下比较构建方法，并通过半监督节点分类系统地评估 GNN 的鲁棒性。我们还提供了一个标准化、可重复且可扩展的评估框架，便于集成新的图谱提取方法和学习模型。

###### 关键词：

知识图谱，图神经网络，基准测试，文本衍生知识图谱，图表示学习，知识图谱评估

## 1 引言

知识图谱（KGs）在广泛的人工智能应用中扮演着日益核心的角色 Jiet al\.\(2021 (https://arxiv.org/html/2605.05476#bib.bib95)\); Penget al\.\(2023 (https://arxiv.org/html/2605.05476#bib.bib129)\)\。当与图神经网络（GNNs）结合时，它们在众多任务中表现出强劲性能，包括节点分类 Xiaoet al\.\(2022 (https://arxiv.org/html/2605.05476#bib.bib2)\)、关系预测 Arraret al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib3)\) 和知识图谱补全 Lianget al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib4)\)\。这些模型的快速发展 Gkarmpouniset al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib147)\)，加上文本数据的日益丰富和新型 KG 构建方法的出现 Zhong et al\.\(2023 (https://arxiv.org/html/2605.05476#bib.bib34)\)，催生了对能够跟上这一发展步伐的基准测试的迫切需求。然而，现有的基准测试存在几个重要局限性。早期且广泛使用的学术数据集，如 Citeseer 和 Cora Senet al\.\(2008 (https://arxiv.org/html/2605.05476#bib.bib30)\)，规模相对较小，且由单关系图谱组成，这使得它们不太适合评估旨在处理大规模、异构和多关系知识图谱的现代 GNN 架构。即使是像 AIFB Ristoskiet al\.\(2016 (https://arxiv.org/html/2605.05476#bib.bib91)\) 这样的多关系基准，或是化学 Yuet al\.\(2023b (https://arxiv.org/html/2605.05476#bib.bib93)\) 和生物 Zitnik and Leskovec \(2017 (https://arxiv.org/html/2605.05476#bib.bib92)\) 等领域的特定领域数据集，也主要将实体表示为符号标识符或低维特征向量，几乎不包含文本信息。因此，这些基准测试未能捕捉到对许多现实应用至关重要的丰富语义内容。相比之下，大规模知识图谱如 Wikidata Vrandečić and Krötzsch \(2014 (https://arxiv.org/html/2605.05476#bib.bib28)\)、YAGO Suchaneket al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib90)\)、DBpedia Aueret al\.\(2007 (https://arxiv.org/html/2605.05476#bib.bib41)\)，或特定领域资源如统一医学语言系统（UMLS）Bodenreider \(2004 (https://arxiv.org/html/2605.05476#bib.bib5)\)，包含了与实体和关系相关的广泛文本信息。这些资源通常被认为是高质量的，因为它们是从结构化来源构建或由领域专家编纂的。虽然它们提供了宝贵的语义信息，但它们未能充分反映图学习模型在基于非结构化文本自动构建的知识图谱上运行时所面临的挑战。

自然语言处理领域的最新进展使得能够直接从大量非结构化文档中自动构建知识图谱 Kabalet al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib150)\); Anuyahet al\.\(2025 (https://arxiv.org/html/2605.05476#bib.bib88)\); Moet al\.\(2025 (https://arxiv.org/html/2605.05476#bib.bib63)\)\。这些文本衍生的知识图谱提供了更真实的现实数据表示，因为其节点对应于从文本中提取的自然语言术语。然而，此类图谱本质上充满噪声 Mihindukulasooriyaet al\.\(2017 (https://arxiv.org/html/2605.05476#bib.bib125)\); Cai and O’Connor \(2025 (https://arxiv.org/html/2605.05476#bib.bib149)\)\。它们往往表现出在提取过程中引入的歧义、冗余、碎片化和语义不一致性。此外，产生的噪声模式复杂且依赖于领域，因此与控制性实验研究中通常考虑的简化合成噪声有很大不同 Cai and O’Connor \(2025 (https://arxiv.org/html/2605.05476#bib.bib149)\)\。尽管自动构建的知识图谱日益重要，但其评估仍然具有挑战性。大多数现有研究主要关注提取三元组的正确性，通常通过人工标注或自动评估指标来进行 Yuet al\.\(2023a (https://arxiv.org/html/2605.05476#bib.bib146)\); Kabalet al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib150)\); Lairgiet al\.\(2024 (https://arxiv.org/html/2605.05476#bib.bib106)\); Mihindukulasooriyaet al\.\(2023 (https://arxiv.org/html/2605.05476#bib.bib94)\)\。然而，这种方法通常只评估提取关系的一部分，无法捕捉结果图谱的整体质量。其他工作采取更实用的视角，通过下游任务评估整个构建的图谱 Moet al\.\(2025 (https://arxiv.org/html/2605.05476#bib.bib63)\); Heistet al\.\(2023 (https://arxiv.org/html/2605.05476#bib.bib124)\); Yanget al\.\(2025 (https://arxiv.org/html/2605.05476#bib.bib123)\)\。然而，这些方法仍然存在一个重要的局限性：预期的性能水平尚不清楚。特别是，缺乏同时提供（i）文本语料库、（ii）自动构建的知识图谱以及（iii）高质量参考图谱的数据集，使得难以系统分析提取错误如何传播并影响下游学习性能 Cai and O’Connor \(2025 (https://arxiv.org/html/2605.05476#bib.bib149)\)\。因此，确定性能下降是源于构建图谱本身的质量，还是源于应用在其上的学习方法，变得极具挑战性。

为了弥合这一差距，我们引入了一种新颖的双重目的基准，旨在实现对知识图谱构建方法和 GNN 模型的受控评估。该基准建立在 MedMentions Mohan and Li \(2019 (https://arxiv.org/html/2605.05476#bib.bib6)\) 生物医学语料库之上，包括使用不同提取流水线从相同文本源自动构建的两个知识图谱，以及源自 UMLS 词表的高质量参考图谱。由于这些图谱共享一组共同的实体和标注，它们允许在相同实验条件下对质量各异的图谱进行直接比较。该基准支持两个互补的目标。首先，它通过测量自动提取图谱的质量如何影响下游学习任务（半监督分类）的性能，与在干净参考图谱上获得的性能相比，从而评估知识图谱构建方法。这使得可以明确量化由图谱构建错误引起的性能损失。其次，它提供了一个标准化框架，用于评估在噪声、文本衍生的知识图谱上运行的 GNN 模型的鲁棒性，通过比较自动构建图谱和作为性能上限的干净参考图谱上的模型性能。为了确保可重复性，该基准还包括完整的评估流水线，提供标准化的数据加载器、训练协议以及几种代表性 GNN 架构的基线实现。总之，本文的主要贡献有三：

- • 一种双重目的基准，旨在联合评估（i）知识图谱构建方法对下游任务的影响，以及（ii）在受控实验条件下在文本衍生知识图谱上运行的图神经网络模型。
- • 基准本身，包括一个文本语料库、来自不同流水线的两个自动构建 KG，以及源自 UMLS 词表的高质量参考图谱。重要的是，所有图谱共享一组根据相同模式标注的节点，从而能够在质量各异的图谱之间进行受控比较。
- • 一个可重复和可扩展的评估框架，提供标准化的数据加载器、训练协议和基线 GNN 实现，允许对图谱构建方法和图谱学习模型进行公平和系统的基准测试。

本文的其余部分结构如下。第 2 节描述了基准构建，包括参考图谱、文本语料库和自动生成的知识图谱。第 3 节介绍了评估协议和基准测试场景。第 4 节报告了使用基线 GNN 模型获得的实验结果。最后，第 5 节总结了本文并概述了未来的工作方向。

## 2 基准构建

在本节中，我们介绍了双重目的基准的构建过程，该基准旨在通过提供使用不同自动构建方法从相同基础语料库构建的多个知识图谱，来支持受控的下游评估。具体而言，我们使用两种不同的提取流水线生成了两个文本衍生的知识图谱，导致图谱在结构和噪声特性上有所不同。与此同时，我们构建了一个高质量参考知识图谱，该图谱与自动生成的图谱共享一组共同的实体，并遵循相同的标注方案。基准构建方法的概述如图 1 (https://arxiv.org/html/2605.05476#S2.F1) 所示。

参见图注 Figure 1: 基准构建方法概述\.### 2\.1 参考知识图谱：UMLS\-NCI

参考知识图谱（$G_{\text{ref}}$）源自统一医学语言系统（UMLS, 2024 版 111http://www\.nlm\.nih\.gov/research/umls/licensedcontent/umlsknowledgesources\.html）Bodenreider \(2004 (https://arxiv.org/html/2605.05476#bib.bib5)\)，这是一个成熟的、由专家编纂的生物医学资源，以其全面的覆盖范围、结构严谨性和语义丰富性而闻名。UMLS 特别适合用于基准测试，因为它具有详细的标注方案以及在节点和关系层面的丰富文本信息，便于各种下游应用。UMLS 包含三个主要组件：

- • 元词表（Metathesaurus）：从包括词汇变体和概念标识符在内的多种术语表中聚合的规范化生物医学概念的大型存储库。
- • 语义网络（Semantic Network）：123 种预定义语义类型的层次结构，每种类型都与元词表中的概念相关联。
- • 词汇工具（Lexical Tools）：用于标准化和从文本中提取词汇形式的一组实用程序。

元词表是构建参考图谱的基础。每个生物医学概念都关联有一个规范名称和词汇变体，并根据语义网络进行类型化，如图 2 (https://arxiv.org/html/2605.05476#S2.F2) 所示。

参见图注 \(a\) 语义网络与元词表之间的关系\.
参见图注 \(b\) 规范名称和词汇变体示例\.

图 2: 语义网络与元词表之间关系的示意图，改编自 Bodenreider \(2004 (https://arxiv.org/html/2605.05476#bib.bib5)\)，以及生物医学概念的规范名称和词汇变体示例。在语义网络中，实线箭头表示“is-a”关系，而虚线箭头表示语义类型之间的其他语义关系。在元词表层面，边对应于概念之间的关系，这可能包括“is-a”以及其他类型的关系。两层之间的链接表示每个概念分配给其相应的语义类型。右面板显示了与两个概念关联的规范名称和特定来源的词汇变体示例。概念之间的关系被明确定义，每个关系都标注有语义谓词。这种结构化表示确保节点和边信息都可以被语义解释并立足于语言，从而能够与预训练语言模型（PLMs）和其他以文本为中心的模型集成。然而，完整的 UMLS 图谱极其庞大，包含数百万个节点和边，结构异构，表现出冗余或重叠的关系以及语义类型中不一致的粒度。这些特性给基于图的学习带来了挑战，特别是在 GNN 训练的上下文中，可扩展性、同构性和标签一致性至关重要。为了缓解这些问题，我们从 UMLS 元词表中编纂了一个聚焦的子图，使用 NCI（美国国家癌症研究所）词表作为主要来源词汇，应用如图 3 (https://arxiv.org/html/2605.05476#S2.F3) 所示的调整。

参见图注 Figure 3: 参考图谱（UMLS\-NCI）的分步构建，显示每次过滤和预处理操作后的图谱统计信息\- • 来源和语言过滤：UMLS 元词表从各种异构来源聚合生物医学概念，导致一个极其庞大的图谱，具有大量的术语变化。遵循将每个来源词汇视为独立数据集的先前工作 Babaei Giglouet al\.\(2023 (https://arxiv.org/html/2605.05476#bib.bib18)\)，我们将子图限制为单个来源——NCI 词表，以保持语义连贯性并便于管理图谱规模。选择 NCI 词表是因为其领域相关性以及明确定义的类型分配。此外，我们过滤图谱以仅保留英语概念。这一步骤将图谱规模从超过 340 万个概念减少到大约 18 万个节点和 100 万个关系。
- • 边修剪：尽管经过来源过滤

用于评估知识图谱构建方法和图神经网络的统一基准

相似文章

MHGraphBench：基于知识图谱的大语言模型心理健康知识基准测试

图自监督学习对现实世界噪声的鲁棒性：基于文本驱动生物医学图的案例研究

对抗图神经网络基准：迈向实用且公平的评价

使用知识图谱嵌入的自动化大数据质量评估

MKG-RAG-Bench：多模态知识图谱增强生成中的检索基准测试

提交意见反馈