BLINKG:大语言模型集成知识图谱生成的基准测试
摘要
BLINKG 是一个基准测试,旨在评估大语言模型(LLM)从异构数据源构建知识图谱时的映射能力。它提供了一个标准化框架,用于评估 LLM 在数据模式与本体概念之间建立对应关系的有效性。
arXiv:2605.19518v1 Announce Type: new
摘要:生成知识图谱(KG)仍然是知识工程师最耗时、劳动密集型任务之一,因为他们需要识别输入数据源与本体术语之间的语义等价关系。虽然声明性解决方案(例如 RML、SPARQL-Anything)有助于泛化这一过程,但将输入模式元素与本体术语对齐仍然涉及复杂的转换,并且需要大量人工工作。随着大语言模型(LLM)的出现,利用其能力辅助 KG 工程师的兴趣日益增长。尽管已有一些研究探索使用 LLM 自动化 KG 构建,但目前仍缺乏一个标准化框架来评估它们在数据模式与本体概念之间建立对应关系的有效性。因此,在本文中,我们提出了 BLINKG,这是一个旨在评估 LLM 从异构数据源构建 KG 时映射能力的基准测试。该基准测试包含一组基于真实世界用例、复杂度递增的场景。我们使用 BLINK 对多种最先进的 LLM 进行了广泛的实验评估,并观察到它们已经提供了有前景的解决方案。然而,它们在复杂场景下的性能仍然有限。借助这一基准测试,我们已经能够评估 LLM 当前在 KG 构建方面的能力。此外,我们定义了一组实现(半)自动化(LLM 驱动)KG 构建的要求,为该领域开辟了新的研究方向。
查看缓存全文
缓存时间: 2026/05/20 08:29
# BLINKG:面向大语言模型集成知识图谱生成的基准测试
来源:https://arxiv.org/html/2605.19518
圣地亚哥德孔波斯特拉大学智能技术研究中心(CiTIUS),西班牙
carlacastedo\.pereira@usc\.es
https://orcid\.org/0009\-0009\-6158\-1068
德国汉诺威L3S研究中心
iglesias@l3s\.de
https://orcid\.org/0000\-0002\-8734\-3123
圣地亚哥德孔波斯特拉大学电子与计算机系,同时任职于智能技术研究中心(CiTIUS),西班牙
manuel\.lama@usc\.es
https://orcid\.org/0000\-0001\-7195\-6155
圣地亚哥德孔波斯特拉大学电子与计算机系,同时任职于智能技术研究中心(CiTIUS),西班牙
alberto\.bugarin\.diz@usc\.es
https://orcid\.org/0000\-0003\-3574\-3843
德国汉诺威L3S研究中心,同时任职于德国汉诺威TIB莱布尼茨科技信息中心,以及德国汉诺威莱布尼茨大学
maria\.vidal@tib\.eu
https://orcid\.org/0000\-0003\-1160\-8727
圣地亚哥德孔波斯特拉大学电子与计算机系,同时任职于智能技术研究中心(CiTIUS),西班牙
david\.chaves@usc\.es
https://orcid\.org/0000\-0003\-3236\-2789
\Copyright Carla Castedo, Alberto Bugarín\-Diz, Manuel Lama, Enrique Iglesias, Maria\-Esther Vidal and David Chaves\-Fraga
\ccsdesc[500]信息系统 数据管理系统
\ccsdesc[500]信息系统 语义网描述语言
\ccsdesc[500]计算方法 本体工程
\supplement 本文使用的所有资源均以Apache 2.0许可证开放,地址为:
https://github.com/citiususc/blinkg
\supplementdetails[linktext=持久化基准URI]数据集
https://doi\.org/10\.5281/zenodo\.15971734
\funding 圣地亚哥德孔波斯特拉大学成员由西班牙国家研究署(PID2023\-149549NB\-I00和CPP2024\-011786)、加利西亚自治区文化、教育、职业培训与大学厅(2024–2027年加利西亚研究中心认证ED431G\-2023/04及2022–2026年参考竞争组认证ED431C 2022/19)以及欧盟(欧洲区域发展基金——ERDF)资助。
\subsubsection*{致谢。}感谢Jhon Toledo、Ana Iglesias\-Molina、Oscar Corcho和Daniel Garijo在基准测试设计过程中的讨论和思路。同时也感谢Javier Garea在使用BLINKG时提供的支持与反馈。
\Volume
\Issue?
\Article?
\DateSubmission 2025年7月
\DateAcceptance 2026年3月18日
Enrique Iglesias
Manuel Lama
Alberto Bugarín\-Diz
Maria\-Esther Vidal
David Chaves\-Fraga
###### 摘要
知识图谱(KG)的生成仍是知识工程师最耗时、最费力的任务之一,因为他们需要识别输入数据源与本体术语之间的语义等价关系。虽然声明式解决方案(如RML、SPARQL\-Anything)已帮助实现了这一过程的泛化,但将输入模式元素与本体术语对齐仍然涉及复杂的转换,且需要大量人工投入。随着大语言模型(LLM)的出现,利用其能力辅助KG工程师的兴趣日益增长。尽管已有研究探索了使用LLM来自动化KG构建,但至今仍缺乏一个标准化的框架来评估它们如何有效地建立数据模式与本体概念之间的对应关系。因此,本文提出了BLINKG,一个旨在评估LLM在从异构数据源构建KG时映射能力的基准测试。该基准测试包含一系列基于真实世界用例、复杂度递增的场景。我们使用BLINKG对多个最先进的LLM进行了广泛的实验评估,观察到它们已能提供有前景的解决方案。然而,在复杂场景下它们的性能仍然有限。借助这个基准测试,我们能够评估当前LLM在KG构建方面的能力。此外,我们定义了一组实现(半)自动化(LLM驱动)KG构建的需求,为该领域开辟了新的研究方向。
###### 关键词:知识图谱构建、基准测试、映射语言、大语言模型
###### 类别:
\relatedversion
## 1 引言
知识工程(KE)涵盖使数据和知识在计算上可访问所需的任务,这些任务传统上依赖领域专家和知识工程师的大量人工工作。大语言模型(LLM)越来越多地被用于支持这些过程,例如制定能力问题[rebboud2024can]、在本体工程方法论中扮演专家角色[fathallah2024neon, zhang2024ontochat]、以及将知识图谱查询言语化[perevalov2024understanding]。基于LLM的KE方法数量日益增长,这也催生了新的基准测试和评估倡议,如Alharbi等人[Alharbi2024Characteristics]、Garijo等人[garijo2024llms]、Herwanto等人[Herwanto2024Ontology]、Rebboud等人[Rebboud2024Benchmarking]以及Tsaneva等人[Tsaneva2024Benchmarking],以评估它们当前的能力和局限。
从异构数据源构建KG是知识工程师必须执行的最耗时、最手动化的任务之一[dimou2022declarative]。该任务的难点在于需要理解本体术语并将输入数据映射到这些术语上[poggi2008linking]。在某些情况下,过程相对简单(例如,将表Sport映射到本体类Sport),但在许多情况下需要更深入地理解数据和领域。通常需要领域专家来正确解释隐含语义并解决数据与本体之间的歧义。在大规模、真实世界的项目中[chaves2022systematic, rojas2021leveraging],该任务常常成为瓶颈,映射阶段往往超过六个月人月[chaves2022systematic]。
最近,一些解决方案探索使用LLM来减少数据源与本体之间语义对齐所需的工作量。例如,Hofer等人[hofer2024towards]提出了一个自动化KG构建流水线,其中RML映射[iglesias2023rml]由LLM以本体和源数据作为输入生成。Schmidt等人[schmidt2025llm]在制造领域探索了使用LLM生成YARRRML映射[heyvaert2018declarative]。类似地,[R2]RML\-ChatGPT[randles2024r2]提出了一个使用ChatGPT细化映射规则的框架。最近,Freund等人[freund2025mapping]评估了他们的提案(ReMaptool)与基于LLM的RML[iglesias2023rml]映射生成。然而,所有这些解决方案都在不同的场景和用例下进行评估,使用了不同的参数和指标,这使得难以进行公平比较。
在语义网和KG社区中,SemTab111https://github.com/sem-tab-challenge作为自动注释表格数据的倡议和挑战,提供了自己的基准测试[jimenez2020semtab]来测试自动化表格解释的解决方案。然而,它通常针对已创建的知识图谱(如Wikidata)而非未填充本体的,聚焦于三个具体任务(单元格实体注释、单元格属性注释和单元格类型注释),且大多数方法都采用端到端流水线实现,限制了可追溯性和透明性。
在此背景下,为了评估LLM从异构数据源生成语义映射到本体术语的潜力,我们提出了BLINKG(面向LLM集成知识图谱生成的基准测试)。其目标是支持生成显式且声明式的映射,在知识图谱构建过程中提供可追溯性和透明性,有别于黑盒端到端方法。本工作的主要贡献总结如下:
- • C1:一个全面且领域无关的框架,包含多个场景、黄金标准和评估指标,旨在评估LLM在KG构建中的行为
- • C2:三个逐步复杂的场景,反映KG构建中的真实世界挑战,每个场景涵盖一组代表性的典型映射任务
- • C3:开放且可重用的资源,促进可重复性,并便于社区采用和扩展222https://github.com/citiususc/blinkg
- • C4:对六个最先进LLM的全面评估,分析其性能和泛化能力,重点突出可追溯性和透明性
- • C5:关于推进(半)自动化LLM驱动知识图谱构建的实用建议、经验教训和新的研究方向
本文结构如下:第2章描述KG构建自动化的相关工作,特别关注使用LLM的新提案。第3章描述BLINKG基准测试,包括所提出的场景和指标。第4章介绍我们在最先进LLM上进行的基准测试实验评估,第5章报告主要讨论点。最后在第6章进行总结并提出未来工作。
## 2 相关工作
尽管近年来自动知识提取取得了进展,但知识图谱的创建仍然是一个本质上手工且资源密集的过程。主要挑战在于建立异构数据源与目标本体中定义的概念之间的语义对应关系。在复杂场景中,该过程不仅需要知识工程师,还需要能够准确识别和验证这些映射的领域专家。虽然声明式工具有助于简化和优化流程[VANASSCHE2023],但它仍然是一项严重依赖领域专业知识的艰巨任务。
现有工作大致可分为:(i) 侧重于映射生成的方法,主要针对关系数据库作为输入源;(ii) 评估KG构建过程部分方面的基准测试和数据集;(iii) 较新的基于LLM的系统,这些系统展现出与传统方法不同的优势和失败模式。
随着R2RML[R2RML]和Direct Mapping[arenas2012direct](W3C关于在基于本体的数据访问(OBDA)[xiao2018ontology]中定义关系数据库与本体之间映射的推荐标准)的出现,涌现出许多旨在自动化创建这些映射规则的方法。这些方法大多遵循Direct Mapping的指令,该指令定义了一组规则来生成关系数据库的纯RDF表示,而不考虑任何本体。MIRROR[de2015mirror]、D2RQ[bizer2004d2rq]和Ontop[calvanese2016ontop]采用类似方法,从关系数据库(RDB)模式中提取目标本体和映射对应关系。另一方面,AutoMap4OBDA[sicilia2016automap4obda]和BootOX[jimenez2015bootox]考虑输入本体,并从RDB生成实际的R2RML映射。然而,这些解决方案仅限于关系数据库,且严重依赖基于启发式的映射生成方法,这在更广泛的知识图谱构建(KGC)工作流中显著限制了它们的适用性和灵活性,因为KGC工作流涉及多种格式、复杂转换和非关系型数据源。
所有这些提案都使用RODI进行评估,RODI是一个RDB到本体映射生成的基准测试[pinkel2017rodi]。RODI旨在评估系统生成的关联到本体映射的质量,旨在为映射生成系统提供一个通用且可比较的评估框架。RODI采用端到端评估方法,通过比较生成RDF数据上的SPARQL查询结果与原始关系数据库上的参考SQL查询结果的准确性来评估映射效用。与我们的提案类似,该基准测试包含来自科学会议、地理数据以及油气勘探等领域的多样化测试场景。这些场景配置了数据库、本体和特定的查询工作负载,旨在测试各种映射挑战,包括命名冲突、结构RDB异构性(如规范化、反规范化、类层次、键冲突和依赖冲突)。然而,作者承认评估范围存在某些局限性,特别是在数据转换的复杂性方面。RODI明确从其默认基准配置中排除了复杂的数据转换,如单位转换、字符串清洗或字符串组合。这种排除的理由是,在发表时,“没有一个现有的关系到本体映射生成系统实现了任何此类转换功能”。因此,该基准测试主要侧重于评估系统在RDB模式级别匹配和映射规则生成方面的能力(这些通常可以通过启发式技术解决),而不是解决更复杂的数据级别转换或超出基本结构映射的高级关系。
总之,RODI专注于关系到本体的映射,主要评估关系数据库上的模式级别对应关系和基本结构映射。BLINKG同样强调映射生成,但将其泛化到多种数据格式(CSV、JSON、XML),并将映射问题分解为一组更丰富的子任务(如类选择、主语生成、属性选择、数据引用识别、函数、连接),从而实现更细粒度且格式无关的评估。
除了关系数据库,近期的SemTab挑战333https://www.cs.ox.ac.uk/isg/challenges/sem-tab/引入了一系列表格数据集[jimenez2020semtab],旨在自动将它们与外部知识图谱(如DBpedia和Wikidata)进行匹配。已经提出了多种解决方案,利用从启发式规则和模糊匹配(如JenTab[abdelmageed2020jentab]、DAGOBAH[huynh2021dagobah]和MTAB4D[nguyen2024mtab4d])到知识图谱嵌入(如TorchicTab[dasoulas2023torchictab])等技术。然而,SemTab主要是作为评估端到端系统的基准测试,这类系统将表格注释到已有的知识图谱,而不是与本体对齐。此外,这些系统大多不产生显式的声明式映射,使得难以理解或重现注释实际是如何生成的。
在此背景下,大语言模型(LLM)已成为一种有前景的解决方案,利用其强大的自然语言理解能力来自动化将(半)结构化数据转换为知识图谱的过程。最近几项研究探索了使用LLM生成声明式映射规则。例如,Schmidt等人[schmidt2025llm]研究了在制造领域中LLM辅助和增强上下文的YARRRML映射生成,解决了像博世这样的大公司中合并库存数据的挑战。他们的方法通过半自动化映射生成支持模式演化和数据集成,并报告了两种相似文章
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。
基于语言模型的知识图谱构建
昆明大学的综述论文调研了如何利用预训练语言模型自动化构建知识图谱,并提出了轻量级大语言模型框架LLHKG,其性能可媲美GPT-3.5。
增强元认知AI:基于图论的大语言模型富集的知识图谱填充
MetaKGEnrich是一个全自动流水线,使用图指标检测大语言模型应用中的知识缺口,检索网络证据,并在三个基准数据集上将答案质量提升80%-87%。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
LLM Wiki v2(16分钟阅读)
本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。