通过增强负采样提升知识图谱基础模型
摘要
提出了KMAS,一种自适应负采样方法,用于改进知识图谱基础模型的训练,在44个数据集上取得了最先进的结果。
arXiv:2605.27023v1 公告类型:new
摘要:知识图谱(KG)已成为众多下游任务(如问答系统和推荐系统)的核心支柱。然而,尽管如此,知识图谱通常非常不完整。为了在未见过的知识图谱中执行零样本知识图谱补全(这些知识图谱的关系词汇与预训练时所用的不同),知识图谱基础模型(KGFM)受到了广泛关注。现有的KGFM通常使用随机负三元组进行训练,这些负三元组是通过用随机实体替换正三元组的头实体或尾实体来构建的。然而,这些负三元组往往质量有限,为KGFM训练提供的监督信号较弱。本文提出了一种简单而有效的自适应负采样方法——KMAS,用于增强现有的KGFM。KMAS通过利用现有KGFM的关系编码器生成的更新后的关系嵌入来构建硬负三元组。为了进一步自适应地与KGFM在训练过程中不断变化的能力对齐,KMAS在整个训练过程中动态调整硬负三元组的比例:在预热阶段之后,先线性增加比例,然后线性减少。在44个数据集上进行了大量实验。实验结果表明,我们提出的负采样方法能够在不需要过多额外时间或内存消耗的情况下增强许多SOTA KGFM。
查看缓存全文
缓存时间: 2026/05/27 09:11
# 提升知识图谱基础模型的负采样方法
来源:https://arxiv.org/html/2605.27023
\(2026\)
###### 摘要
知识图谱(KGs)已成为问答系统和推荐系统等众多下游任务的核心基础。然而,尽管作用重大,知识图谱往往高度不完整。为了在未见过的、其关系词汇表与预训练时不同的知识图谱上进行零样本知识图谱补全,知识图谱基础模型(KGFMs)受到了广泛关注。现有的KGFMs通常使用随机负三元组进行训练,这些三元组是通过将正三元组的头实体或尾实体替换为随机实体构建的。然而,这些负三元组的质量往往有限,为KGFM训练提供的监督信号较弱。在本文中,我们提出了一种简单而有效的自适应负采样方法KMAS,用于增强现有KGFMs。KMAS利用现有KGFM关系编码器生成的更新后的关系嵌入来构建难负三元组。为了在训练过程中自适应地与KGFM不断变化的能力对齐,KMAS在整个训练过程中动态调整难负三元组的比例:在预热阶段后,该比例线性增加,然后线性减少。我们在44个数据集上进行了大量实验。实验结果表明,我们提出的负采样方法能够在不显著增加额外时间或内存消耗的情况下,提升多种最先进KGFMs的性能。
知识图谱基础模型,负采样
††期刊年份:2026††版权:acm授权††会议:第32届ACM SIGKDD知识发现与数据挖掘会议;2026年8月9-13日;韩国济州岛††书籍标题:第32届ACM SIGKDD知识发现与数据挖掘会议论文集(KDD '26),2026年8月9-13日,韩国济州岛††doi:XXXXXXX.XXXXXXX††isbn:978-1-4503-XXXX-X/2018/06## 1. 引言
知识图谱(KGs)由以三元组(头实体,关系,尾实体)形式存在的海量知识构成,已成为问答系统(Zhao等人,2024 (https://arxiv.org/html/2605.27023#bib.bib1))和推荐系统(Wang等人,2019 (https://arxiv.org/html/2605.27023#bib.bib2))等众多下游任务的核心基础。然而,尽管作用重大,知识图谱往往高度不完整(Pan等人,2024 (https://arxiv.org/html/2605.27023#bib.bib50)),这使得链接预测任务(Rossi等人,2021 (https://arxiv.org/html/2605.27023#bib.bib52), 2022 (https://arxiv.org/html/2605.27023#bib.bib53))变得越来越重要。传统的直推式链接预测方法(例如,TransE(Bordes等人,2013 (https://arxiv.org/html/2605.27023#bib.bib35))和RotatE(Sun等人,2019 (https://arxiv.org/html/2605.27023#bib.bib7)))学习受特定实体和关系词汇表约束的实体/关系嵌入,缺乏泛化到知识图谱上未见实体/关系的能力。为了解决这个限制,部分归纳式链接预测方法(Liu等人,2021 (https://arxiv.org/html/2605.27023#bib.bib10))放宽了对实体的约束,能够在保持关系词汇表固定的情况下泛化到未见实体。全归纳式链接预测方法(Lee等人,2023 (https://arxiv.org/html/2605.27023#bib.bib12))进一步放宽了对关系的约束,能够同时泛化到未见实体和未见关系,这推动了知识图谱基础模型(KGFMs)的发展。KGFMs通过在具有不同实体/关系词汇表的多张知识图谱上进行预训练,学习关系结构的不变性(Galkin等人,2024 (https://arxiv.org/html/2605.27023#bib.bib3)),从而能够在未见知识图谱上进行零样本推理。
现有的KGFMs(例如,ULTRA(Galkin等人,2024 (https://arxiv.org/html/2605.27023#bib.bib3)),TRIX(Zhang等人,2024 (https://arxiv.org/html/2605.27023#bib.bib8)),MOTIF(Huang等人,2025 (https://arxiv.org/html/2605.27023#bib.bib6))和SEMMA(Arun等人,2025 (https://arxiv.org/html/2605.27023#bib.bib4)))通常采用一个通用流程:(1)基于知识图谱构建关系图;(2)在此关系图上应用关系编码器以获得关系嵌入;(3)使用获得的关系嵌入,并在知识图谱上应用实体编码器以获得最终的链接预测结果。值得注意的是,这些KGFMs的关系和实体编码器的训练过程基于随机负三元组,这些三元组是通过用随机实体替换正三元组的头实体或尾实体构建的。尽管直接且高效,但这些负三元组通常质量有限(即“简单负三元组”),提供的监督信号较弱。由于这些简单负三元组在整个训练过程中不会动态调整,它们无法与KGFM不断变化的能力对齐。例如,给定一个正三元组(Obama, born_in, Hawaii),像(Obama, born_in, Basketball)这样的随机构建的负三元组对于一个训练良好的KGFM来说是微不足道的。相反,构建诸如(Obama, born_in, Chicago)这样的“难负三元组”——尽管事实上不正确,但在语义上看似合理——可以提供更具挑战性的训练样本来增强学习到的嵌入,从而提高KGFM的泛化能力。
在本文中,为了增强现有的KGFMs,我们提出了一种简单而有效的自适应负采样方法KMAS。为了构建难负三元组以改进KGFM的训练过程,KMAS利用现有KGFM关系编码器生成的关系嵌入来构建尾(头)实体分布,从而实现混合负采样。为了在训练过程中自适应地与KGFM不断变化的能力对齐,KMAS使用来自上一次训练迭代的编码器迭代地更新关系嵌入。此更新优化了尾(头)实体分布,从而生成越来越有效的负样本。值得注意的是,KMAS在整个训练过程中动态调整难负三元组的比例:在采用纯随机负采样(与现有KGFMs相同)的预热阶段之后,线性增加难负三元组的比例至峰值,然后在后续迭代中线性减少。
本文的主要贡献总结如下:
- •据我们所知,我们是第一个增强KGFMs中负采样方法的工作,提升了现有KGFMs的性能。
- •我们通过自适应地构建难负样本并采用动态难负比例调整策略,提出了一种简单而有效的负采样方法,该方法能够灵活地适配多种KGFMs。
- •我们在44个数据集上进行了大量实验。实验结果表明,我们提出的负采样方法能够在不显著增加额外时间或内存消耗的情况下,提升多种最先进KGFMs的性能。
## 2. 预备知识
一个知识图谱(KG)记为 \(\mathcal{G}=(\mathcal{V},\mathcal{R},\mathcal{T})\),其中 \(\mathcal{V}\) 表示实体集合,\(\mathcal{R}\) 表示关系集合,\(\mathcal{T} \subseteq \mathcal{V} \times \mathcal{R} \times \mathcal{V}\) 表示三元组集合。一个三元组 \((h,r,t) \in \mathcal{T}\) 通过关系 \(r \in \mathcal{R}\) 连接头实体 \(h \in \mathcal{V}\) 和尾实体 \(t \in \mathcal{V}\)。给定一个知识图谱 \(\mathcal{G}=(\mathcal{V},\mathcal{R},\mathcal{T})\),对应的关系图 \(\mathcal{G}_{\mathcal{R}}=(\mathcal{V}_{\mathcal{R}},\mathcal{E}_{\mathcal{R}})\) 是一个有向图,其中节点 \(\mathcal{V}_{\mathcal{R}}\) 表示关系 \(\mathcal{R}\)。边 \(\mathcal{E}_{\mathcal{R}}\) 基于关系在 \(\mathcal{T}\) 中的连接性捕捉它们之间的交互。
给定一个知识图谱 \(\mathcal{G}=(\mathcal{V},\mathcal{R},\mathcal{T})\),链接预测任务旨在基于观察到的事实推断缺失的事实。形式化地,给定一个查询 \((h,r,?)\)(或 \((?,r,t)\)),目标是预测缺失的尾实体 \(t \in \mathcal{V}\)(或头实体 \(h \in \mathcal{V}\))。在推理过程中,对于查询 \((h,r,?)\),我们计算所有候选实体 \(t' \in \mathcal{V}\) 的分数,并按降序排列。目标是使真实实体排名高于其他候选实体。我们将训练图记为 \(\mathcal{G}_{train}=(\mathcal{V}_{train},\mathcal{R}_{train},\mathcal{T}_{train})\),推理图记为 \(\mathcal{G}_{test}=(\mathcal{V}_{test},\mathcal{R}_{test},\mathcal{T}_{test})\)。我们根据 \(\mathcal{G}_{train}\) 和 \(\mathcal{G}_{test}\) 之间的重叠程度考虑三种泛化设置:
- •直推式设置:训练和推理过程中实体和关系集合相同,即 \(\mathcal{V}_{train}=\mathcal{V}_{test}\),\(\mathcal{R}_{train}=\mathcal{R}_{test}\),且 \(\mathcal{T}_{train}=\mathcal{T}_{test}\)。
- •部分归纳式设置(未见实体):推理时的实体在训练中未见,而关系集合在训练和推理过程中共享,即 \(\mathcal{V}_{train} \cap \mathcal{V}_{test} = \emptyset\),\(\mathcal{R}_{train}=\mathcal{R}_{test}\),且 \(\mathcal{T}_{train} \neq \mathcal{T}_{test}\)。
- •全归纳式设置(未见实体和关系):最具挑战性的基础模型设置,推理时的实体和关系在训练中都未见,即 \(\mathcal{V}_{train} \cap \mathcal{V}_{test} = \emptyset\),\(\mathcal{R}_{train} \cap \mathcal{R}_{test} = \emptyset\),且 \(\mathcal{T}_{train} \neq \mathcal{T}_{test}\)。
对于现有的KGFMs,我们用 \(\text{Encoder}_{\theta_{r}}\) 表示生成关系嵌入的关系编码器。\(\text{Encoder}_{\theta_{e}}\) 表示生成实体嵌入的实体编码器。\(f_{\omega}\) 表示一个将实体嵌入映射为最终分数的MLP。\(\theta_{r}\) 表示 \(\text{Encoder}_{\theta_{r}}\) 的GNN架构的参数。\(\theta_{e}\) 表示 \(\text{Encoder}_{\theta_{e}}\) 的GNN架构的参数。\(\omega\) 表示生成最终分数的MLP的参数。对于KGFMs,GNN架构通常采用NBFNet(Zhu等人,2021 (https://arxiv.org/html/2605.27023#bib.bib13))。在KGFMs中,使用标记技巧初始化关系,以基于关系图 \(\mathcal{G}_{\mathcal{R}}\) 生成条件关系嵌入,这意味着给定查询(即 \((h,r,?)\) 或 \((?,r,t)\))的 \(r\) 被初始化为全一向量,而其他关系被初始化为全零向量。\(\text{Encoder}_{\theta_{r}}\) 使用初始化后的关系嵌入为 \(\text{Encoder}_{\theta_{e}}\) 生成条件关系嵌入。在 \(\text{Encoder}_{\theta_{e}}\) 中,查询中的实体被初始化为 \(r\) 的条件关系嵌入,其他实体被初始化为全零向量。然后,\(\text{Encoder}_{\theta_{e}}\) 使用初始化后的实体嵌入和条件关系嵌入为 \(f_{\omega}\) 生成实体嵌入,以获得用于预测给定查询中缺失实体的分数。
参照图注图1
图1. 我们提出的负采样方法KMAS的整体训练过程。
## 3. 方法KMAS
### 3.1. 概述
在本节中,我们简要介绍我们提出的方法KMAS。具体来说,在现有KGFM训练过程的每次迭代中,KMAS首先计算关系相似度,基于通过 \(\text{Encoder}_{\theta_{r}}\) 根据关系图生成的嵌入(第3.2节 (https://arxiv.org/html/2605.27023#S3.SS2)),识别与每个正三元组的目标关系在语义上相似的关系。接下来,利用这些相似度,KMAS为实体分配权重,以构建用于生成难负样本的头(尾)实体分布(第3.3节 (https://arxiv.org/html/2605.27023#S3.SS3))。然后,采用混合采样策略,根据不同的分布结合随机负样本和难负样本,为每个三元组构建最终的负三元组集合(第3.4节 (https://arxiv.org/html/2605.27023#S3.SS4))。此外,KMAS在训练迭代过程中动态调整难负样本与随机负样本的比例,遵循一种折衷策略,结合了“先易后难”的课程学习和“先难后易”的难例挖掘:从没有难负样本的预热阶段开始,线性增加至峰值,然后线性减少(第3.5节 (https://arxiv.org/html/2605.27023#S3.SS5))。因此,KGFM的 \(\text{Encoder}_{\theta_{r}}\) 可以基于由正三元组和自适应构建的负三元组组成的训练集进行训练(第3.6节 (https://arxiv.org/html/2605.27023#S3.SS6))。经过多次迭代后,来自 \(\text{Encoder}_{\theta_{r}}\) 生成的关系嵌入,连同KGFM的实体编码器 \(\text{Encoder}_{e}\) 和 \(f_{\omega}\),被用于对每个测试三元组的所有候选进行评分(第3.6节 (https://arxiv.org/html/2605.27023#S3.SS6))。
### 3.2. 关系相似度获取
为了为正三元组构建高质量的难负样本,我们首先利用 \(\text{Encoder}_{\theta_{r}}\) 生成的关系嵌入来度量关系之间的相似度。对于给定正三元组 \((h,r,t)\) 的关系 \(r\),我们将其输入 \(\text{Encoder}_{\theta_{r}}\) 以获得 \(\mathcal{G}\) 中所有关系的关系嵌入,如下所示:
(1) \(\mathbf{H} \leftarrow \text{Encoder}_{\theta_{r}}(\mathcal{G}_{\mathcal{R}}, r, t)\),其中 \(d\) 表示 \(\text{Encoder}_{\theta_{r}}\) 中嵌入的维度,\(\mathbf{H} \in \mathbb{R}^{|\mathcal{R}| \times d}\) 表示关系嵌入集合。如果选择SEMMA的关系编码器作为 \(\text{Encoder}_{\theta_{r}}\),则 \(t\) 被设置为关系的文本。对于其他KGFMs(即ULTRA、TRIX和MOTIF),\(t\) 被设置为无。然后,基于 \(\mathbf{H}\),我们可以计算 \(r\) 与 \(\mathcal{R}\) 中关系 \(r_{o}\) 之间的相似度向量 \(\mathbf{S} \in \mathbb{R}^{|\mathcal{R}|}\),如下所示:
(2) \(\mathbf{S}(r, r_{o}) = \text{Sim}(\mathbf{h}_{r}, \mathbf{h}_{r_{o}})\),其中函数 \(\text{Sim}(\cdot)\) 由余弦相似度实现,\(\mathbf{h}_{r}\) 表示 \(r\) 的关系嵌入,\(\mathbf{h}_{r_{o}}\) 表示 \(r_{o}\) 的关系嵌入。具体来说,我们将 \(\mathbf{S}(r, r)\) 设置为 \(-\infty\),这将防止后续过程对关系自身进行采样。基于此,我们为 \(r\) 构建向量 \(W_{r} \in \mathbb{R}^{|\mathcal{R}|}\),用于...相似文章
增强元认知AI:基于图论的大语言模型富集的知识图谱填充
MetaKGEnrich是一个全自动流水线,使用图指标检测大语言模型应用中的知识缺口,检索网络证据,并在三个基准数据集上将答案质量提升80%-87%。
知识图谱增强的零样本主题分类:多策略比较研究
本文提出了一种零样本多标签主题分类框架,该框架通过每篇文章的知识图谱进行增强,并在十五个大语言模型和八个数据集上比较了四种基础变体及其图增强对应方法。研究发现,关键词增强分类性能最佳,图增强能提升小型模型的表现,但会降低大型模型的性能。
知识图谱调制的深度学习用于有限样本临床数据分析
GiG是一个知识图谱调制的深度学习框架,它将生物知识图谱整合为边,患者特定数据作为节点特征,在有限样本临床任务中性能比现有最佳方法高出高达49%。
使用知识图谱嵌入的自动化大数据质量评估
本文介绍了一种基于知识的方法,利用知识图谱嵌入,通过预测上下文表示与质量规则之间的缺失边来自动评估大数据质量,优于传统的匹配方法。
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。