面向时序知识图谱推理的显著性感知评估

arXiv cs.AI 2026/05/14 04:00 论文

摘要

本文提出了一种面向时序知识图谱推理（TKGR）的显著性感知评估框架，该框架根据事件的稀有性对其加权，以更好地评估模型推理能力，解决了由琐碎重复事件导致的过高估计问题。

arXiv:2605.13153v1 公告类型：新摘要：时序知识图谱推理（TKGR）旨在从历史数据中推断缺失（尤其是未来）事件。当前的TKGR评估对所有事件进行统一加权，忽略了大多数是琐碎重复事件，这高估了真实的推理能力。因此，那些预测需要更深层推理的稀有突出事件应被区分并强调。为此，我们提出了一种显著性感知评估框架，该框架引入了一个基于规则的显著性测量框架（RSMF），通过将事件的预期出现次数与从时序规则导出的同类事件进行比较来量化事件显著性。然后将显著性作为权重因子集成到加权MRR和Hits@k等指标中。在四个TKG基准上的实验表明：1）所有代表性模型随着事件显著性的增加表现更差，2）基于路径的方法在低显著性事件上表现优异，而基于表示的方法在高显著性事件上表现出色，3）我们设计了一种集成方法，其收益来源于拟合琐碎事件而非推理改进。我们的框架提供了更严格的评估，重新聚焦于预测突出事件领域。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:15

# 基于显著性的时序知识图谱推理评估

来源：https://arxiv.org/html/2605.13153

张胜哲²，魏伟¹,²,³

¹华中科技大学计算机科学与技术学院

²华中科技大学人工智能研究所

³华中科技大学人工智能与自动化学院

{huangrk, zsz, weiw}@hust.edu.cn

通讯作者

###### 摘要

时序知识图谱推理（TKGR）旨在从历史数据中推断缺失（尤其是未来）事件。当前TKGR评估对所有事件一视同仁，忽略了大多数事件是琐碎的重复，从而高估了真正的推理能力。因此，那些需要更深层推理才能预测的罕见显著事件应被区分并强调。为此，我们提出了一种基于显著性的评估框架，引入基于规则的显著性度量框架（RSMF），通过将目标事件的期望出现次数与基于时序规则的同辈事件进行比较，来量化事件的显著性。然后，将显著性作为权重因子集成到加权MRR和Hits@k等指标中。在四个TKG基准上的实验表明：1）所有代表性模型的性能都随着事件显著性的增加而下降；2）基于路径的方法在低显著性事件上表现优异，而基于表示的方法在高显著性事件上表现出色；3）我们设计了一种集成方法，其增益来自拟合琐碎事件而非推理能力的提升。我们的框架提供了更严格的评估，将领域焦点重新引向预测显著事件。

## 1 引言

时序知识图谱推理（TKGR）的最新进展取得了显著成果，根据是否预测未来事件，可大致分为两类：插值推理和外推推理（Jin et al., 2020（https://arxiv.org/html/2605.13153#bib.bib22））。前者指推断缺失的历史事实，后者涉及预测未来事件，也称为时序知识图谱预测（Sun et al., 2021（https://arxiv.org/html/2605.13153#bib.bib32））。本文主要关注外推推理，这对于金融风险控制等高危应用至关重要（Aven, 2013（https://arxiv.org/html/2605.13153#bib.bib20））。尽管实验结果令人鼓舞（Liang et al., 2024（https://arxiv.org/html/2605.13153#bib.bib14）），但许多报告的性能提升可能主要来自数据偏差，导致对该领域进展的误判（Kervadec et al., 2021（https://arxiv.org/html/2605.13153#bib.bib69））。静态KGR领域曾有过类似情况：知名基准（WN18、FB15k）中潜在的数据泄漏导致模型推理能力被高估（Toutanova and Chen, 2015（https://arxiv.org/html/2605.13153#bib.bib70）; Dettmers et al., 2018（https://arxiv.org/html/2605.13153#bib.bib52））。WN18和FB15k中超过94%和81%的查询（如 (A, hypernym, ?) ），如果已知hyponym是hypernym的反向关系，则可以轻松映射到训练三元组 (B, hyponym, A)。最近，TKGR领域也出现了类似现象：在ICEWS数据中，超过80%的事件在先前历史中已经出现过（Zhu et al., 2021（https://arxiv.org/html/2605.13153#bib.bib71））。这可能导致基于启发式的预测，在现有TKGR评估框架下，高估常见事件上的最先进（SOTA）性能，同时掩盖了在不到10%的真正具有挑战性的显著案例上的低准确率。例如，对于查询 (A, MakeVisit, ?, T_q)，模型可能通过选择历史中最频繁发生的事件 (A, MakeVisit, B, T_i) 来输出答案B（Lee et al., 2023（https://arxiv.org/html/2605.13153#bib.bib29）; Xu et al., 2023（https://arxiv.org/html/2605.13153#bib.bib74））。这引发了对当前TKGR方法预测质量的质疑，以及现有评估框架能否合理反映这些模型预测能力的问题（Gastinger et al., 2024b（https://arxiv.org/html/2605.13153#bib.bib30））。

上述静态KGR中的缺陷已通过从训练集中移除反向关系三元组得到解决，即创建了WN18RR（Dettmers et al., 2018（https://arxiv.org/html/2605.13153#bib.bib52））和FB15k-237（Toutanova and Chen, 2015（https://arxiv.org/html/2605.13153#bib.bib70））。然而，这种简单的移除策略从根本上不适用于TKGR，因为所有历史事件，即使是重复的，都是预测未来的重要证据。这一困境引出一个关键问题：如何在不清除数据的情况下为TKGR构建更有意义的评估框架？一个原则性的可行替代方案是对测试实例的增益进行重新加权，而非统一对待所有实例。具体来说，像 (A, MakeVisit, B) 这样在不同时间戳频繁发生的琐碎事件应被赋予较低的权重。相反，像 (A, Sign Agreement, B) 这种更罕见的显著事件，需要更深层的时序推理，应被强调。通常，准确推断显著事件比仅仅预测大量琐碎事件具有更大的实际价值。然而，从大量琐碎事件中测量权重并自动识别显著事件并非易事。虽然已有一些研究尝试测量静态KG中事实的显著性，但在TKG领域明显缺乏相关研究。这一差距源于两个挑战：首先，除了统计特征，一个全面的TKGR评估框架还需要整合语义和时序相关性。其次，由于未来事件的真实影响无法提前知晓，其显著性的任何度量只能从可观察的历史模式中推导得出。

为解决这一问题，我们提出了一种基于规则的显著性度量框架（RSMF），用于基于历史证据度量未来事件的显著性。RSMF首先利用一阶时序规则为目标事件检索同辈事件。然后，它结合规则的语义置信度、事件的时序特征以及事件重复的频率，计算候选事件的期望出现次数。未来事件的显著性通过将其期望出现次数与其同辈事件的期望出现次数进行对比得出。最后，我们通过将显著性作为权重因子，构建了一个基于显著性的评估框架。在实验中，我们在四个广泛使用的TKG数据集上（包括三种基于路径的方法、三种基于表示的方法和两种基于大语言模型（LLM）的方法）评估了八个代表性基线在显著性感知评估框架下的表现。

我们的贡献和主要发现可总结如下：

- • 我们提出了RSMF来量化TKG中的事件显著性，并构建了一个新的相应显著性感知TKGR评估框架，该框架根据事件的显著性重新加权测试实例。
- • 对于被评估的模型，推理性能随着事件显著性的增加而下降，即显著性越高的事件越难预测。
- • 我们发现不同基线的性能模式不同：基于路径的方法在低显著性事件上表现更强，而基于表示的方法在高显著性事件上表现出色。
- • 我们设计了一种结合基于路径和基于表示模型的集成方法，旨在利用它们的互补优势。因此，在原始框架和本文提出的显著性感知框架中，该方法分别获得了显著和边际增益。分析表明，该方法的增益来自主导的低显著性事件，而在罕见的高显著性事件上性能反而下降。

## 2 相关工作

##### 时序知识图谱推理评估

近年来，研究人员提出了各种外推TKGR方法，包括基于图神经网络的方法（Li et al., 2021（https://arxiv.org/html/2605.13153#bib.bib23）, 2022（https://arxiv.org/html/2605.13153#bib.bib31）; Chen et al., 2024（https://arxiv.org/html/2605.13153#bib.bib33））、基于规则的方法（Liu et al., 2022（https://arxiv.org/html/2605.13153#bib.bib27）; Huang et al., 2024（https://arxiv.org/html/2605.13153#bib.bib24））、基于强化学习的方法（Sun et al., 2021（https://arxiv.org/html/2605.13153#bib.bib32）; Zheng et al., 2023（https://arxiv.org/html/2605.13153#bib.bib56）; Dong et al., 2023（https://arxiv.org/html/2605.13153#bib.bib73）），以及日益流行的大语言模型方法（Lee et al., 2023（https://arxiv.org/html/2605.13153#bib.bib29）; Liao et al., 2024（https://arxiv.org/html/2605.13153#bib.bib25）; Xia et al., 2024（https://arxiv.org/html/2605.13153#bib.bib57））。伴随这些进展，像KGR中的链路预测一样，常见的基于排名的评估方法也在不断改进。最初，为解决单个查询有多个答案的问题，在排序时会过滤掉除目标答案以外的正确答案，以避免低估模型性能（Bordes et al., 2013（https://arxiv.org/html/2605.13153#bib.bib34））。随后，为了适应TKGR，引入了时间感知过滤（Han et al., 2021（https://arxiv.org/html/2605.13153#bib.bib44））和时间间隔预测评估（Jain et al., 2020（https://arxiv.org/html/2605.13153#bib.bib59））。在重新评估各种模型性能以建立公平比较方面也付出了大量努力（Sun et al., 2020（https://arxiv.org/html/2605.13153#bib.bib45）; Ruffinelli et al., 2020（https://arxiv.org/html/2605.13153#bib.bib58）; Gastinger et al., 2023（https://arxiv.org/html/2605.13153#bib.bib26））。此外，一个名为Recurrency的有价值的基线揭示了数据集中的缺陷并提供了重要见解（Gastinger et al., 2024b（https://arxiv.org/html/2605.13153#bib.bib30））。为了探索TKGR模型的能力边界，一些研究尝试针对不同场景构建新的基准数据集，例如上下文感知（Ma et al., 2023（https://arxiv.org/html/2605.13153#bib.bib49））、多模态（Li et al., 2024（https://arxiv.org/html/2605.13153#bib.bib50））和大规模设置（Gastinger et al., 2024a（https://arxiv.org/html/2605.13153#bib.bib51））。然而，这些数据集也可能遭受上述数据偏差的影响，因为重复模式是TKG的固有特征。

##### 知识图谱中的显著事实挖掘

显著事实（OF）挖掘侧重于量化事实的显著性。早期研究专注于从非结构化数据（如文本）中提取显著事实（Angiulli et al., 2009（https://arxiv.org/html/2605.13153#bib.bib28）; Hassan et al., 2014（https://arxiv.org/html/2605.13153#bib.bib60）; Wu et al., 2012（https://arxiv.org/html/2605.13153#bib.bib61））。Maverick（Zhang et al., 2018（https://arxiv.org/html/2605.13153#bib.bib16））首次利用实体的特定属性值度量静态KG中的事件显著性。FMINER（Yang et al., 2021（https://arxiv.org/html/2605.13153#bib.bib17））引入了上下文实体约束，并设计了模式相关性模型来优化事件搜索过程。进一步地，通过扰动分析探索了所度量显著事实的鲁棒性（Xiao et al., 2024（https://arxiv.org/html/2605.13153#bib.bib18））。据我们所知，我们的框架是首次将已建立的显著事实挖掘范式从静态KG原则性地扩展到TKG。此外，我们将挖掘技术转化为全面的评估框架，创建了加权指标，使TKGR领域重新聚焦于重视显著推理。

## 3 基于显著性的评估

### 3.1 预备知识

##### 时序知识图谱推理

TKG可以表示为一组时间戳KG的序列，记为 \(\mathcal{G}=\{\mathcal{G}_1, \mathcal{G}_2, \ldots, \mathcal{G}_t\}\)。每个特定时间戳 \(t\) 的KG定义为 \(\mathcal{G}_t = (\mathcal{E}, \mathcal{R}, \mathcal{F}_t)\)，其中 \(\mathcal{E}\) 是实体集合，\(\mathcal{R}\) 是关系集合，\(\mathcal{F}_t = \{(s, r, o, t)\}\) 是在时间戳 \(t\) 观察到的事件集合。给定一个查询 \((s, r, ?, t)\)，合理的TKGR模型基于 \(t\) 之前观察到的事实推断出对象 \(o\)，其中 \(s\) 和 \(o\) 是主宾语实体，\(r\) 是一个关系，\(t\) 是一个时间戳。例如，查询 (Markieff Morris, join, ?, 2025-02) 要求模型基于2025-02之前的事件预测the Lakers，以验证其在实际中的预测能力。

图1：目标未来事件 (South Korea, Sign Agreements, North Korea, 2025/08/15)（替换对象）的显著性度量示例。在同辈事件检索中，RMFS检索历史事件并利用规则集构建同辈事件。期望出现次数和显著性计算通过规则基化和显著性评分函数计算。

##### 事件的显著性

显著性量化了目标事件 \(f=(s, r, o, t)\) 的突出程度，是一个取值范围在 [0, 1] 的连续值。值越接近1，事件越突出，反之亦然。低显著性事件可称为琐碎事件，高显著性事件可称为显著事件。由于比较两个完全不相关的事件（如Markieff Morris将在2025年加入湖人队和美联储将在2026年降息）没有意义，显著性通过与同辈事件 \(\mathcal{P}\) 进行比较来定义。

##### 同辈事件

同辈事件是通过替换目标事件中的实体或关系而生成的关联事件。对于目标未来事件 \(f=(s, r, o, t)\)，其同辈事件定义为 \(\mathcal{P}_f^s = \{(s', r, o, t) | s' \in \mathcal{E}\}\)，\(\mathcal{P}_f^o = \{(s, r, o', t) | o' \in \mathcal{E}\}\)，和 \(\mathcal{P}_f^r = \{(s, r', o, t) | r' \in \mathcal{R}\}\)。

### 3.2 显著性度量

要度量事件的显著性，必须解决三个关键挑战：1）构建一组可与目标未来事件进行比较的同辈事件，2）计算目标事件及其同辈事件的期望出现次数，3）利用期望出现次数计算目标事件的显著性得分。RSMF的整体流程如图1（https://arxiv.org/html/2605.13153#S3.F1）所示。

##### 同辈事件检索

通过替换目标事件的实体或关系可以获得同辈事件。然而，直接替换可能生成许多无意义的同辈事件，如 (Markieff Morris, join, Microsoft, 2025-02)。因此，我们利用时序规则从历史KG中约束同辈事件的生成。对于目标未来事件 \(f=(s, r, o, t)\)，我们首先通过规则挖掘（Liu et al., 2022（https://arxiv.org/html/2605.13153#bib.bib27））获取关系 \(r\) 对应的规则集 \(TR\)。虽然高阶规则可以捕捉更复杂的模式，但也会引入指数级的计算复杂度和过拟合风险。因此，作为一种实用措施，我们仅使用长度为1的规则。详细的复杂度分析

面向时序知识图谱推理的显著性感知评估

相似文章

AdaTKG：用于时序知识图谱推理的自适应记忆

GRATE：通过门控旋转注意力实现归纳知识图谱基础模型的时间扩展

构建程序性推理评估数据集：平衡自然性、基础性和多跳覆盖

SKG-Eval：基于增量语义知识图谱的多轮对话状态化评估

TRACE: 基于时间证据图的对话数据状态感知查询处理

提交意见反馈