知识图谱中的可扩展不确定性推理

arXiv cs.AI 论文

摘要

本论文提出了一个模块化框架,用于知识图谱中的可扩展不确定性推理,通过定制的代数、逻辑和几何技术,处理不精确的属性值、概率性三元组存在以及不完整的模式知识。

arXiv:2605.16568v1 公告类型:新 摘要:知识图谱对于语义数据集成至关重要。它们建模的现实世界数据通常本质上是不确定的。在知识图谱中,不确定性体现在三个不同层面:不精确的属性值、概率性三元组存在以及不完整的模式知识。然而,当前的语义网标准缺乏对这类不确定性推理的原生支持,并且朴素的扩展往往会导致计算上的难以处理。在本论文中,我旨在开发一个模块化框架,通过定制技术处理每一个层面:(1) 定义概率字面量及相应的连续属性查询代数;(2) 一个基于编译的框架,将SPARQL溯源转换为易处理的概率电路,用于不确定的三元组;(3) 基于拓扑感知的几何嵌入,用于统计模式推理。中心假设是,专门的推理机制,即代数、逻辑和几何方法,能够调和语义精度与计算可处理性。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:34

# 知识图谱中的可扩展不确定性推理
来源:https://arxiv.org/html/2605.16568
11institutetext:斯图加特大学, 德国斯图加特
11email:jingcheng\.wu@ki\.uni\-stuttgart\.de

###### 摘要

知识图谱是语义数据整合的关键技术。它们所建模的真实世界数据通常固有地包含不确定性。在知识图谱中,不确定性表现为三个不同层面:不精确的属性值、概率性的三元组存在以及不完整的模式知识。然而,当前的语义网标准缺乏对这些不确定性进行推理的原生支持,而朴素的扩展方法往往导致计算上的难以处理。在本论文中,我旨在开发一个模块化框架,通过专门技术处理每个层面:(1) 为连续属性定义概率字面量及相应的查询代数;(2) 一个基于编译的框架,将SPARQL溯源转换为易于处理的概率电路,用于不确定的三元组;(3) 基于拓扑感知的几何嵌入,用于统计模式推理。核心假设是,专门的推理机制——即代数、逻辑和几何方法——能够协调语义精度与计算可处理性。

## 1 引言

知识图谱(KGs)[27 (https://arxiv.org/html/2605.16568#bib.bib1)]作为异构数据语义整合的通用框架[8 (https://arxiv.org/html/2605.16568#bib.bib4),31 (https://arxiv.org/html/2605.16568#bib.bib57)],通常依赖于W3C标准,如用于数据表示的RDF[13 (https://arxiv.org/html/2605.16568#bib.bib2)]和用于查询的SPARQL[23 (https://arxiv.org/html/2605.16568#bib.bib3)]。虽然这些标准在检索确定性事实方面表现出色,但它们基于二元真值的假设[33 (https://arxiv.org/html/2605.16568#bib.bib6)]。例如,三元组 \(:Motor123, rdf:type, :ElectricMotor\) 断言实体Motor123被分类为电动机。对此三元组的标准查询要求精确的图匹配,将该陈述视为一个必须显式存在于数据集中的二元事实。

实际上,知识图谱通常不完整且存在不确定性,包含缺失的链接和不可靠的事实,这与W3C标准的确定性本质相冲突[20 (https://arxiv.org/html/2605.16568#bib.bib5),33 (https://arxiv.org/html/2605.16568#bib.bib6),52 (https://arxiv.org/html/2605.16568#bib.bib56)]。这种普遍存在的不确定性并非单一现象,而是以异构形式呈现,难以采用“一刀切”的方式处理。考虑一个三元组表示一个已确认但值不确定的关系,例如 \(:Motor123,:hasTemperature,\mathcal{N}(80^{\circ}\text{C},1^{\circ}\text{C})\),以及另一个三元组,其存在本身是一个概率假设,例如 \(:Grinder07812,:hasFault,:Overheat\),其中P=0.12。前者依赖于基于微积分的整合来评估无限连续域上的范围约束[50 (https://arxiv.org/html/2605.16568#bib.bib38)];而后者则采用组合模型计数来聚合离散可能世界的概率[43 (https://arxiv.org/html/2605.16568#bib.bib8)]。

试图通过将离散结构概率与连续属性分布耦合来统一这些异构形式,通常会引发过高的计算复杂度,例如#P-难的推理[14 (https://arxiv.org/html/2605.16568#bib.bib9)],因为推理引擎无法高效地协调离散计数与无限连续域[39 (https://arxiv.org/html/2605.16568#bib.bib10)]。为了在不牺牲语义精度的前提下实现可扩展的推理,我们将这种复杂性分解,区分不确定性的本质。具体而言,根据[45 (https://arxiv.org/html/2605.16568#bib.bib12),47 (https://arxiv.org/html/2605.16568#bib.bib11)],我们将知识图谱中的不确定性分为三个不同层面:

- **属性层面不确定性** 指的是字面量值的不精确或不准确[5 (https://arxiv.org/html/2605.16568#bib.bib7),25 (https://arxiv.org/html/2605.16568#bib.bib13)]。在此层面,三元组的存在是确定性的,但字面量值由于测量误差或传感器噪声等因素而存在不确定性。回顾前述的Motor123示例,三元组 \(:Motor123,:hasTemperature,l\) 是确认的,但字面量\(l\)遵循分布 \(\mathcal{N}(80^{\circ}\text{C},1^{\circ}\text{C})\),而非一个精确的标量。
- **三元组层面不确定性** 关注的是两个实体之间或一个实体与一个字面量之间的特定三元组的存在概率[20 (https://arxiv.org/html/2605.16568#bib.bib5),33 (https://arxiv.org/html/2605.16568#bib.bib6)]。这种不确定性通常由专家评估[5 (https://arxiv.org/html/2605.16568#bib.bib7)]、链接预测[6 (https://arxiv.org/html/2605.16568#bib.bib40),19 (https://arxiv.org/html/2605.16568#bib.bib58)]或信息抽取[20 (https://arxiv.org/html/2605.16568#bib.bib5)]引入。回顾Grinder07812示例,根据领域专家的观察,出现过热故障的概率为12%。因此,三元组 \(:Grinder07812,:hasFault,:Overheat\) 并非作为二元事实表示,而是作为一个概率假设,其中 \(P(\texttt{:Grinder07812},\texttt{:hasFault},\texttt{:Overheat})=0.12\)。
- **组层面不确定性** 指的是知识图谱模式内的概率约束和统计规律[34 (https://arxiv.org/html/2605.16568#bib.bib14),51 (https://arxiv.org/html/2605.16568#bib.bib15)]。此层面将不确定性的范围从单个事实扩展到关于整个实体类别的术语公理。它不关注孤立实例,而是对一般性依赖关系进行建模。例如,关于类:AngleGrinder,其中 \(\texttt{:Grinder07812}\in\texttt{:AngleGrinder}\),统计模式知识断言此类设备中有85%配备了:DustCover。形式上,这被编码为概率包含公理 \(\texttt{:AngleGrinder}\sqsubseteq_{0.85}\exists\texttt{:hasPart}.\texttt{:DustCover}\)。

尽管存在差异,这三个层面面临着一个共同障碍:现有的语义网引擎缺乏对概率推理的原生支持。属性层面处理目前仅限于描述性元数据或低效的采样;三元组层面推理在没有结构优化的情况下是#P-难的;而组层面逻辑推理的可扩展性较差。本论文通过用针对每种不确定性类型定制的不同推理机制来扩展语义网栈,从而解决这些局限性。具体而言,我研究:(1) 针对属性层面不确定性的代数查询框架,通过闭式高斯混合模型(GMMs)实例化;(2) 针对三元组层面不确定性的逻辑编译框架,将概率图模式转换为易于处理的电路;(3) 针对组层面不确定性的几何嵌入模型,将统计模式映射到拓扑感知的流形上。核心假设是,通过各自的代数、逻辑和几何视角处理这些层面,能够实现语义精度与计算可处理性的协调。

## 2 研究现状

我们根据三个层面分析研究现状。

### 2.1 属性层面不确定性

语义网领域的现有标准,例如语义传感器网络(SSN)本体[25 (https://arxiv.org/html/2605.16568#bib.bib13)]和ProbOnto[44 (https://arxiv.org/html/2605.16568#bib.bib17)],已经建立了丰富的词汇表来描述概率分布和传感器观测。类似地,SCOVO[24 (https://arxiv.org/html/2605.16568#bib.bib37)]和RDF数据立方体[12 (https://arxiv.org/html/2605.16568#bib.bib33)]提供了交换统计数据的本体。然而,这些框架主要作为**描述性元数据模式**。它们定义了统计数据如何以结构方式表示,但缺乏在数据库引擎内部直接执行操作(例如卷积或贝叶斯融合)所需的底层查询代数。

在RDF流处理中,Keskisärkkä等人[30 (https://arxiv.org/html/2605.16568#bib.bib47),29 (https://arxiv.org/html/2605.16568#bib.bib48)]在RSP-QL*模型中引入了一种自定义字面量数据类型和SPARQL扩展,用于概率过滤。虽然他们与我们将分布嵌入RDF字面量的高层想法一致,但他们的工作针对数据流的瞬态特性,与我们的持久化知识图谱框架在三个关键方面存在差异。首先,他们的表示将随机变量与分布混为一谈,而我们的框架将它们分开,以统一处理多维数据。其次,他们的操作严格将分布映射为标量概率,缺乏代数封闭性,从而排除了链式变换(例如卷积、贝叶斯融合)或跨族分布的相似性连接等分布比较。第三,他们只支持基本的参数族,而我们通过多态性支持异构分布族(包括GMM、Dirichlet和直方图),超越了基本参数形式。

在语义网之外,概率数据库中处理连续变量通常会导致高昂的计算成本。在关系数据库中,像Orion[41 (https://arxiv.org/html/2605.16568#bib.bib32)]和MCDB[28 (https://arxiv.org/html/2605.16568#bib.bib34)]这样的系统允许多个概率分布作为元组属性。Orion定义了分布上的代数操作,如floor、marginalize和product,而MCDB则依赖在查询评估期间生成数千个随机样本。尽管蒙特卡洛方法提供了灵活性,但它会引入巨大的运行时开销,使其不适合大规模知识图谱的交互式查询需求。

这些局限性揭示了一个关键的研究空白:缺乏一种查询代数,能够将各种概率分布(包括离散、连续、参数和非参数形式)视为RDF数据模型中的**一等公民**。该代数基于标准的随机变量建模,支持代数封闭的分布到分布变换以及跨异构族的相似性连接,同时通过闭式操作与不同采样策略[38 (https://arxiv.org/html/2605.16568#bib.bib49),35 (https://arxiv.org/html/2605.16568#bib.bib50),46 (https://arxiv.org/html/2605.16568#bib.bib52)]的混合体来保持计算效率。

### 2.2 三元组层面不确定性

此层面处理实体之间关系的存在概率。基本框架是元组独立数据库(TID)[18 (https://arxiv.org/html/2605.16568#bib.bib19),9 (https://arxiv.org/html/2605.16568#bib.bib18),43 (https://arxiv.org/html/2605.16568#bib.bib8)],其中每个三元组都是一个独立的伯努利事件,查询评估对应于对溯源的加权模型计数。然而,现实世界中的三元组经常表现出通过PGM建模的依赖关系[32 (https://arxiv.org/html/2605.16568#bib.bib24)],而将这些结构整合到SPARQL评估中仍然是一个开放问题。

即使是在TID假设下,二分法定理[15 (https://arxiv.org/html/2605.16568#bib.bib20)]将合取查询分为安全类(PTIME)和不安全类(#P-难)。安全查询允许从查询结构直接进行提升推理,但基于半环框架的现有溯源引擎[2 (https://arxiv.org/html/2605.16568#bib.bib23),26 (https://arxiv.org/html/2605.16568#bib.bib22)]未能利用这种分类。虽然这些系统提供了元数据传播的通用代数方法,但它们统一处理所有查询模式,错过了对安全图模式进行高效提升推理的机会。

对于SPARQL的全部表达能力,包括非单调算子(OPTIONAL, MINUS),Geerts等人[21 (https://arxiv.org/html/2605.16568#bib.bib21)]引入了spm-半环来捕获其溯源语义,并由SPARQLProv[26 (https://arxiv.org/html/2605.16568#bib.bib22)]和NPCS[2 (https://arxiv.org/html/2605.16568#bib.bib23)]实现。然而,对所产生的谱系进行概率评估在计算上仍然是难以处理的[18 (https://arxiv.org/html/2605.16568#bib.bib19)]。

为了缓解这种计算上的困难,数据库社区利用了知识编译(KC)[17 (https://arxiv.org/html/2605.16568#bib.bib42)]。这种范式将复杂性从在线查询评估转移到离线编译阶段,将谱系公式转换为易于处理的目标语言,特别是确定性可分解否定范式(d-DNNF)[18 (https://arxiv.org/html/2605.16568#bib.bib19),9 (https://arxiv.org/html/2605.16568#bib.bib18)]。与原始谱系表达式不同,d-DNNF满足确定性和可分解性,这两种结构特性共同将推理复杂度从#P-难降低到电路规模的线性时间。虽然KC对于单调关系查询非常有效,但将其适配到处理带有spm-半环溯源的完整SPARQL的非单调语义,仍然是一个重要的开放问题,本论文也旨在解决这个问题。

我们注意到,模糊逻辑[33 (https://arxiv.org/html/2605.16568#bib.bib6),42 (https://arxiv.org/html/2605.16568#bib.bib35),53 (https://arxiv.org/html/2605.16568#bib.bib36)]分配的是真值程度而非概率,并且缺乏严格推理所需的统计组合性。因此,本论文侧重于概率语义。

这些观察结果确定了三个相互关联的空白:(1) 未能利用查询结构进行提升推理;(2) 缺乏高效的非单调溯源推理机制;(3) 缺乏超越TID假设的元组依赖性的原生支持。本论文通过一个统一的编译框架来解决这些空白,该框架将SPARQL谱系转换为易于处理的电路表示。

### 2.3 组层面不确定性

此层面处理术语知识上的统计约束,断言条件概率,例如“85%的角磨机配备了防尘罩”。这种推理的基本形式化是统计EL(SEL)[37 (https://arxiv.org/html/2605.16568#bib.bib25)]。虽然SEL为这些概率术语公理提供了严格的语义,但理论分析表明,其精确的可满足性检查是Exptime-完全的[4 (https://arxiv.org/html/2605.16568#bib.bib26)]。这种高复杂度使得依赖线性规划[34 (https://arxiv.org/html/2605.16568#bib.bib14)]或tableau算法[7 (https://arxiv.org/html/2605.16568#bib.bib27)]的经典推理机制对于大规模知识图谱而言在计算上不可行[51 (https://arxiv.org/html/2605.16568#bib.bib15)]。

为了克服可扩展性障碍,最近的研究转向了几何神经符号近似[22 (https://arxiv.org/html/2605.16568#bib.bib29),48 (https://arxiv.org/html/2605.16568#bib.bib28)]。代表性的几何嵌入模型,以基于BoxEL的方法为例,将概念映射到向量空间中的轴对齐盒子[48 (https://arxiv.org/html/2605.16568#bib.bib28)]。这种范式转变用易于处理的几何近似取代了难以处理的逻辑推理。

相似文章

基于外部子图生成的大语言模型逐步推理增强

arXiv cs.CL

本文提出了SGR框架,通过查询相关的子图生成将外部知识图谱与大语言模型相结合,融合基于Cypher的推理与协同推理集成,从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明,该框架相比标准提示方法和知识增强基线具有更高的推理准确性。

面向时序知识图谱推理的显著性感知评估

arXiv cs.AI

本文提出了一种面向时序知识图谱推理(TKGR)的显著性感知评估框架,该框架根据事件的稀有性对其加权,以更好地评估模型推理能力,解决了由琐碎重复事件导致的过高估计问题。