宁迟勿早:基于本体后提取校正的神经符号知识图谱构建

arXiv cs.AI 论文

摘要

本文提出了一种神经符号框架,通过将一致性校正推迟到后提取阶段,从文本中构建基于本体的知识图谱,从而减少令牌使用,同时提高知识图谱的一致性并保持问答性能。

arXiv:2605.29168v1 Announce Type: new 摘要:问答是人工智能中的核心挑战,尤其在需要跨文档进行多跳推理或聚合、穷举等符号操作的复杂查询中。检索增强生成已成为问答的主流方法,近期基于图的变体通过组织知识以更好地支持组合式问题,部分解决了这些问题。然而,大多数基于文本的图RAG方法仍缺乏符号操作所需的结构,无法可靠地回答复杂问题。这促使了基于符号图的方法发展,该方法提取知识图谱,其中的关系为逻辑谓词,支持类似SQL的查询。但这些流程通常使用LLM进行知识图谱提取,可能引入一致性问题,即提取的事实可能违反常识本体约束。我们提出了一种神经符号框架,用于构建基于本体的知识图谱,结合了开放域提取、基于嵌入的类型和谓词规范化,以及针对LLM的本体违规校正。通过将校正推迟到后提取阶段,我们的方法避免了重复调用LLM,大幅减少令牌使用,同时提高知识图谱一致性并保持下游问答质量。最后,我们通过测量SPARQL图模式的出现情况,展示了提取的知识图谱非常适合符号查询。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:14

# 宁晚勿早:通过本体约束的后提取校正实现神经符号知识图谱构建

## 摘要

问答是人工智能中的核心挑战,尤其是对于需要跨文档多跳推理或符号运算(如聚合、穷举列举)的复杂查询。检索增强生成已成为问答的主流方法,近期基于图的变体通过组织知识来更好地支持组合性问题,部分解决了这些问题。然而,大多数*文本*图基RAG方法仍然缺乏支持可靠回答复杂问题所需的符号运算结构。这促使了*符号*图基方法的发展,这些方法提取知识图谱,其关系为逻辑谓词,支持类似SQL的查询。然而,这些流程通常使用LLM进行知识图谱提取,可能引入一致性问题,提取的事实可能违反常识本体约束。我们提出了一种神经符号框架,用于基于本体的知识图谱构建,结合了开放域提取、基于嵌入的类型和谓词规范化,以及针对本体违规的有针对性的基于LLM的校正。通过将校正推迟到后提取阶段,我们的方法避免了重复的LLM调用,显著减少了token使用,同时提高了知识图谱的一致性并保持了下游问答质量。最后,我们通过测量SPARQL图模式的出现频率,展示了提取的知识图谱非常适合符号查询。

---

**宁晚勿早:通过本体约束的后提取校正实现神经符号知识图谱构建**

Lorenzo Loconte¹,† [email protected] & Timothy Hospedales¹,² [email protected] & Cristina Cornelio² [email protected]

¹爱丁堡大学,英国  
²三星AI中心,剑桥,英国  

†工作完成于三星AI中心(剑桥,英国)实习期间。  
通讯作者:[email protected]

---

**图1:** 我们的OAK+MEND方法用于基于本体的知识图谱提取,在捕获*文本语义*(以问答性能衡量,上行)和*总体本体一致性*(以满足本体约束的三元组和限定符百分比衡量,下行)之间取得了更好的平衡,同时每个提取事实(三元组或限定符)的token使用效率更高。我们与无本体方法KGGen (Mo et al., 2025)、迭代地将每个三元组与本体对齐的Wikontic (Chepurova et al., 2026) 以及将本体作为LLM上下文一部分进行知识图谱提取的基线方法(In-Context)进行了比较。

---

## 1 引言

人工智能中的一个重要挑战是基于新的或领域特定的信息(通常以文本文档集合形式提供)回答用户问题 (Voorhees and Tice, 2000; Rajpurkar et al., 2016; Lewis et al., 2020a)。最流行的问答方法是检索增强生成(RAG),它将任务分解为两步:检索与问题相关的文本片段,然后使用检索到的信息生成答案 (Chen et al., 2017; Lewis et al., 2020b)。然而,纯文本问答方法通常难以应对需要跨多个实体进行多跳推理的复杂问题 (Yang et al., 2018; Trivedi et al., 2022)、符号运算(如算术或聚合,例如返回最大化某量的答案) (Dua et al., 2019; Chen et al., 2021; Zhu et al., 2021) 或多个中间答案的组合 (Ho et al., 2020)。随着语料库规模的扩大,检索相关文本变得越来越困难,这进一步加剧了回答这些问题的挑战 (Xiong et al., 2021; Weller et al., 2026)。

为了解决这些问题,最近的工作提出了结构化索引,通常是图,它们能更好地捕捉文档与实体之间的全局连接,支持多跳和组合推理 (Sarthi et al., 2024; Gutierrez et al., 2024; Gutiérrez et al., 2025; Edge et al., 2025),并且还能实现直接在图上平衡探索与利用的智能体方法 (Gao and Metaxas, 2026; Du et al., 2026)。在这些方法中,知识图谱最为突出,它将实体之间的直接关系编码为主语-谓语-宾语三元组 (Peng et al., 2023; Pan et al., 2023)。知识图谱提供了形式化的符号关系结构,使得多跳问题所需的遍历高效可行 (Ren et al., 2020; Arakelyan et al., 2021; Galkin et al., 2024; Gregucci et al., 2025)。

知识图谱通常伴随一个*本体*,它指定了领域特定的模式,包括谓词、实体类型以及每个谓词可以链接的实体类型约束。该本体使得验证编码信息的一致性成为可能,并可以指导违反约束的修正 (Ahmetaj et al., 2022; Ferranti et al., 2024; Lin et al., 2025)。最重要的是,它还使得知识图谱能够通过类似SQL的语言(如SPARQL (Harris et al., 2013))进行高效检索,SPARQL支持算术和聚合操作,有助于回答具有挑战性的问题 (Gashkov et al., 2025; Perevalov and Both, 2025)。

近期的研究表明,LLM可以有效从文本中提取知识图谱 (Zhu et al., 2023; Mo et al., 2025)。然而,提取符合现有本体的知识图谱仍然具有挑战性,因为它需要在问答的表达能力、约束满足和token使用之间取得平衡。一条研究路线是将本体约束纳入LLM上下文中进行提取 (Mihindukulasooriya et al., 2023; van Cauter and Yakovets, 2024; Nie et al., 2024; Wang and Iwaihara, 2025)。然而,对于像Wikidata这样的大型本体 (Vrandečić and Krötzsch, 2014),由于需要很长的上下文长度,这会带来大量的计算开销。此外,提取的知识图谱的一致性最终取决于所选LLM执行所提供约束的能力,这使得较小的开放LLM表现更差。尽管我们可以利用专门的模型为每个文本检索相关的本体片段,但这些模型需要针对特定本体进行训练 (Zhang and Soh, 2024)。

另一条研究路线使用LLM提取开放域三元组,然后通过多次LLM调用迭代地将它们与本体对齐 (Arun et al., 2025; Lu et al., 2025; Chepurova et al., 2026)。虽然这为编码相关信息提供了灵活性,但每个提取的三元组需要多次LLM调用,导致显著的token成本。

**贡献**  
(i) 我们提出了一种高效的文本到知识图谱构建方法,在本体约束下,不将约束插入LLM上下文,而是利用文本嵌入将提取的实体类型和谓词映射到本体。  
(ii) 我们符号性地检测违反本体的三元组和限定符,并通过向LLM提示一组候选修正动作来有选择地修正每个违规。这使我们能够通过单次LLM调用高效地修正一个或多个三元组(或限定符)。  
(iii) 实验表明,我们的方法比现有基线方法token效率更高,同时三元组和限定符的本体一致性率分别高达98.4%和96.8%。问答实验进一步表明,我们的后提取修正保留了文本中的关键信息。然后,为了评估提取的知识图谱对通过SPARQL进行符号查询的适用性,(iv) 我们引入了一个基于图模式的基准测试。

---

**图2:** OAK+MEND方法概览。文档由LLM处理以构建开放域知识图谱,然后通过规范化实体类型和谓词与本体对齐。从本体派生的符号规则检测域-范围违规(包括三元组和限定符)。检测到的不一致通过LLM调用进行修正,产生一致的知识图谱,用于(符号/语义)检索,例如问答任务。

---

## 2 背景:本体约束

一个知识图谱 \( \mathcal{G} \) 是一个有向图,其中的链接使用主语-谓语-宾语三元组编码:
\[
\mathcal{G} = \{ (s_i, r_i, o_i) \}_i \subset \mathcal{E} \times \mathcal{R} \times \mathcal{E}
\]
其中 \( \mathcal{E} \) 和 \( \mathcal{R} \) 分别表示实体和谓语集合。知识图谱还可以包含限定符,用于细化或语境化三元组的语义。给定一组限定符谓语 \( \mathcal{Q} \subset \mathcal{R} \),一个限定符是一个对 \( (r_q, o_q) \),其中 \( r_q \in \mathcal{Q} \),\( o_q \in \mathcal{E} \),关联到单个三元组。例如,句子“艾伦·图灵于1938年在普林斯顿大学获得博士学位”可以建模为三元组 \( (\textsf{Alan Turing}, \textsf{educated at}, \textsf{Princeton Univ.}) \) 并附带限定符 \( (\textsf{point in time}, \textsf{1938}) \)。

知识图谱的一个关键组成部分是其*本体*,它定义了允许的实体类型和谓语,以及它们必须满足的约束。遵循Wikidata数据模型 (Vrandečić and Krötzsch, 2014),我们考虑由以下内容组成的本体:(1) 实体类型层次结构,(2) 域-范围约束,以及 (3) 在限定符上定义的约束。下面我们形式化每个本体组件。

**实体类型层次结构。** 令 \( \mathcal{T} \) 为实体类型集合,并令 \( t_1 \prec t_2 \) 表示类型 \( t_1, t_2 \in \mathcal{T} \) 之间的“是子类”偏序关系。此外,对于每个实体 \( e \in \mathcal{E} \),我们用 \( \tau(e) \subset \mathcal{T} \) 表示其关联的类型集合。例如,\( \textsf{mathematician} \in \tau(\textsf{Alan Turing}) \) 说明艾伦·图灵的类型是数学家,而 \( \textsf{mathematician} \prec \textsf{human} \) 指定数学家是类型人类的子类。

**域-范围约束。** 对于每个谓语 \( r \in \mathcal{R} \),令 \( \mathsf{dom}(r) \subseteq \mathcal{T} \) 和 \( \mathsf{rng}(r) \subseteq \mathcal{T} \) 分别表示 \( r \) 的*域*和*范围*约束。它们指定了涉及 \( r \) 的三元组允许的主语和宾语类型。三元组 \( (s, r, o) \) 满足域约束当且仅当存在 \( t_s \in \tau(s) \),\( u_s \in \mathsf{dom}(r) \) 使得 \( t_s \prec u_s \);满足范围约束当且仅当存在 \( t_o \in \tau(o) \),\( u_o \in \mathsf{rng}(r) \) 使得 \( t_o \prec u_o \)。例如,给定 \( \mathsf{dom}(\textsf{educated at}) = \{\textsf{human}\} \),\( \mathsf{rng}(\textsf{educated at}) = \{\textsf{university}\} \),那么 \( (\textsf{Alan Turing}, \textsf{educated at}, \textsf{Princeton University}) \) 满足 \( \textsf{educated at} \) 的域约束,因为 \( \textsf{mathematician} \prec \textsf{human} \);并且只要 \( \textsf{university} \in \tau(\textsf{Princeton University}) \),它也满足范围约束。先前的工作如 Feng et al. (2024) 和 Chepurova et al. (2026) 研究了在域-范围约束下的知识图谱提取,这里我们额外考虑限定符约束,下面我们将其形式化。

**限定符约束。** 每个谓语 \( r \in \mathcal{R} \) 指定一组允许的限定符谓语 \( \mathsf{qual}(r) \subseteq \mathcal{Q} \subset \mathcal{R} \)。例如,上面来自 \( (\textsf{educated at}) \) 的限定符 \( (\textsf{point in time}, \textsf{1938}) \) 是一致的,如果 \( \textsf{point in time} \in \mathsf{qual}(\textsf{educated at}) \);而 \( (\textsf{color}, \textsf{red}) \) 是不一致的,如果 \( \textsf{color} \notin \mathsf{qual}(\textsf{educated at}) \)。此外,限定符 \( (r, o) \) 满足 \( r \) 的范围约束当且仅当存在 \( t_o \in \tau(o) \),\( u_o \in \mathsf{rng}(r) \) 使得 \( t_o \prec u_o \)。

**通过SPARQL进行符号查询。** 上面定义的本体约束提供了编写类似SQL查询以进行符号检索或问答所需的*规则*,使用SPARQL (Harris et al., 2013)。例如,考虑检索*所有在2000年后获得诺贝尔奖的物理学家*的任务。这可以表示为以下查询:
```sparql
SELECT ?person WHERE {
  ?person instanceOf :Human .
  ?person occupation :Physicist .
  ?person awardReceived ?stmt .
  ?stmt awardValue :NobelPrizePhysics ;
        pointInTime ?date .
  FILTER(?date >= "2000-01-01")
}
```
在上面的查询中,L2指定了对实体变量`?person`的类型约束,而在L3中,`occupation:`的范围约束告诉我们把职业`Physicist:`放在三元组的右侧。`pointInTime:`是被`awardReceived:`允许的限定符这一事实确保了查询的有效性。

相似文章