KG2Cypher:用于构建企业级文本到Cypher系统的数据驱动管道
摘要
KG2Cypher 提出了一种数据驱动管道,利用现有知识图谱构建企业级文本到Cypher系统。它使用LLM生成自然语言问题-Cypher对,并通过LLM评估器和人工审核进行验证,通过基于LoRA的微调在韩语企业数据集上取得了显著的性能提升。
arXiv:2606.27742v1 公告类型:新
摘要:企业知识图谱(KG)越来越多地用于内部搜索、分析和问答,但为私有企业图构建自然语言接口仍然成本高昂。我们提出KG2Cypher,一种从现有知识图谱构建企业级文本到Cypher系统的数据驱动管道。KG2Cypher首先从观察到的图事实构建可执行的Cypher查询,然后使用LLM生成其关联的自然语言问题。产生的文本-Cypher对通过LLM评估器和人工验证进行验证,并转换为候选感知的SFT数据。训练好的生成器通过类别条件模式提示、实体检索和基于LoRA的推理提供服务。我们在韩语企业场景中评估了KG2Cypher,其中短搜索式查询和模式释义使得语言落地困难。LoRA SFT将执行结果F1从0.806提升到0.950(广播节目查询),从0.70提升到0.92(公司查询)。在11类设置中,KG2Cypher实现了95.2%的精确匹配、99.9%的执行率和0.964的执行结果F1。
查看缓存全文
缓存时间: 2026/06/29 05:24
# KG2Cypher: 构建企业文本到Cypher系统的数据驱动管道
来源: https://arxiv.org/html/2606.27742
Minjun Choi1,† Yerin Kim2,† Junghyuk Seo2 Sujin Mo2 Hyemin Lee2 Youngjoong Ko1
1成均馆大学
2NAVER
\{alswns078, lovekyll0\}@gmail\.com, yjko@skku\.edu
\{junghyuk\.seo, sujin\.mo, hmin\.lee\}@navercorp\.com
###### 摘要
企业知识图谱(KG)越来越多地用于内部搜索、分析和问答,但为私有企业图构建自然语言界面仍然成本高昂。我们提出 KG2Cypher,一种基于现有KG构建企业文本到Cypher系统的数据驱动管道。KG2Cypher 首先根据观察到的图事实构造可执行的 Cypher 查询,然后使用 LLM 生成其关联的自然语言问题。生成的文本-Cypher 对通过 LLM 评判和人工验证进行校验,并转换为候选感知的 SFT 数据。训练后的生成器结合了类条件模式提示、实体检索和基于 LoRA 的推理。我们在韩国企业环境中评估 KG2Cypher,其中短搜索式查询和模式释义导致语言接地困难。LoRA SFT 将广播节目查询的执行结果 F1 从 0.806 提升到 0.950,公司查询从 0.70 提升到 0.92。在 11 类场景中,KG2Cypher 实现了 95.2% 的精确匹配率、99.9% 的执行率和 0.964 的执行结果 F1。
KG2Cypher: 构建企业文本到Cypher系统的数据驱动管道
Minjun Choi1,† Yerin Kim2,† Junghyuk Seo2 Sujin Mo2 Hyemin Lee2 Youngjoong Ko1 ††footnotetext:通讯作者。
1成均馆大学
2NAVER
\{alswns078, lovekyll0\}@gmail\.com, yjko@skku\.edu
\{junghyuk\.seo, sujin\.mo, hmin\.lee\}@navercorp\.com
††footnotetext:本工作完成时 Minjun Choi 和 Yerin Kim 是 NAVER 的研究实习生。
## 1 引言
企业知识图谱(KG)存储结构化的业务知识,用于内部搜索、分析、问答等。例如,媒体 KG 可以将节目与其广播公司、类型、演员阵容和集数关联起来;公司 KG 可以将组织与其行业、创始人、上市交易所和财务属性关联起来。这些图谱非常有用,但大多数用户不知道存在哪些节点类型和关系类型,如何编写 Cypher 查询(以下简称 Cypher),或者哪些内部 ID 标识了图中的实体。这就产生了对自然语言界面的需求,使专家团队以外的用户也能使用企业 KG。
表1:说明性韩文文本到Cypher示例。英文翻译在括号中显示。由于底层企业KG和实体标识符是私有的,Cypher输出已被匿名化。
文本到Cypher的转换是一个受限的结构化查询生成任务。生成的查询必须选择有效的模式关系,构造图模式,绑定实体 URI,使用正确的字面子字段,并针对实时图数据库执行。表1 (https://arxiv.org/html/2606.27742#S1.T1) 以我们的韩国企业环境中的广播和公司查询为例说明了这些要求。这些示例展示了如何将用户表达式映射到实体 URI、模式关系、文字条件和可执行的 Cypher。用户可能编写短搜索式短语、省略参数、改变间距、混合韩文与音译或外来名称,并使用与模式关系名称不匹配的韩语释义。
这些限制使得数据构建成为核心挑战。最直接的解决方案是手动标注,但这在企业知识图谱(KG)环境中缺乏可扩展性,因为每个领域都有自己的节点类型、关系名称、实体标识符和文字约定。例如,广播节目的数据集不涵盖公司、体育队或节日。因此,为每个新领域手动构建自然语言和 Cypher 对都需要单独的标注任务。此外,使用强 LLM 的上下文学习是另一种解决方案。然而,在我们的实验中,仅基于提示的 gpt-oss-120B 模型通常能生成语法上可执行的 Cypher,但由于选择了错误的关系、幻觉了实体标识符或使用了错误的文字格式,它仍然返回错误的图结果。
我们的核心思想很简单:已经拥有 KG 的企业应该能够将 KG 本身重新用作监督源。我们提出 KG2Cypher,一个数据驱动的行业管道,实现了这一思想,用于构建企业文本到Cypher系统。在数据构建阶段,KG2Cypher 对图中出现的关系模式进行采样,执行这些模式以获得真实的子图,并使用返回的实体和文字构建可执行的 Cypher。然后,LLM 仅用于语言侧操作,包括释义、压缩查询生成和质量评判。这使得大部分符号操作自动化,并减少了从头开始手动构建文本-Cypher 对的需求。因此,人工努力更多地集中在验证和修订上,而不是初始数据创建。
在训练和服务阶段,KG2Cypher 将验证后的对转换为候选感知的 SFT 示例。提示包含问题、来自类模式的候选关系以及包含检索干扰项的实体候选,因此模型学习选择所需的关系和 URI。然后训练一个 LoRA 适配器,并在面向生产的推理管道中使用相同的提示结构进行服务。
我们在专有的韩国企业 KG 领域(包括广播和公司环境)上评估 KG2Cypher。尽管我们的实验使用了韩语查询,但该管道并非仅为韩语设计,因为关系采样、子图获取和规范 Cypher 构造仅在图结构和图值上运行。要将 KG2Cypher 应用于另一种企业语言,需要调整语言相关组件,包括问题多样化提示、评判提示和领域分类器。总体而言,实验表明仅靠执行有效性是不够的,因为仅基于提示的模型可以运行但返回错误结果。KG 接地 SFT 提高了企业特定的接地能力,而类条件模式提示避免了在我们的服务环境中进行关系优先检索。
参见图注
图1:KG2Cypher 概述。左:从图事实到验证的文本-Cypher 对的 KG 接地数据构建。右:候选感知 SFT 和类条件服务。示例已翻译,Cypher 已匿名化。
## 2 相关工作
#### 结构化查询生成。
数据库的自然语言界面作为结构化查询生成已得到长期研究。文本到SQL的基准测试(如 WikiSQL 和 Spider)定义了将用户问题映射到可执行 SQL 查询的任务(Zhong 等,2017 (https://arxiv.org/html/2606.27742#bib.bib1);Yu 等,2018 (https://arxiv.org/html/2606.27742#bib.bib2))。后来的方法研究模式链接、约束解码和 LLM 提示,以实现更可靠的查询生成(Wang 等,2020 (https://arxiv.org/html/2606.27742#bib.bib4);Scholak 等,2021 (https://arxiv.org/html/2606.27742#bib.bib3);Gao 等,2024 (https://arxiv.org/html/2606.27742#bib.bib5))。KGQA 数据集(如 WebQuestionsSP、LC-QuAD 和 GrailQA)也将自然语言问题映射到逻辑形式或图查询(Yih 等,2016 (https://arxiv.org/html/2606.27742#bib.bib7);Dubey 等,2019 (https://arxiv.org/html/2606.27742#bib.bib8);Gu 等,2021 (https://arxiv.org/html/2606.27742#bib.bib9))。这些工作建立了可执行结构化查询的评估实践。KG2Cypher 遵循这一传统,但目标是在属性图上使用 Cypher。系统还必须绑定私有实体 URI 并使用企业特定的关系名称。
#### 文本到 Cypher 和企业图设置。
Cypher 是一种属性图查询语言,用于工业图数据库中的表达性图模式匹配(Francis 等,2018 (https://arxiv.org/html/2606.27742#bib.bib10))。最近的文本到 Cypher 工作解决了公共数据和评估资源缺乏的问题。Neo4j Text2Cypher 数据集将公共示例整合到一个大型基准测试中(Ozsoy 等,2024 (https://arxiv.org/html/2606.27742#bib.bib17))。Auto-Cypher/SynthCypher 使用 LLM 监督的生成和验证来合成 Cypher 数据(Tiwari 等,2025 (https://arxiv.org/html/2606.27742#bib.bib16))。Mind the Query 强调使用图数据库和验证检查进行执行接地基准测试(Chauhan 等,2025 (https://arxiv.org/html/2606.27742#bib.bib18))。最近的多语言文本到 Cypher 工作也报告了跨语言的性能差距(Ozsoy 和 Tai, 2025 (https://arxiv.org/html/2606.27742#bib.bib19))。这些研究使得文本到 Cypher 在公共资源上更具可衡量性。KG2Cypher 解决了一个不同的行业问题:它为私有企业 KG(其数据、标识符、模式和检索 API 无法公开)构建数据、训练模型并支持部署。
## 3 方法论
### 3.1 任务定义
给定自然语言问题 q、关系候选 R 和实体候选 E,生成器模型 f_θ 生成可执行的 Cypher 查询 y:
y = f_θ(q, R, E). (1)
这个公式将监督微调(SFT)与部署对齐。生成器必须从检索到的候选中选择有效的模式元素,而不是从头生成。每个关系候选 r ∈ R 包含主语和宾语类别、谓词标识符和语言提示。每个实体候选 e ∈ E 包含内部 URI、显示名称和类别标签。
### 3.2 系统概览
图1 (https://arxiv.org/html/2606.27742#S1.F1) 展示了 KG2Cypher 的完整工作流程:KG 接地数据构建、候选感知 SFT 和类条件服务。关键设计选择是将符号查询构建与语言生成分离。KG2Cypher 使用确定性代码从图值构建 Cypher 目标,并使用 LLM 进行释义和验证。这减少了诸如不存在的关系、幻觉实体标识符以及无法执行的文字条件等失败。
### 3.3 谓词收集与过滤
该管道不是依赖静态模式规范,而是检查图实例以收集连接主语和宾语节点的主语-谓词-宾语(SPO)模式。对于广播节目类别,此步骤识别具有谓词标识符(如“broadcast_by”、“genre”和“number_of_episodes”)的活动关系,并记录每个宾语是实体还是文字。这确保后续查询基于观察到的图事实。基于规则的过滤移除元数据和非可搜索属性,如地理坐标、媒体 URL、社交媒体 ID 和系统字段。如果同一关系标识符的宾语具有等效的查询语义,则合并它们。
### 3.4 骨架采样与子图获取
过滤后的关系被组合成多条件查询骨架,其桶分布为 40/30/20/10,分别对应一、二、三和四关系结构。如果某个领域缺乏足够的关系,则丢弃骨架,并对尝试次数设置限制以防止冗余采样。每个骨架通过 LIMIT 1 查询针对 Memgraph 图数据库进行验证。对于每个有效骨架,管道最多采样 50 个匹配的子图。此限制防止高频图模式使数据集产生偏差,并为接地数据生成收集真实的实体 URI、文字和关系属性。
### 3.5 规范 Cypher 构建
KG2Cypher 为每个子图确定性构建规范目标 C_gold。实体节点通过 WHERE 子句中的唯一图标识符绑定,文字通过有效比较运算符 θ ∈ {=, >, <, ≥, ≤} 映射到模式属性。此阶段还创建分析中间形式 NL_analyzed 和基于模板的朴素陈述 NL_naive,与 C_gold 一起生成。这些同步视图暴露相同的查询语义,并使后续的 LLM 重写步骤锚定在已验证的图结构和文字约束上。附录H (https://arxiv.org/html/2606.27742#A8) 给出了这些表示的具体示例。
### 3.6 基于 LLM 的语言多样化
此阶段使用同步表示(C_gold、NL_analyzed、NL_naive)、本体约束和目标语言同义词映射作为输入,输入到 gpt-oss-120B。KG2Cypher 保持符号 Cypher 目标固定,仅使用 LLM 重写语言侧。这种设计减少了不支持的图结构和幻觉文字约束。
这种语言侧扩展与自指令(Wang 等,2023 (https://arxiv.org/html/2606.27742#bib.bib11))相关,但 KG2Cypher 在重写前固定符号 Cypher 目标。LLM 生成三类问题:保留术语的问题、五个释义以及针对浅层骨架(≤ 3 个连接)的压缩搜索式查询。对于数值和日期关系,确定性检查验证单位词和比较词是否与 Cypher 条件匹配,例如将“至少”映射到 ≥。
### 3.7 LLM 评判与人工验证
为了检测语义漂移,KG2Cypher 使用 gpt-oss-120B 对每个实例在 0/1/2 等级上评分,维度包括对 C_gold 的忠实度、目标语言流畅性和模式约束的完整性。该等级是一个简单的序数评分标准,用于将 LLM 评分与人工验证标签对齐。所有维度都通过的实例获得“pass”状态。不完美的行标记为“needs_review”,并路由到人工验证界面进行验证(保留)或修正(编辑)。
评判器基于人工分配的分数以及简短的注释(解释分数扣除的原因)从 200 个采样实例中进行校准。KG2Cypher 使用 gpt-oss-120B 根据这些注释自动修订评分提示。由于验证后的合成数据具有高分偏差和低方差,我们使用平均绝对误差(MAE)、相邻一致性和扣除捕捉率,而不是依赖方差的指标,这与 LLM-as-a-judge 工作的关注点一致(Zheng 等,2023 (https://arxiv.org/html/2606.27742#bib.bib20))。附录A (https://arxiv.org/html/2606.27742#A1) 说明了为什么单一指标不够充分。
### 3.8 候选感知 SFT 构建
在构建和验证阶段之后,KG2Cypher 将验证的文本-Cypher 对转换为遵循指令的 SFT 示例。每个输入包含问题、候选关系和候选实体,输出是黄金 Cypher。候选关系包括主语和宾语类别、谓词标识符和语言提示。候选实体包括 URI、名称、类别以及来自推理时实体 API 的检索干扰项。这匹配了推理时的提示,使模型暴露于检索噪声,并迫使其选择问题所需的关系和实体 URI。附录I (https://arxiv.org/html/2606.27742#A9) 给出了一个完整的匿名化示例。
### 3.9 类条件模式提示
先前的 KBQA 系统通常在逻辑形式生成之前检索候选关系。例如,SG-KBQA 使用基于 BERT 的交叉编码器对问题-关系对进行排序。相似文章
通过基于知识图谱的数据生成实现精确的文本到Cypher转换
本文提出了一种合成数据生成方法,用于微调小型LLM,将自然语言转换为属性图的Cypher查询,在实现本地部署和数据主权的同时,达到了与大型专有模型相竞争的性能。
我构建了一个开源知识图谱管道,结合混合检索以改进LLM多跳推理 [P]
一个开源的全栈管道,从原始文本构建知识图谱,使用混合搜索(密集向量+稀疏+图遍历)解决LLM中的多跳推理问题,并通过倒数排名融合和交叉编码器对结果进行重排序。
PIPE-Cypher: 面向文本到Cypher系统的企业级基准自动生成
PIPE-Cypher是一个管道,能够从实时属性图和种子查询中自动生成平衡的自然语言到Cypher基准,利用模式分析、反向查询接地和本地LLM评判等技术,创建具有区分性且与部署相关的基准。
增强元认知AI:基于图论的大语言模型富集的知识图谱填充
MetaKGEnrich是一个全自动流水线,使用图指标检测大语言模型应用中的知识缺口,检索网络证据,并在三个基准数据集上将答案质量提升80%-87%。
分享 KGC 2026 所有演示文稿。这是我参加过的任何会议中见过的生产级知识图谱系统最多的。[D]
本文分享了知识图谱大会(KGC)2026 的演示文稿,突显了企业部署生产级知识图谱用于推理和治理,而不仅仅是向量检索的趋势。