KG2Cypher：用于构建企业级文本到Cypher系统的数据驱动管道

arXiv cs.CL 2026/06/29 04:00 论文

text-to-cypher enterprise-knowledge-graph data-centric-pipeline llm lora sft korean

摘要

KG2Cypher 提出了一种数据驱动管道，利用现有知识图谱构建企业级文本到Cypher系统。它使用LLM生成自然语言问题-Cypher对，并通过LLM评估器和人工审核进行验证，通过基于LoRA的微调在韩语企业数据集上取得了显著的性能提升。

arXiv:2606.27742v1 公告类型：新摘要：企业知识图谱（KG）越来越多地用于内部搜索、分析和问答，但为私有企业图构建自然语言接口仍然成本高昂。我们提出KG2Cypher，一种从现有知识图谱构建企业级文本到Cypher系统的数据驱动管道。KG2Cypher首先从观察到的图事实构建可执行的Cypher查询，然后使用LLM生成其关联的自然语言问题。产生的文本-Cypher对通过LLM评估器和人工验证进行验证，并转换为候选感知的SFT数据。训练好的生成器通过类别条件模式提示、实体检索和基于LoRA的推理提供服务。我们在韩语企业场景中评估了KG2Cypher，其中短搜索式查询和模式释义使得语言落地困难。LoRA SFT将执行结果F1从0.806提升到0.950（广播节目查询），从0.70提升到0.92（公司查询）。在11类设置中，KG2Cypher实现了95.2%的精确匹配、99.9%的执行率和0.964的执行结果F1。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:24

# KG2Cypher: 构建企业文本到Cypher系统的数据驱动管道
来源: https://arxiv.org/html/2606.27742
Minjun Choi1,† Yerin Kim2,† Junghyuk Seo2 Sujin Mo2 Hyemin Lee2 Youngjoong Ko1  
1成均馆大学  
2NAVER  
\{alswns078, lovekyll0\}@gmail\.com, yjko@skku\.edu  
\{junghyuk\.seo, sujin\.mo, hmin\.lee\}@navercorp\.com

###### 摘要

企业知识图谱（KG）越来越多地用于内部搜索、分析和问答，但为私有企业图构建自然语言界面仍然成本高昂。我们提出 KG2Cypher，一种基于现有KG构建企业文本到Cypher系统的数据驱动管道。KG2Cypher 首先根据观察到的图事实构造可执行的 Cypher 查询，然后使用 LLM 生成其关联的自然语言问题。生成的文本-Cypher 对通过 LLM 评判和人工验证进行校验，并转换为候选感知的 SFT 数据。训练后的生成器结合了类条件模式提示、实体检索和基于 LoRA 的推理。我们在韩国企业环境中评估 KG2Cypher，其中短搜索式查询和模式释义导致语言接地困难。LoRA SFT 将广播节目查询的执行结果 F1 从 0.806 提升到 0.950，公司查询从 0.70 提升到 0.92。在 11 类场景中，KG2Cypher 实现了 95.2% 的精确匹配率、99.9% 的执行率和 0.964 的执行结果 F1。

KG2Cypher: 构建企业文本到Cypher系统的数据驱动管道

Minjun Choi1,† Yerin Kim2,† Junghyuk Seo2 Sujin Mo2 Hyemin Lee2 Youngjoong Ko1 ††footnotetext:通讯作者。  
1成均馆大学  
2NAVER  
\{alswns078, lovekyll0\}@gmail\.com, yjko@skku\.edu  
\{junghyuk\.seo, sujin\.mo, hmin\.lee\}@navercorp\.com

††footnotetext:本工作完成时 Minjun Choi 和 Yerin Kim 是 NAVER 的研究实习生。

## 1 引言

企业知识图谱（KG）存储结构化的业务知识，用于内部搜索、分析、问答等。例如，媒体 KG 可以将节目与其广播公司、类型、演员阵容和集数关联起来；公司 KG 可以将组织与其行业、创始人、上市交易所和财务属性关联起来。这些图谱非常有用，但大多数用户不知道存在哪些节点类型和关系类型，如何编写 Cypher 查询（以下简称 Cypher），或者哪些内部 ID 标识了图中的实体。这就产生了对自然语言界面的需求，使专家团队以外的用户也能使用企业 KG。

表1：说明性韩文文本到Cypher示例。英文翻译在括号中显示。由于底层企业KG和实体标识符是私有的，Cypher输出已被匿名化。

文本到Cypher的转换是一个受限的结构化查询生成任务。生成的查询必须选择有效的模式关系，构造图模式，绑定实体 URI，使用正确的字面子字段，并针对实时图数据库执行。表1 (https://arxiv.org/html/2606.27742#S1.T1) 以我们的韩国企业环境中的广播和公司查询为例说明了这些要求。这些示例展示了如何将用户表达式映射到实体 URI、模式关系、文字条件和可执行的 Cypher。用户可能编写短搜索式短语、省略参数、改变间距、混合韩文与音译或外来名称，并使用与模式关系名称不匹配的韩语释义。

这些限制使得数据构建成为核心挑战。最直接的解决方案是手动标注，但这在企业知识图谱（KG）环境中缺乏可扩展性，因为每个领域都有自己的节点类型、关系名称、实体标识符和文字约定。例如，广播节目的数据集不涵盖公司、体育队或节日。因此，为每个新领域手动构建自然语言和 Cypher 对都需要单独的标注任务。此外，使用强 LLM 的上下文学习是另一种解决方案。然而，在我们的实验中，仅基于提示的 gpt-oss-120B 模型通常能生成语法上可执行的 Cypher，但由于选择了错误的关系、幻觉了实体标识符或使用了错误的文字格式，它仍然返回错误的图结果。

我们的核心思想很简单：已经拥有 KG 的企业应该能够将 KG 本身重新用作监督源。我们提出 KG2Cypher，一个数据驱动的行业管道，实现了这一思想，用于构建企业文本到Cypher系统。在数据构建阶段，KG2Cypher 对图中出现的关系模式进行采样，执行这些模式以获得真实的子图，并使用返回的实体和文字构建可执行的 Cypher。然后，LLM 仅用于语言侧操作，包括释义、压缩查询生成和质量评判。这使得大部分符号操作自动化，并减少了从头开始手动构建文本-Cypher 对的需求。因此，人工努力更多地集中在验证和修订上，而不是初始数据创建。

在训练和服务阶段，KG2Cypher 将验证后的对转换为候选感知的 SFT 示例。提示包含问题、来自类模式的候选关系以及包含检索干扰项的实体候选，因此模型学习选择所需的关系和 URI。然后训练一个 LoRA 适配器，并在面向生产的推理管道中使用相同的提示结构进行服务。

我们在专有的韩国企业 KG 领域（包括广播和公司环境）上评估 KG2Cypher。尽管我们的实验使用了韩语查询，但该管道并非仅为韩语设计，因为关系采样、子图获取和规范 Cypher 构造仅在图结构和图值上运行。要将 KG2Cypher 应用于另一种企业语言，需要调整语言相关组件，包括问题多样化提示、评判提示和领域分类器。总体而言，实验表明仅靠执行有效性是不够的，因为仅基于提示的模型可以运行但返回错误结果。KG 接地 SFT 提高了企业特定的接地能力，而类条件模式提示避免了在我们的服务环境中进行关系优先检索。

参见图注  
图1：KG2Cypher 概述。左：从图事实到验证的文本-Cypher 对的 KG 接地数据构建。右：候选感知 SFT 和类条件服务。示例已翻译，Cypher 已匿名化。

## 2 相关工作

#### 结构化查询生成。

数据库的自然语言界面作为结构化查询生成已得到长期研究。文本到SQL的基准测试（如 WikiSQL 和 Spider）定义了将用户问题映射到可执行 SQL 查询的任务（Zhong 等，2017 (https://arxiv.org/html/2606.27742#bib.bib1)；Yu 等，2018 (https://arxiv.org/html/2606.27742#bib.bib2)）。后来的方法研究模式链接、约束解码和 LLM 提示，以实现更可靠的查询生成（Wang 等，2020 (https://arxiv.org/html/2606.27742#bib.bib4)；Scholak 等，2021 (https://arxiv.org/html/2606.27742#bib.bib3)；Gao 等，2024 (https://arxiv.org/html/2606.27742#bib.bib5)）。KGQA 数据集（如 WebQuestionsSP、LC-QuAD 和 GrailQA）也将自然语言问题映射到逻辑形式或图查询（Yih 等，2016 (https://arxiv.org/html/2606.27742#bib.bib7)；Dubey 等，2019 (https://arxiv.org/html/2606.27742#bib.bib8)；Gu 等，2021 (https://arxiv.org/html/2606.27742#bib.bib9)）。这些工作建立了可执行结构化查询的评估实践。KG2Cypher 遵循这一传统，但目标是在属性图上使用 Cypher。系统还必须绑定私有实体 URI 并使用企业特定的关系名称。

#### 文本到 Cypher 和企业图设置。

Cypher 是一种属性图查询语言，用于工业图数据库中的表达性图模式匹配（Francis 等，2018 (https://arxiv.org/html/2606.27742#bib.bib10)）。最近的文本到 Cypher 工作解决了公共数据和评估资源缺乏的问题。Neo4j Text2Cypher 数据集将公共示例整合到一个大型基准测试中（Ozsoy 等，2024 (https://arxiv.org/html/2606.27742#bib.bib17)）。Auto-Cypher/SynthCypher 使用 LLM 监督的生成和验证来合成 Cypher 数据（Tiwari 等，2025 (https://arxiv.org/html/2606.27742#bib.bib16)）。Mind the Query 强调使用图数据库和验证检查进行执行接地基准测试（Chauhan 等，2025 (https://arxiv.org/html/2606.27742#bib.bib18)）。最近的多语言文本到 Cypher 工作也报告了跨语言的性能差距（Ozsoy 和 Tai, 2025 (https://arxiv.org/html/2606.27742#bib.bib19)）。这些研究使得文本到 Cypher 在公共资源上更具可衡量性。KG2Cypher 解决了一个不同的行业问题：它为私有企业 KG（其数据、标识符、模式和检索 API 无法公开）构建数据、训练模型并支持部署。

## 3 方法论

### 3.1 任务定义

给定自然语言问题 q、关系候选 R 和实体候选 E，生成器模型 f_θ 生成可执行的 Cypher 查询 y：

y = f_θ(q, R, E).  (1)

这个公式将监督微调（SFT）与部署对齐。生成器必须从检索到的候选中选择有效的模式元素，而不是从头生成。每个关系候选 r ∈ R 包含主语和宾语类别、谓词标识符和语言提示。每个实体候选 e ∈ E 包含内部 URI、显示名称和类别标签。

### 3.2 系统概览

图1 (https://arxiv.org/html/2606.27742#S1.F1) 展示了 KG2Cypher 的完整工作流程：KG 接地数据构建、候选感知 SFT 和类条件服务。关键设计选择是将符号查询构建与语言生成分离。KG2Cypher 使用确定性代码从图值构建 Cypher 目标，并使用 LLM 进行释义和验证。这减少了诸如不存在的关系、幻觉实体标识符以及无法执行的文字条件等失败。

### 3.3 谓词收集与过滤

该管道不是依赖静态模式规范，而是检查图实例以收集连接主语和宾语节点的主语-谓词-宾语（SPO）模式。对于广播节目类别，此步骤识别具有谓词标识符（如“broadcast_by”、“genre”和“number_of_episodes”）的活动关系，并记录每个宾语是实体还是文字。这确保后续查询基于观察到的图事实。基于规则的过滤移除元数据和非可搜索属性，如地理坐标、媒体 URL、社交媒体 ID 和系统字段。如果同一关系标识符的宾语具有等效的查询语义，则合并它们。

### 3.4 骨架采样与子图获取

过滤后的关系被组合成多条件查询骨架，其桶分布为 40/30/20/10，分别对应一、二、三和四关系结构。如果某个领域缺乏足够的关系，则丢弃骨架，并对尝试次数设置限制以防止冗余采样。每个骨架通过 LIMIT 1 查询针对 Memgraph 图数据库进行验证。对于每个有效骨架，管道最多采样 50 个匹配的子图。此限制防止高频图模式使数据集产生偏差，并为接地数据生成收集真实的实体 URI、文字和关系属性。

### 3.5 规范 Cypher 构建

KG2Cypher 为每个子图确定性构建规范目标 C_gold。实体节点通过 WHERE 子句中的唯一图标识符绑定，文字通过有效比较运算符 θ ∈ {=, >, <, ≥, ≤} 映射到模式属性。此阶段还创建分析中间形式 NL_analyzed 和基于模板的朴素陈述 NL_naive，与 C_gold 一起生成。这些同步视图暴露相同的查询语义，并使后续的 LLM 重写步骤锚定在已验证的图结构和文字约束上。附录H (https://arxiv.org/html/2606.27742#A8) 给出了这些表示的具体示例。

### 3.6 基于 LLM 的语言多样化

此阶段使用同步表示（C_gold、NL_analyzed、NL_naive）、本体约束和目标语言同义词映射作为输入，输入到 gpt-oss-120B。KG2Cypher 保持符号 Cypher 目标固定，仅使用 LLM 重写语言侧。这种设计减少了不支持的图结构和幻觉文字约束。

这种语言侧扩展与自指令（Wang 等，2023 (https://arxiv.org/html/2606.27742#bib.bib11)）相关，但 KG2Cypher 在重写前固定符号 Cypher 目标。LLM 生成三类问题：保留术语的问题、五个释义以及针对浅层骨架（≤ 3 个连接）的压缩搜索式查询。对于数值和日期关系，确定性检查验证单位词和比较词是否与 Cypher 条件匹配，例如将“至少”映射到 ≥。

### 3.7 LLM 评判与人工验证

为了检测语义漂移，KG2Cypher 使用 gpt-oss-120B 对每个实例在 0/1/2 等级上评分，维度包括对 C_gold 的忠实度、目标语言流畅性和模式约束的完整性。该等级是一个简单的序数评分标准，用于将 LLM 评分与人工验证标签对齐。所有维度都通过的实例获得“pass”状态。不完美的行标记为“needs_review”，并路由到人工验证界面进行验证（保留）或修正（编辑）。

评判器基于人工分配的分数以及简短的注释（解释分数扣除的原因）从 200 个采样实例中进行校准。KG2Cypher 使用 gpt-oss-120B 根据这些注释自动修订评分提示。由于验证后的合成数据具有高分偏差和低方差，我们使用平均绝对误差（MAE）、相邻一致性和扣除捕捉率，而不是依赖方差的指标，这与 LLM-as-a-judge 工作的关注点一致（Zheng 等，2023 (https://arxiv.org/html/2606.27742#bib.bib20)）。附录A (https://arxiv.org/html/2606.27742#A1) 说明了为什么单一指标不够充分。

### 3.8 候选感知 SFT 构建

在构建和验证阶段之后，KG2Cypher 将验证的文本-Cypher 对转换为遵循指令的 SFT 示例。每个输入包含问题、候选关系和候选实体，输出是黄金 Cypher。候选关系包括主语和宾语类别、谓词标识符和语言提示。候选实体包括 URI、名称、类别以及来自推理时实体 API 的检索干扰项。这匹配了推理时的提示，使模型暴露于检索噪声，并迫使其选择问题所需的关系和实体 URI。附录I (https://arxiv.org/html/2606.27742#A9) 给出了一个完整的匿名化示例。

### 3.9 类条件模式提示

先前的 KBQA 系统通常在逻辑形式生成之前检索候选关系。例如，SG-KBQA 使用基于 BERT 的交叉编码器对问题-关系对进行排序。

KG2Cypher：用于构建企业级文本到Cypher系统的数据驱动管道

相似文章

通过基于知识图谱的数据生成实现精确的文本到Cypher转换

我构建了一个开源知识图谱管道，结合混合检索以改进LLM多跳推理 [P]

PIPE-Cypher: 面向文本到Cypher系统的企业级基准自动生成

增强元认知AI：基于图论的大语言模型富集的知识图谱填充

分享 KGC 2026 所有演示文稿。这是我参加过的任何会议中见过的生产级知识图谱系统最多的。[D]

提交意见反馈