可执行模式合约：从自动摄取到多源检索

arXiv cs.CL 2026/06/05 04:00 论文

schema-discovery multi-source-retrieval knowledge-graph question-answering llm data-ingestion

摘要

本文提出一个系统，能够从原始多源数据中自动发现可执行模式，并将其用于知识图谱构建和查询时检索，在多个QA基准测试上优于基线方法。

arXiv:2606.05415v1 公告类型：新摘要：现实世界的数据涵盖表格、文档和半结构化文件，具有隐式语义。查询这些数据需要整合跨不一致模式和格式的证据，然而现有方法要么需要昂贵的手动工程，要么完全绕过结构。我们提出一个系统，能够从原始多源数据中自动发现可执行模式，并将其用作知识图谱构建和查询时检索的共享合约。一个封闭世界的字段目录将基于LLM的模式发现限制为已确认的字段；确定性结构分析推断身份键、外键和源层次结构；由此产生的模式驱动提取、去重和跨源链接，形成具有来源感知的知识图谱。在查询时，该模式（可选地通过单调协议扩展）条件化一个多工具代理，该代理在结构化查找、图遍历和向量搜索之间路由检索，返回带有可追溯引用的有依据答案。在使用相同LLM、数据和评估框架的受控零样本比较中，该系统在四个QA基准测试上优于仅检索和基于分解的基线，消融实验表明模式条件化路由、结构智能和模式引导构建各自贡献了性能提升。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:06

# 可执行模式契约：从自动摄入到多源检索

**来源：** https://arxiv.org/html/2606.05415

Padmaja Jonnalagedda, Yuguang Yao, Xiang Gao, Hilaf Hasson††††表示在Intuit AI Research期间完成的工作。现任职于Cohesity。,
Kamalika Das

Intuit AI Research

[email protected]

###### 摘要

现实世界的数据跨越表格、文档和半结构化文件，并带有隐含语义。查询这些数据需要跨不一致的模式和格式整合证据，然而现有方法要么需要昂贵的手动工程，要么完全绕过结构。我们提出一个系统，该系统从原始的多源数据自动发现一个可执行模式，并将其用作知识图谱构建和查询时检索的共享契约。一个封闭世界的字段目录将基于大语言模型的模式发现约束在经过验证的字段上；确定性结构分析推断身份键、外键和源层次结构；由此产生的模式驱动提取、去重和跨源链接，形成一个具有溯源感知的知识图谱。在查询时，该模式（可选地通过单调扩展协议进行扩展）调节一个多工具代理，在结构化查找、图谱遍历和向量检索之间路由检索任务，返回带有可溯源引用的有根据的答案。在受控的零样本比较中，使用相同的LLM、数据和评估工具集，该系统在四个问答基准测试上优于仅检索和基于分解的基线，消融实验表明，模式调节的路由、结构智能和模式引导的构建都为性能提升做出了贡献。

---

## 1 引言

大多数实用知识很少存在于单个数据库中：它散布在PDF、事务表、半结构化的JSON日志、内部维基以及带有不一致标识符和隐含语义的临时电子表格中（Chen等，2020年（https://arxiv.org/html/2606.05415#bib.bib6））。组织越来越依赖问答（QA）系统来从这种混合数据中提取价值（例如，“哪些产品是在公司X的2018年收购之后推出的，那一年的利润是多少？”）。虽然检索增强生成（RAG）适用于单文档查找，但在*跨源连接*、*多跳检索*以及需要*可审计溯源*的工作流中，它经常失败（Barnett等，2024年（https://arxiv.org/html/2606.05415#bib.bib28）；Liu等，2025年（https://arxiv.org/html/2606.05415#bib.bib29）；Phanse等，2025年（https://arxiv.org/html/2606.05415#bib.bib30））。在实践中，最严重的失败并非源于语言建模，而是源于结构缺失：系统无法可靠地对齐实体、遍历关系或在各源之间证明答案的合理性。

**数据到答案的自动化问题。** 我们研究在*无需手动模式设计或摄入*的情况下，对异构多源数据进行自配置、自扩展的QA。这个设定是非平稳的：源会变化，标识符会漂移，新的实体类型会出现，而QA必须保持低延迟、可控和可审计。四个瓶颈反复出现：(1) 领域专家必须为每个数据集预定义实体类型、关系和提取规则，并且随着源的发展重复这个过程；(2) 静态模式会过时，而完全开放式的方法会牺牲正确性或延迟；(3) 答案必须可追溯到源记录，这需要在整个提取、链接和检索过程中支持溯源；(4) 多源问题需要选择检索策略并通过可连接的标识符桥接源——如果没有明确的结构，路由是脆弱的。

轻量化模式的系统（“LLM + 向量检索”）减少了前期工作，但在跨源连接和基于溯源的多跳问答上失败。手动构建的知识图谱（KG）很精确，但在模式变化下不可扩展（Edge等，2024年（https://arxiv.org/html/2606.05415#bib.bib22））。此外，提取、链接和检索通常被孤立地优化，导致模式演化下的端到端正确性问题未得到解决。

**我们的方法。** 我们自动从异构源中发现一个统一的模式，并将其视为一个*可执行契约*，由离线摄入和在线QA共享——这样系统就可以决定在哪里查找，如何连接证据，以及何时不回答，在需要时在查询时扩展该模式。

（参见图注）
**图1：端到端管道。** 原始异构源（表格、JSON、文本）被分析并输入给自动模式生成器，生成一个封闭世界字段目录和统一的执行模式Σ。Σ驱动 (i) 模式引导的知识图谱摄入——提取、去重、跨源链接、溯源跟踪——进入一个类型化Neo4j图，以及 (ii) 一个模式引导的QA代理，在结构化查找、图遍历和向量检索之间路由查询，返回带有来源引用的有根据的答案。虚线路径表示可选的查询时扩展。

### 1.1 贡献

我们的总体贡献是一个围绕共享*可执行模式契约*的异构问答端到端公式：一个单一的归纳模式将LLM发现的结构扎根于观察到的字段，规定如何提取和链接数据，并向检索代理暴露相同的类型化词汇和链接路径。我们通过三个问题来评估这个公式：

**RQ1: 可执行模式发现。** *能否使LLM发现的模式在原始异构源上可执行？* 一个封闭世界字段目录要求LLM提出的属性、提取路径和关系链接字段引用经过验证的字段标识符；无效引用在执行前被拒绝或修复，将模式发现转化为一个经过验证的工件，驱动下游提取（第3.2节（https://arxiv.org/html/2606.05415#S3.SS2））。

**RQ2: 模式引导的构建。** *在摄入期间执行归纳模式是否改善了下游QA？* 移除结构智能会使EM下降2.1–6.8，F1下降高达10.0，即使相同的LLM和工具可用（第4.3节（https://arxiv.org/html/2606.05415#S4.SS3））。

**RQ3: 模式引导的检索。** *将归纳模式暴露给QA代理是否比通用的工具使用改善了检索？* 通用代理（ReAct, PlanAct）相对于RAG几乎没有改善（在BlendQA上提升+1.0–1.3 EM）；模式引导的代理提升了+10.2 EM。完整系统在所有四个基准测试上的受控方法中实现了最佳EM/F1（第4.3节（https://arxiv.org/html/2606.05415#S4.SS3））。我们还研究了单调查询时模式扩展作为模式演化的可选机制，并在BlendQA上使用GPT-4.1、Claude Haiku和Llama 3.3 70B进行了跨模型评估，在所有三个模型家族中发现了持续的增益（第4.4节（https://arxiv.org/html/2606.05415#S4.SS4））。

---

## 2 相关工作

我们研究*通用数据到答案自动化*：给定异构源，推断一个模式，用血缘摄入数据，并使用该模式来决定*在哪里查找*以及*如何连接证据*来回答查询。这涵盖了通常处理单个管道层或假设固定模式的相关工作流。

(a) **模式发现、KG构建和实体解析。** 文本模式归纳——概念分类法（Wu等，2012（https://arxiv.org/html/2606.05415#bib.bib2）），终身提取（Mitchell等，2018（https://arxiv.org/html/2606.05415#bib.bib3））——展示了归纳结构的价值，但仍然以文本为中心。最近的工作将LLM应用于异构KG之间的实体匹配和对齐（Wang等，2025（https://arxiv.org/html/2606.05415#bib.bib33））。我们的结构分析与经典的数据分析和模式匹配相关；与这些系统不同，我们将归纳结构用作基于LLM的摄入和检索路由的运行时控制平面，针对从原始数据进行模式*发现*和跨源*链接*，并以链接路径作为多跳QA的路由原语。

(b) **结构化与半结构化数据的自然语言接口。** Text-to-SQL（Yu等，2018（https://arxiv.org/html/2606.05415#bib.bib4）；Li等，2024（https://arxiv.org/html/2606.05415#bib.bib20））、组合式表格解析（Pasupat和Liang，2015（https://arxiv.org/html/2606.05415#bib.bib5））、HybridQA（Chen等，2020（https://arxiv.org/html/2606.05415#bib.bib6））以及新兴的Text-to-Cypher方向（Ozsoy等，2025（https://arxiv.org/html/2606.05415#bib.bib31）；Cazzaro等，2025（https://arxiv.org/html/2606.05415#bib.bib32））都假设已知且稳定的模式，并专注于在给定现有底层结构的情况下生成查询。我们的重点是互补的：随着源的变化，*自动化模式发现、链接和维护*。

(c) **检索增强生成和图基检索。** RAG（Lewis等，2020（https://arxiv.org/html/2606.05415#bib.bib1）；Gao等，2023（https://arxiv.org/html/2606.05415#bib.bib17））、密集检索（Karpukhin等，2020（https://arxiv.org/html/2606.05415#bib.bib7））、混合检索（Chen等，2024（https://arxiv.org/html/2606.05415#bib.bib18））、结构化KG检索（Sun等，2024（https://arxiv.org/html/2606.05415#bib.bib19））以及GraphRAG（Edge等，2024（https://arxiv.org/html/2606.05415#bib.bib22））都假设存在一个已有的索引或工程化的底层结构。我们相反地从*原始异构数据中通过模式归纳发现检索结构*，从而实现下游的RAG和图检索，无需重复手动配置。

(d) **工具使用和代理问答系统。** 使用工具的LLM（Schick等，2023（https://arxiv.org/html/2606.05415#bib.bib12）；Qin等，2024（https://arxiv.org/html/2606.05415#bib.bib21））和提示范式如ReAct（Yao等，2022（https://arxiv.org/html/2606.05415#bib.bib10））以及思维链（Wei等，2022（https://arxiv.org/html/2606.05415#bib.bib11））支持多步推理，但将工具和源选择留给模型。我们使用发现的模式作为*代理契约*，指导结构化查找、向量检索和图遍历之间的路由。

**最接近的比较。** *AtomR*（Xin等，2025（https://arxiv.org/html/2606.05415#bib.bib23））将推理分解为对异构证据的原子操作，但假设底层结构和模式是给定的；我们自动发现并执行该模式。*HippoRAG 2*（Gutiérrez等，2025（https://arxiv.org/html/2606.05415#bib.bib25））通过受记忆启发的图实现了强大的检索，但不对异构源执行自动模式归纳或查询时模式扩展。*GraphRAG*（Edge等，2024（https://arxiv.org/html/2606.05415#bib.bib22））为对索引文本进行检索构建社区摘要图；我们从原始异构数据归纳出具有溯源和外键结构的类型化跨源模式。

（参见图注）
**图2：自动模式生成：封闭世界字段目录 → 两遍语义发现 → 结构/跨源智能。**

---

## 3 技术方法

我们采用的各个组件——模式分析、基于LLM的提取、KG构建、向量检索——都是成熟的技术。我们的关键贡献在于它们的*耦合*：一个单一的归纳模式同时约束了提取的内容（封闭世界目录）、实体如何链接（结构智能）以及代理在哪里检索（模式调节的路由）。我们通过实证表明，完整的耦合系统优于移除模式引导、KG构建、结构智能或查询时扩展的变体（第4.3节（https://arxiv.org/html/2606.05415#S4.SS3））。

### 3.1 模式契约定义

令S = {S1, ..., Sm} 为异构数据源（表格、JSON文件、文本语料库），具有未知且可能重叠的模式。给定一个自然语言查询Q，目标是返回一个有根据的答案ŷ，并带有到原始记录的可选溯源踪迹。我们将其分解为三个子问题：

1.  **模式归纳。** 发现一个统一的模式Σ = (F, T, R, I)，其中F是一个封闭世界字段目录，T是一组实体类型，带有属性映射A: t ↦ 2^F（对于每个t ∈ T），R是关系类型，I是结构智能（身份键、外键、源层次结构、提取路径）。

2.  **模式引导的构建。** 使用Σ作为控制平面，构建一个具有溯源感知的知识图谱G = (V, E, π)，其中V包含类型化实体，E包含类型化关系，π: V ∪ E → 2^S 将每个元素映射到其源记录。

3.  **模式引导的问答。** 给定Q，可选地扩展 Σ → Σ′，然后使用Σ′选择并组合检索工具 {SchemaLookup, GraphTraverse, VectorRAG}，以产生带有引用的ŷ，π(ŷ) ⊆ S。

图1（https://arxiv.org/html/2606.05415#S1.F1）显示了管道。关键洞见是*一个可执行模式Σ*作为共享契约跨越所有三个阶段：它约束了LLM可以引用什么（封闭世界目录），决定了实体如何被提取和链接（控制平面），并指导了代理在查询时在哪里查找（路由）。

##### 核心工件。
- (i) **模式Σ（YAML）。** 一个版本化的工件，包含带有字段统计信息的字段目录F、基于F的实体/关系定义、结构智能I以及跨源链接规范。
- (ii) **KG + 证据存储G。** 一个Neo4j属性图，包含类型化的域实体和SourceRecord节点；所有元素通过DERIVED_FROM边（π）连接到源记录。非结构化证据被分块并索引用于密集检索。

### 3.2 从原始源诱导契约

给定异构源S，模式归纳必须发现实体类型、属性映射和跨源关系，而无需手动标注。两个挑战推动了我们的设计：(1) 基于LLM的发现会产生数据中不存在的字段，产生不可执行的模式；(2) 结构模式（外键、基数、身份键）在语义推断时不可靠。我们通过*封闭世界扎根*解决这两个挑战，将所有LLM输出限制在已验证的数据字段上，并通过*统计优先于语义*的顺序，将结构推断委托给确定性方法，仅保留LLM调用用于语义发现。该管道如图2（https://arxiv.org/html/2606.05415#S2.F2）所示。伪代码和细节在附录A（https://arxiv.org/html/2606.05415#A1）中提供。

(i) **封闭世界约束的发现。** 我们对每个源进行分析并构建一个*字段目录*F_S，枚举每个可观察的字段，并带有基于稳定哈希的标识符、数据类型、空率以及示例值。LLM只能引用F_S中的标识符；每个输出通过以下方式验证：
FieldValidity = |{ref. IDs} ∩ F_S| / |{ref. IDs}|   (1)
FieldValidity < 1.0的方案被标记为需要修复。这防止了虚构的*字段引用*，但不排除不正确的实体类型或虚假的关系。

可执行模式合约：从自动摄取到多源检索

相似文章

知即建构：面向智能体记忆的模式约束生成

利用生成式AI拓宽交通安全数据获取渠道：一种基于模式框架的空间自然语言查询方法

用于模式约束临床信息抽取的检索增强型大语言模型

使用知识图谱嵌入的自动化大数据质量评估

从执行结果自举文本到SQL的语义层

提交意见反馈