GRACE-RAG:规范证据合成的受控检索架构,支持在封闭领域机构环境中轻量化部署
摘要
本文介绍了 GRACE-RAG,这是一种检索受控、图增强的 RAG 架构,它将结构推理从生成过程外化到结构化的检索层,从而能够在封闭领域的机构环境中实现轻量化部署。实验表明,在中规模模型上质量提升高达 20%,同时减少了计算和延迟开销。
arXiv:2607.00013v1 公告类型:交叉
摘要:检索增强生成(RAG)系统广泛用于机构问答场景,其中回答必须基于权威文档(Gao et al., 2023)。在实体密集的领域,相关信息分散在异构文档中,仅依赖向量检索往往产生零散的证据,并增加对推理时推理的依赖(Zhao et al., 2024)。本文介绍了 GRACE-RAG,这是一种检索受控、图增强的 RAG 架构,它将结构推理从生成阶段外化到结构化的检索层,离线解决结构歧义,从而能够在针对封闭领域机构词汇校准的自托管轻量级模型上进行部署。在三种模型容量(Mistral 24B、GPT OSS 120B 和 Gemini 2.5 Flash)上的实验表明,完整性、深度和预期覆盖率方面持续改进,在中规模模型下整体质量提升高达 20%,表明检索架构比模型规模更能主导结构质量,在减少计算和延迟开销的同时无需依赖专有系统。
查看缓存全文
缓存时间: 2026/07/02 05:41
# 受控检索架构用于规范证据合成,在封闭域机构环境中实现轻量化部署 来源:https://arxiv.org/html/2607.00013 Aman Kumar 印度国家支付公司 Prashant Devadiga 印度国家支付公司 ###### 摘要 检索增强生成(RAG)系统广泛应用于机构问答场景,其中回答必须基于权威文档进行事实支撑(Gao等人,2023 (https://arxiv.org/html/2607.00013#bib.bib1))。在实体密集的领域中,相关信息分散于异构文档,仅靠向量检索往往产生碎片化证据,并增加对推理阶段推理的依赖(Zhao等人,2024 (https://arxiv.org/html/2607.00013#bib.bib2))。本文提出GRACE-RAG,一种受控检索、图增强的RAG架构,将结构化推理从生成阶段外部化至结构化的检索层,以离线方式解决结构歧义问题,从而能够部署在针对封闭域机构词汇调优的自托管轻量模型上。跨三个模型容量(Mistral 24B、GPT OSS 120B 和 Gemini 2.5 Flash)的实验表明,在完整性、深度和预期覆盖率方面均有持续改进,中规模模型整体质量提升可达20%,表明检索架构主导结构质量优于模型规模,从而降低计算和延迟开销,无需依赖专有系统。¹¹¹预印本 ## 1 引言 机构问答系统面临的约束与开放域对话助手有本质区别(Peng等人,2024 (https://arxiv.org/html/2607.00013#bib.bib4);Lund,2025 (https://arxiv.org/html/2607.00013#bib.bib19))。此类环境中的查询经常涉及领域特定实体、操作限制、资格规则或条件工作流,其相关信息分布于异构文档中(Xu等人,2024 (https://arxiv.org/html/2607.00013#bib.bib13))。 检索增强生成(RAG)将语言模型输出锚定在外部知识源上(Gao等人,2023 (https://arxiv.org/html/2607.00013#bib.bib1)),但在实体密集的机构语料库中,仅靠语义邻近性是不够的,因为查询可能通过隐式关系依赖跨越多个文档(Lewis等人,2020 (https://arxiv.org/html/2607.00013#bib.bib6))。 为解决这些限制,许多系统引入提示级编排或基于智能体的控制流(Gupta等人,2024 (https://arxiv.org/html/2607.00013#bib.bib12)),这增加了延迟和计算成本,并且依赖专有模型,这些模型优先考虑跨域泛化,却牺牲了领域特定术语的精确性(Arslan,2024 (https://arxiv.org/html/2607.00013#bib.bib7))。 本研究采取替代视角:结构歧义应在生成前解决,语言模型应仅限于合成证据,而非执行隐式结构推理(Cheng等人,2025 (https://arxiv.org/html/2607.00013#bib.bib8))。因此,我们提出GRACE-RAG,一种受控检索的RAG架构,将实体归一化、关系建模和语义边界对齐外部化至离线结构制造流水线中。在线推理期间,混合检索在双重嵌入面上操作——内容块和关系摘要——允许在生成之前对关系假设进行排序和验证(Gupta等人,2024 (https://arxiv.org/html/2607.00013#bib.bib12);Wan等人,2025 (https://arxiv.org/html/2607.00013#bib.bib10))。 本文的贡献有三方面: - • 我们提出GRACE-RAG,一种受控检索的RAG架构,通过离线知识构建和有界混合检索,将结构推理从生成过程中解耦。 - • 我们提出一种双表面检索机制,其中关系摘要被独立嵌入和索引,实现关系验证和图引导扩展,无需不受控制的遍历。 - • 我们通过实验证明,具有规范证据结构的受控检索能够带来持续的结构质量提升,从而能够实际转向自托管轻量模型,同时显著降低计算成本和运营开销。 领域文档 → 语义分块 → 实体与关系抽取 → 实体规范化 → 图构建 + 双重嵌入 → 离线流水线:结构制造 用户查询 → 查询处理(类型化 + 分解) → 混合检索 → 全局重排序 → LLM生成(仅证据合成) → 在线流水线:受控检索推理 检索工件边界 图1:离线-在线架构分离。结构歧义在离线结构制造过程中解决,而在线推理在生成前执行有界混合检索。 ## 2 相关工作 ### 2.1 基于向量的检索增强生成 基于向量的检索增强生成(RAG)已成为将语言模型输出锚定在外部知识源的主导范式(Gao等人,2023 (https://arxiv.org/html/2607.00013#bib.bib1))。当相关信息局部化且与用户查询语义对齐时,该方法效果显著。 然而,在实体密集的机构语料库中,语义邻近性本身可能不足以捕捉相关性(Xu等人,2024 (https://arxiv.org/html/2607.00013#bib.bib13))。回答单个查询所需的信息可能分布在多个文档中,通过关系依赖隐式关联,或以异构表面形式表达。在这些条件下,检索往往产生碎片化上下文,增加对语言模型内部推理阶段推理的依赖(Gupta等人,2024 (https://arxiv.org/html/2607.00013#bib.bib12))。 ### 2.2 基于图的检索增强生成 基于图的RAG系统通过从抽取的实体和关系构建的知识图引入显式关系结构(Peng等人,2024 (https://arxiv.org/html/2607.00013#bib.bib4))。图增强可以改善多跳推理,并在关系结构核心的领域提升上下文完整性(Mavromatis等人,2025 (https://arxiv.org/html/2607.00013#bib.bib20))。 尽管有这些优势,实际实现常常面临实体碎片化、抽取噪声以及遍历深度浅等问题(Knollmeyer等人,2025 (https://arxiv.org/html/2607.00013#bib.bib16))。当实体表面形式未归一化时,结构等价的概念可能表示为不同节点,降低图连通性和召回率。此外,从图获取的上下文常常被附加到向量检索文本之后,而非集成在统一的排序框架内(Zhu等人,2025 (https://arxiv.org/html/2607.00013#bib.bib5))。结果,结构信号在检索阶段决策中可能未被充分利用。 ### 2.3 混合检索架构 混合检索架构结合向量相似性搜索与基于图的扩展,以平衡语义相关性和关系感知(Wan等人,2025 (https://arxiv.org/html/2607.00013#bib.bib10))。在许多现有系统中,从向量搜索和图遍历获得的上下文在生成前被合并或拼接(Linders等人,2025 (https://arxiv.org/html/2607.00013#bib.bib17))。虽然这种方法可以增加覆盖率,但集成通常发生在上下文层面而非检索排序层面。因此,语言模型负责在生成过程中调和异构证据(Cheng等人,2025 (https://arxiv.org/html/2607.00013#bib.bib8))。 此外,混合设计通常对实体规范化、受控遍历或有界推理复杂度提供的机制有限(Zhu等人,2025 (https://arxiv.org/html/2607.00013#bib.bib5))。没有显式的结构约束,答案质量的提升可能严重依赖于提示设计或模型容量,而非检索架构本身。 ### 2.4 模型中心 vs 架构中心范式 大语言模型的最新进展导致一种以模型为中心的RAG有效性观点,其中性能提升常归因于模型规模扩大、上下文窗口扩展或复杂提示编排(Gao等人,2023 (https://arxiv.org/html/2607.00013#bib.bib1))。多阶段路由和基于智能体的流水线进一步增加了推理阶段复杂度以追求更好的覆盖率(Gupta等人,2024 (https://arxiv.org/html/2607.00013#bib.bib12))。尽管这些方法可以带来实证提升,但也增加了延迟、运营成本,以及对专有系统的依赖(Arslan,2024 (https://arxiv.org/html/2607.00013#bib.bib7))。 ## 3 方法 ### 3.1 指导原则 GRACE-RAG 架构围绕三个指导原则设计: 1. 1. 结构歧义在离线阶段解决:实体等价性、关系依赖和语义边界被外部化为在推理前构建的检索工件,而非在生成时隐式解决(Knollmeyer等人,2025 (https://arxiv.org/html/2607.00013#bib.bib16))。 2. 2. 检索控制和约束生成:通过固定操作序列的结构化检索确定相关性决策(Wan等人,2025 (https://arxiv.org/html/2607.00013#bib.bib10)),将语言模型限制为对精心筛选的上下文进行证据合成,从而最小化潜在推理并降低对模型规模的敏感性。 3. 3. 封闭域的精确性是检索属性,而非模型属性:机构术语的忠实度编码在检索工件中,而不是委派给生成模型的能力,从而能在自托管轻量模型上部署,同时降低计算和运营开销(Arslan,2024 (https://arxiv.org/html/2607.00013#bib.bib7);Wan等人,2025 (https://arxiv.org/html/2607.00013#bib.bib10))。 ### 3.2 离线结构制造 离线流水线(如图1所示 (https://arxiv.org/html/2607.00013#S1.F1))将原始机构文档转换为结构化检索工件。所有计算密集型和领域特定的推理在此阶段解决,以最小化在线复杂度。 #### 3.2.1 语料特征 实验评估在大规模机构文档语料库上进行,该语料库具有高实体密度,频繁引用操作参数、参与者和条件约束。语料配置总结于表1 (https://arxiv.org/html/2607.00013#S3.T1)。 表1:实验语料特征 #### 3.2.2 LLM辅助语义分块 文档分割被视为语义对齐问题,而非固定窗口分词任务(Zhao等人,2024 (https://arxiv.org/html/2607.00013#bib.bib2))。一个LLM辅助的预处理阶段将文档重构为与概念边界对齐的上下文保留片段,例如定义、约束、程序步骤和资格条件(Zhao等人,2024 (https://arxiv.org/html/2607.00013#bib.bib2))。这减少了语义碎片化,并在不增加上下文大小的情况下提高了检索精度(Cheng等人,2025 (https://arxiv.org/html/2607.00013#bib.bib8))。 #### 3.2.3 关系抽取与类型化 每个片段经过处理,利用基于LLM的信息抽取阶段抽取实体和类型化关系(Han等人,2024 (https://arxiv.org/html/2607.00013#bib.bib15))。关系捕捉依赖关系,如资格约束、程序顺序、交易限额和政策适用范围。 抽取的关系被归类为粗略的语义类别(例如,交易类、合规类、政策驱动类)。这些类别在在线推理中充当检索先验,而非严格的本体约束,从而支持意图对齐的过滤。 例如,句子“UPI Lite 交易上限为每笔500卢比”提取出三元组:(UPI Lite, per_txn_limit_500, 交易限额),属于“限额”类别。 #### 3.2.4 双重检索索引的构建 离线流水线构建两个独立的嵌入索引:一个基于语义对齐的文档片段,另一个基于抽取的关系摘要(Han等人,2024 (https://arxiv.org/html/2607.00013#bib.bib15))。每个识别到的关系被浓缩为单句语义表示,并与来源片段分开嵌入(Wan等人,2025 (https://arxiv.org/html/2607.00013#bib.bib10))。这种设计允许通过向量相似性直接对关系假设进行评分和排序,无需在生成阶段进行隐式结构推理(Linders等人,2025 (https://arxiv.org/html/2607.00013#bib.bib17))。 片段嵌入 → 向量搜索 关系摘要 → 关系相似性搜索 → 全局重排序 图2:双重检索表面。片段嵌入和关系摘要嵌入被独立索引,并在生成前通过全局重排序统一。 #### 3.2.5 实体规范化与图致密化 原始实体抽取会导致表面形式变异和结构碎片。为解决此问题,实体通过嵌入相似性进行分组,并通过LLM辅助确认来验证规范等价性(Zhu等人,2025 (https://arxiv.org/html/2607.00013#bib.bib5))。 例如,安全凭证变体如“UPI PIN”、“PIN”、“UPI Security PIN”、“4-digit PIN”被合并为单一规范实体表示(“UPI PIN”)。类似地,组织引用如“Board of Directors”、“Director’s Meeting”、“Board Decision”被归一化为统一的结构实体(“Board”)。这些转换在保留关系语义的同时减少了冗余节点。图3 (https://arxiv.org/html/2607.00013#S3.F3) 展示了这种结构转换,对比了碎片化实体空间与规范化后的图。 该过程减少了实体碎片化,提高了平均节点度,从而在有界遍历下提升了关系召回率。目标不仅是归一化,更是知识图的拓扑致密化。 表2 (https://arxiv.org/html/2607.00013#S3.T2) 总结了此过程的定性影响。 表2:实体规范化影响 UPI PIN PIN UPI Lite 安全措施 4-digit 认证 交易限额 碎片化实体空间 UPI PIN (PIN) UPI Lite 安全措施 4-digit 认证 交易限额 规范化图 图3:实体碎片化 vs 规范整合。规范化合并语义等价的实体,增加节点度和结构连通性。 #### 3.2.6 图社区检测与结构信号 除了实体规范化,知识图的结构属性还通过社区检测算法(包括Louvain和Leiden模块度优化)进行分析(Peng等人,2024 (https://arxiv.org/html/2607.00013#bib.bib4))。这些算法识别出代表机构领域内语义连贯簇的密集连接子图。 例如,在评估语料中,规范实体*UPI PIN*被分配到一个高密度社区,包含大约120个相关实体(例如,认证工作流、交易限额、安全措施
相似文章
为什么检索增强生成会失败:图视角
本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。
LatentRAG:用于高效智能体 RAG 的潜在推理与检索
LatentRAG 是一个新颖的框架,将智能体 RAG 的推理与检索过程转移至连续的潜在空间,在保持与显式方法相当的性能的同时,将推理延迟降低了约 90%。
RAGA:用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体
RAGA 是一个由大语言模型驱动的自主智能体,通过“阅读-搜索-验证-构建”的认知循环构建知识图谱,并集成混合符号-向量检索以实现检索增强生成,在科学问答数据集上取得了实验性改进。
LightRAG:简单高效的检索增强生成框架
本文介绍了 LightRAG,这是一个开源框架,通过整合图结构来提升检索增强生成(RAG)的上下文感知能力与信息检索效率。
@DanKornas:你的RAG流水线不需要重复检索同一份证据。LeanRAG是一个开源的RAG框架,它利用……
LeanRAG是一个开源的RAG框架,它利用知识图谱、语义聚合和分层检索来减少检索流水线中的冗余,并提供带有简洁证据路径的接地答案。