RAGA:用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体
摘要
RAGA 是一个由大语言模型驱动的自主智能体,通过“阅读-搜索-验证-构建”的认知循环构建知识图谱,并集成混合符号-向量检索以实现检索增强生成,在科学问答数据集上取得了实验性改进。
arXiv:2605.17072v1 公告类型:新
摘要:现有的由大语言模型驱动的知识图谱构建方法主要采用无状态的批处理流水线,在跨块语义关系捕获、实体消歧以及构建过程可解释性方面存在结构性缺陷。这些局限性削弱了高风险领域中的知识图谱质量、检索精度和部署可信度。
我们提出了 RAGA(阅读与图谱构建智能体),一种基于大语言模型的自主知识图谱构建与检索融合框架。RAGA 提供了一套支持知识图谱全生命周期增删改查操作的原子工具集,并将“阅读-搜索-验证-构建”的认知约束嵌入到 ReAct 工具循环中。一种知识图谱-向量同步机制实现了混合符号-向量检索,而证据锚定的验证将每一条知识条目链接到其源文本,以实现可审计的溯源。
在 QASPER 科学问答数据集子集上的初步实验表明,RAGA 的融合检索优于零样本基线,知识图谱集成在答案和证据质量方面都带来了可衡量的提升。该框架设计和实验基线为智能体驱动的自主知识图谱构建提供了参考。
查看缓存全文
缓存时间: 2026/05/19 06:38
# RAGA:用于自主知识图谱构建与检索增强生成的阅读建图智能体 来源:https://arxiv.org/html/2605.17072 ###### 摘要 现有的大语言模型(LLM)驱动的知识图谱(KG)构建方法主要采用无状态的批量处理管线,在跨片段语义关系捕获、实体消歧和构建过程可解释性方面存在结构性缺陷。这些局限损害了KG质量、检索精度以及在高风险领域的部署信任。我们提出RAGA(阅读建图智能体),一种基于LLM的自主KG构建与检索融合框架。RAGA提供支持KG全生命周期CRUD操作的原子工具集,并将"阅读–搜索–验证–构建"的认知约束嵌入ReAct工具循环中。KG-向量同步机制实现了符号-向量混合检索,同时基于证据锚定的验证将每条知识条目链接到其源文本,提供可审计的来源追溯。在QASPER科学问答数据集子集上的初步实验表明,RAGA的融合检索优于零样本基线,KG集成在答案质量和证据质量两方面均带来了可衡量的提升。该框架设计与实验基线为智能体驱动的自主KG构建提供了参考依据。 ## 1 引言 知识图谱(KG)将异构信息组织为可计算、可推理的图结构,以实体为节点,关系为边。在自然语言处理中,KG为语义搜索、问答和文本理解提供显式的世界知识约束[Zhu et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib1)]。在科学发现中,KG被用于从文献中提取领域知识,构建可演化的学科知识网络[Dasigi et al., 2021 (https://arxiv.org/html/2605.17072#bib.bib2), Zhang and Soh, 2024 (https://arxiv.org/html/2605.17072#bib.bib3)]。随着大语言模型(LLM)的普及,KG与LLM的协同集成已成为一个突出的研究方向[Zhu et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib1)]。传统的KG构建依赖人工标注和专家定义的规则,成本高且可扩展性有限。研究者已探索利用LLM的语义理解能力从非结构化文本中自动提取实体和关系,形成了一系列LLM驱动的构建方法[Zhang and Soh, 2024 (https://arxiv.org/html/2605.17072#bib.bib3), Lairgi et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib4)]。虽然在受控环境下有效,但这些方法在大规模、增量式、多源异构数据场景下存在三个结构性缺陷。 检索增强生成(RAG)技术为LLM与KG的深度融合提供了技术路径。Lewis等人[Lewis et al., 2020 (https://arxiv.org/html/2605.17072#bib.bib5)]提出的RAG框架将外部知识库与参数化语言模型相结合,有效缓解了LLM的幻觉问题。Gao等人[Gao et al., 2023 (https://arxiv.org/html/2605.17072#bib.bib6)]对RAG技术进行了系统综述,指出其从简单的向量检索向结构化知识检索演进的趋势。KG作为结构化的外部知识源,为LLM提供精确且可验证的事实依据;而LLM则为KG的构建与补全提供语义理解能力。在LLM驱动的KG构建方面,Edge等人[Edge et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib7)]提出了GraphRAG,采用"局部到全局"的构建策略,对文本片段进行局部知识提取,并通过社区检测构建全局摘要图。Guo等人[Guo et al., 2025 (https://arxiv.org/html/2605.17072#bib.bib8)]提出了LightRAG,通过双层检索机制优化KG查询效率。Liang等人[Liang et al., 2025 (https://arxiv.org/html/2605.17072#bib.bib9)]提出了KAG,为专业领域设计了知识增强的生成管线。Lairgi等人[Lairgi et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib4)]提出了iText2KG,采用增量式构建策略,支持从零样本场景逐步构建KG。这些方法遵循固定的批量处理管线,缺乏对构建过程的动态调节。 现有方法存在三个结构性缺陷。 **第一,跨片段长距离语义关系丢失。**现有方法将长文档分割为固定长度的文本片段,并对每个片段独立进行知识提取,切断了跨片段的语义关联。例如,一篇科学论文引言中介绍的方法,可能在实验部分被具体描述,在讨论部分被比较评估。如果每个片段独立提取,这些跨片段的因果、比较和演化关系无法被有效捕获。尽管GraphRAG[Edge et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib7)]通过社区检测建立了全局关联,但其全局摘要仍是局部信息的聚合,并未恢复细粒度的跨片段关系。 **第二,实体冗余与消歧不充分。**当同一实体在文本中以不同表面形式出现时,传统方法无法将其识别为同一节点,导致KG中产生冗余的语义重叠节点。"Convulutional neural network"、"CNN"和"Convolutional Neural Network"均指代同一概念。若缺乏有效的实体链接与消歧,它们会被创建为多个独立节点。随着数据源增加,语义冗余呈指数级增长,稀释了KG的信息密度。EDC框架[Zhang and Soh, 2024 (https://arxiv.org/html/2605.17072#bib.bib3)]提出了实体规范化流程,但其在增量构建场景下的消歧能力有限。 **第三,构建过程不可解释、不可审计。**传统方法将知识提取视为端到端的黑箱:输入文本,输出三元组。研究者无法追溯知识条目源自哪些原始文本,也无法了解其推理过程。在科学研究、医疗决策等对可解释性要求高的领域,缺乏透明构建过程的KG难以赢得部署信任。Sarthi等人[Sarthi et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib15)]提出了RAPTOR,通过递归抽象处理增强了检索层级,但缺少细粒度的来源追溯。Dasigi等人[Dasigi et al., 2021 (https://arxiv.org/html/2605.17072#bib.bib2)]构建了QASPER数据集,强调了证据锚定的重要性,但现有方法很少将证据来源作为核心设计目标。 研究者已尝试将智能体技术应用于KG构建,将其塑造为一个动态认知过程。在此范式中,智能体通过迭代地感知文本、检索已有知识、验证新发现并更新知识库,实现增量式、交互式的知识构建。Yao等人[Yao et al., 2023 (https://arxiv.org/html/2605.17072#bib.bib10)]提出了ReAct范式,将推理与行动交织,使用思维链引导LLM进行多步决策,为智能体驱动的KG构建奠定了关键基础。Jiang等人[Jiang et al., 2025 (https://arxiv.org/html/2605.17072#bib.bib11)]提出了KG-Agent,通过工具调用实现对KG的复杂推理。然而,该框架仅支持对现有KG的读操作,缺乏创建、更新和删除能力,无法实现自主KG构建。Anokhin等人[Anokhin et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib12)]提出了AriGraph,使用双层记忆架构为LLM智能体构建世界模型KG表示,但缺乏向量空间集成与主动实体消歧。 工具能力不完整是主要限制之一。KG-Agent专注于对现有KG的复杂推理,其工具集针对查询和检索进行了优化,缺乏自主KG构建所需的写操作。KG构建是一个持续演化的知识管理过程,需要实体创建、属性更新、错误信息删除和重复节点合并。缺乏完整CRUD能力的智能体无法自主完成全生命周期管理。 不透明的认知工作流是另一个约束。虽然iText2KG[Lairgi et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib4)]支持文本流的顺序处理,但其内部提取逻辑仍是一个黑箱,缺乏显式的认知阶段划分。人类专家构建KG时会经历阅读、理解、验证和构建阶段;当前方法并未将这一工作流结构化地嵌入构建过程。 记忆空间与向量空间的分离也值得关注。AriGraph的[Anokhin et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib12)]双层记忆架构区分了情节记忆和语义记忆,但语义记忆采用符号图存储,未与稠密向量表示实时对齐。现代RAG系统将向量检索和图检索视为互补的知识访问方式;若符号层与向量层长期不同步,将导致检索不一致[Sarmah et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib14)]。 为了解决这些结构性缺陷,本文提出了一种基于LLM的自主KG构建与检索融合方法,并以RAGA(阅读建图智能体)框架作为其实现。主要贡献如下: - **自主知识操作工具集。**该工具集围绕阅读行为设计,包括段落阅读、上下文浏览、融合检索、实体和关系的CRUD操作、合并操作、人工审核标记、延迟任务和进度查询。工具集使智能体能够自主管理KG的完整生命周期。 - **LLM驱动的阅读–搜索–验证–构建认知循环。**将人类专家的知识构建过程结构化为ReAct风格的多轮工具调用循环。阅读阶段解析文本片段并识别重要信息;搜索阶段利用现有KG和上下文检索相关证据;验证阶段利用原始文本和工具返回结果判断新知识的可靠性;构建阶段将验证后的知识以标准化形式写入KG。阅读进度状态机管理长文档处理,包含四个状态:PENDING、READING、VERIFIED、ARCHIVED。 - **KG-向量同步机制。**写入KG结构化对象后,系统补充片段、实体或超节点的向量表示,并进行跨存储的引用回写。若向量写入失败,系统通过回滚已写入图对象并记录告警进行补偿。这使得智能体在混合检索中能同时利用图结构推理和向量语义匹配。 - **证据锚定验证。**KG中所有主要知识条目均关联其原始文本证据。系统维护结构化的来源记录,包括源文本片段、证据片段、操作类型和置信水平等元数据,实现知识条目的逆向来源追溯。 ## 2 相关工作 ### 2.1 基于智能体的知识图谱构建 将智能体技术应用于KG构建,旨在利用LLM的推理和规划能力,将知识提取从固定的批量处理管线转变为动态交互的认知过程。KG-Agent[Jiang et al., 2025 (https://arxiv.org/html/2605.17072#bib.bib11)]是这一方向的代表性工作。该框架通过模块化工具接口支持对KG的多跳推理,将知识查询、路径推理和答案生成封装为独立工具函数。KG-Agent的主要优势在于多跳推理的准确性和速度。然而,其工具集仅限于对现有KG的读取和推理,缺乏写操作能力(实体创建、关系添加或知识修正)。这使得它无法用于从零开始的增量KG构建。AriGraph[Anokhin et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib12)]具有双层记忆模型:情节记忆存储智能体交互轨迹,语义记忆以KG形式保存结构化世界模型知识。AriGraph的语义记忆仅支持符号图查询,未与稠密向量表示集成,无法通过向量相似度进行语义检索。AriGraph缺乏主动实体消歧机制;当同一实体以不同表面形式出现时,系统会创建新节点而非与现有节点合并。UrbanKGent[Ning and Liu, 2024 (https://arxiv.org/html/2605.17072#bib.bib13)]针对城市KG构建,提出了智能体驱动的构建与补全管线,利用智能体规划能力协调地理实体识别、空间关系提取和领域知识补全子模块。虽然展示了智能体框架在垂直领域的应用潜力,但其地理编码规则和空间关系模板难以迁移到其他领域。在通用智能体记忆管理方面,MemGPT[Packer et al., 2023 (https://arxiv.org/html/2605.17072#bib.bib16)]将LLM类比为操作系统,区分了容量有限的"主上下文"和可分页的"外部记忆",用于动态上下文资源分配。MemoryBank[Zhong et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib17)]基于时间衰减和重要性采样设计了长期记忆存储与检索机制。两项工作均聚焦于通用对话场景,未针对KG特定的结构化特征进行优化。 ### 2.2 LLM驱动的知识图谱提取 LLM驱动的KG提取旨在利用LLM的语义理解和生成能力,从非结构化文本中自动提取实体、关系和属性信息。按处理策略,现有方法可分为批量处理和增量处理两类。批量处理方法主要包括GraphRAG[Edge et al., 2024 (https://arxiv.org/html/2605.17072#bib.bib7)]和LightRAG[Guo et al., 2025 (https://arxiv.org/html/2605.17072#bib.bib8)]。GraphRAG采用局部到全局的构建方式:首先将文档分割为固定长度的文本片段,使用LLM从每个片段中提取实体和关系以形成局部知识子图,然后通过社区检测生成全局摘要。该策略适合需要全局一致性的离线大规模文档集合,但片段划分过程牺牲了细粒度的跨片段语义关联捕获,并缺乏跨片段实体对齐,容易产生语义冗余节点。LightRAG采用双层检索机制:底层进行具体实体检索,高层进行抽象概念检索,提高了检索效率。然而,其构建阶段使用批量处理。
相似文章
LightRAG:简单高效的检索增强生成框架
本文介绍了 LightRAG,这是一个开源框架,通过整合图结构来提升检索增强生成(RAG)的上下文感知能力与信息检索效率。
AgenticRAG:面向企业知识库的代理检索
本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。
RAG-Anything:全能型 RAG 框架
RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。
Disco-RAG: 话语感知检索增强生成
Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。
构建 Agentic GraphRAG 系统:从知识图谱和本体论到作为 AI 智能体 MCP 服务器的统一记忆
作者认为 GraphRAG 本质上是一个数据建模问题,而非单纯的检索算法,并提出了一种包含五个组件的架构,利用本体论、知识图谱和 MCP 服务器为智能体提供统一记忆。