TCAR-Gen:面向知识基础生成的时间图检索与证据融合

arXiv cs.CL 论文

摘要

TCAR-Gen 提出了一种结合查询条件图神经网络、时间证据融合和树链推理的框架,用于知识基础生成中的时间图检索。在 Victorian Crime Diaries 基准测试中,它在多种查询类型上实现了改进的召回率。

arXiv:2606.00029v1 公告类型:新 摘要:检索增强生成系统在回答涉及历史犯罪案件叙述的复杂问题时,在时间推理和证据融合方面存在困难。现有方法要么独立于查询语义进行检索,要么无法连贯地整合多个证据来源。我们提出了时间上下文增强检索生成(TCAR-Gen),这是一个结合查询条件图神经网络、时间证据融合和树链推理的框架,用于在检索到的证据基础上进行答案生成。在 Victorian Crime Diaries 基准测试中,TCAR-Gen 在七个查询类型(包括多跳推理和反事实问题)上实现了 0.3738 的 Recall@5,优于 Vanilla RAG、Temporal RAG、GraphRAG-C 和 GraphRAG-T。消融实验表明,上下文图、时间惩罚机制和查询条件化是关键组成部分。跨五个语言模型(从 GPT-OSS 20B 到 TinyLlama 1.1B)的评估显示,TCAR-Gen 在较小模型规模下保持了稳健的检索覆盖范围,但生成质量随着模型容量减小而大幅下降。我们的工作表明,显式时间建模和多分支证据融合对于在知识基础语料库上进行忠实且推理密集的问答至关重要。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:35

# TCAR-Gen: 面向知识基生成的时序图检索与证据融合  
来源:https://arxiv.org/html/2606.00029  
Muhammad Noman Zahid2, Rizwan Ahmed Khan3*  
1意大利维罗纳大学计算机科学系  
2意大利卡梅里诺大学高等研究院  
3巴基斯坦卡拉奇工商管理学院数学与计算机科学学院计算机科学系  
*通讯作者:Rizwan Ahmed Khan(邮箱:[email protected])  

###### 摘要  
检索增强生成系统在回答涉及历史刑事案件叙事的复杂问题时,在时序推理和证据融合方面存在困难。现有方法要么独立于查询语义进行检索,要么无法连贯地整合多个证据源。我们提出时序上下文增强检索生成(TCAR-Gen)框架,该框架结合了查询条件图神经网络、时序证据融合以及树链推理,将答案生成锚定在检索到的证据上。在维多利亚犯罪日记基准上,TCAR-Gen 的 Recall@5 达到 0.3738,在七类查询(包括多跳推理和反事实问题)上均优于 Vanilla RAG、Temporal RAG、GraphRAG-C 和 GraphRAG-T。消融实验揭示,上下文图、时序惩罚机制和查询条件是关键组成部分。跨模型评估(覆盖 GPT-OSS 20B 至 TinyLlama 1.1B 五种语言模型)表明,TCAR-Gen 在较小模型规模下仍能保持稳健的检索覆盖率,但生成质量随模型容量下降而显著降低。我们的工作表明,显式时序建模与多分支证据融合对于面向知识基语料库的忠实、推理密集型问答至关重要。  
关键词—大语言模型、知识图谱、图神经网络、领域特定信息、文本提示生成、可解释人工智能  

## 1 引言  
近年来,大语言模型(LLMs)推动了自然语言处理的发展,并在摘要、机器翻译和问答等广泛任务中展现出强劲性能。它们能在有限任务特定监督下进行跨任务泛化,这使得它们适用于多种应用领域[1 (https://arxiv.org/html/2606.00029#bib.bib1)]。然而,可靠性仍是核心关切,尤其是在要求响应必须有事实依据、上下文精确且可验证的应用中。LLM 的一个关键局限性是会生成语言流畅但缺乏事实支持或与现有证据逻辑不一致的输出。这种行为通常被称为幻觉,在知识密集型和领域特定任务中尤为关键,因为正确的答案依赖于访问外部信息以及将这些信息连贯地组织起来的能力[2 (https://arxiv.org/html/2606.00029#bib.bib2)]。在此类场景中,模型参数中存储的知识往往不够,特别是当任务需要链接多份证据、解决实体或事件间的依赖关系、或对时间分布的信息进行推理时。  

检索增强生成通过在推理时向 LLM 提供外部文本证据来应对这一局限[3 (https://arxiv.org/html/2606.00029#bib.bib3),4 (https://arxiv.org/html/2606.00029#bib.bib4)]。虽然这种方法改善了事实依据,但大多数检索流水线依赖于查询与孤立文本块之间的相似性匹配。这种设计偏重局部语义重叠,而忽略了更广泛的结构关系,导致下游推理所依据的证据不完整、碎片化或组织不佳,尤其是在涉及互连事实的多跳场景中。上下文检索方法通过丰富文档块(在索引或排序前加入文档级信息)来扩展这一策略。这通过将每个块置于其局部上下文中来提高可解释性。即便如此,当含义依赖于实体、事件和时间排序证据之间的显式关系(而非仅文本邻近性)时,这种策略仍然有限。  

知识图谱(KGs)通过实体和关系组织信息,为这类结构提供了自然的表示。图神经网络(GNNs)通过邻域聚合和高阶依赖建模来学习关系数据,从而补充了这种表示[5 (https://arxiv.org/html/2606.00029#bib.bib5),6 (https://arxiv.org/html/2606.00029#bib.bib6),7 (https://arxiv.org/html/2606.00029#bib.bib7)]。这些进展表明,在复杂场景中实现有效的问答需要保留证据的结构和时间组织,而非单纯依赖基于文本的检索。  

本工作通过将检索和生成表述为一个统一的推理过程来满足这一需求。所提出的框架并非将检索视为独立的预处理步骤,而是将上下文、关系和时间信号整合到一个统一的推理流水线中。该设计结合了上下文块丰富化、查询条件图构建、时间编码和多分支推理,以协调的方式支持证据选择和答案生成。  

本工作的贡献有三点。首先,提出了一个上下文感知的检索框架,整合了文档级丰富化、查询条件图构建和时间建模。其次,引入了一个推理流水线,将结构化证据检索与基于关系和时间约束的多分支推理相结合。第三,提供了全面的实证评估,考察了检索有效性、生成忠实度以及各组件在多种模型规模下的贡献。  

本文其余部分组织如下。第2节 (https://arxiv.org/html/2606.00029#S2) 回顾了检索增强生成、基于图的推理、时间建模和多步推理的相关工作。第3节 (https://arxiv.org/html/2606.00029#S3) 方法部分介绍了所提出的框架及其组件,包括上下文图构建、混合检索和推理机制。第4节 (https://arxiv.org/html/2606.00029#S4) 实验部分描述了数据集、评估协议和基线方法。在第5节 (https://arxiv.org/html/2606.00029#S5) 中,通过比较评估、消融实验和规模行为分析,展示并分析了实验结果。论文最后讨论了发现、局限性和未来研究方向。  

## 2 相关工作  
检索增强生成(RAG)通过将参数化生成与外部非参数化知识相结合,改善了大语言模型的事实依据。早期研究表明,在推理时进行检索通过减少对仅存储于模型参数中的信息的依赖,提高了知识密集型任务的性能[8 (https://arxiv.org/html/2606.00029#bib.bib8)]。后来的研究表明,检索质量仍是下游生成的核心,因为更相关、更丰富的上下文能提高忠实度和准确性[4 (https://arxiv.org/html/2606.00029#bib.bib4),3 (https://arxiv.org/html/2606.00029#bib.bib3),9 (https://arxiv.org/html/2606.00029#bib.bib9)]。近期方法将检索进一步推向解码过程本身,使得生成可以在多步推理过程中利用检索到的证据[10 (https://arxiv.org/html/2606.00029#bib.bib10)]。这一系列工作确立了检索质量是可靠生成的核心因素。  

大多数 RAG 系统仍然依赖于查询与孤立文本块之间的语义相似性。这种策略能有效检索局部相关的段落,但往往无法保留文档级上下文,并且在证据分布在相关段落中时难以处理多跳推理。上下文检索方法通过用周围文档信息丰富文本块来部分解决这一问题。即便如此,这些方法本质上仍以文本为中心,并不显式表示证据之间的关系。因此,限制不仅在于检索覆盖率,还在于缺乏结构化证据建模。  

基于图的检索通过显式关系表示证据来应对这一局限。早期的系统如 GRAFT-Net[11 (https://arxiv.org/html/2606.00029#bib.bib11)] 和 PullNet[12 (https://arxiv.org/html/2606.00029#bib.bib12)] 表明,从文本和结构化知识构建的查询特定子图能够改善多跳推理。这些研究还表明,将检索和推理视为联合且迭代的过程(而非分离的阶段)更为有效。后来的工作将这一思想扩展到大语言模型。KGLLM 将查询中的实体提及链接到外部知识图谱,提取周围子图,将其线性化为自然语言,并利用该证据来锚定生成,同时为事实一致性重新排序候选输出[13 (https://arxiv.org/html/2606.00029#bib.bib13)]。这一方向表明,将生成锚定在经过验证的外部证据上,比单纯依赖参数化记忆更能有效减少幻觉。  

GraphRAG[14 (https://arxiv.org/html/2606.00029#bib.bib14)] 将检索到的证据组织成图结构,以支持对大语料库的连贯合成;而 G-Retriever[15 (https://arxiv.org/html/2606.00029#bib.bib15)] 直接在文本图上执行检索。结构化图遍历也改善了事实依据,系统在推理前将复杂查询分解为子问题[16 (https://arxiv.org/html/2606.00029#bib.bib16)]。RDPG 通过自适应路径生成扩展了这一方法:LLM 迭代探索知识图谱,修正候选路径,并将恢复的路径整合到链式思维提示中,用于最终答案生成[17 (https://arxiv.org/html/2606.00029#bib.bib17)]。类似的基于图的检索也改善了自动驾驶等特定领域任务的可靠性和可解释性[18 (https://arxiv.org/html/2606.00029#bib.bib18)]。多层级图表示通过在推理过程中保留全局和用户特定结构,进一步改进了推理[19 (https://arxiv.org/html/2606.00029#bib.bib19)]。在证据选择层面,SIBR 将子图提取形式化为信息瓶颈问题,通过抑制无关邻域结构来生成紧凑的证据集[20 (https://arxiv.org/html/2606.00029#bib.bib20)]。GS-KGC 遵循相关方向:提取查询实体周围的局部子图,将其序列化为自然语言,并结合链式思维推理与生成后一致性检查[21 (https://arxiv.org/html/2606.00029#bib.bib21)]。这些研究表明,忠实生成更多依赖于紧凑且相关的证据,而非单纯的检索数量。  

然而,对于许多现实世界的推理任务而言,仅靠关系结构是不够的。许多查询不仅依赖于哪些实体是连接的,还依赖于事件发生的时间及顺序。时序图学习通过将时间直接纳入表示学习来满足这一需求。TGAT 通过时间感知注意力机制对连续时间动态图进行建模,为时序图推理奠定了坚实基础[22 (https://arxiv.org/html/2606.00029#bib.bib22)]。后来的工作引入了更显式的推理约束。一种迭代逻辑引导框架将挖掘出的时序规则与时序图注意力相结合,并使用时序一致性检查来移除违反顺序约束的候选[23 (https://arxiv.org/html/2606.00029#bib.bib23)]。这一结果表明,时序推理受益于符号约束与神经表示之间的交互。  

时序知识图谱研究此后将该思想扩展到检索、推理和证据选择中。一些方法将时空图数据转换为自然语言,以支持对时间实体网络的多跳推理[24 (https://arxiv.org/html/2606.00029#bib.bib24)]。DyMemR 引入了一种动态记忆池,仅保留相关历史四元组,并表明选择性记忆比无区别积累更有效[25 (https://arxiv.org/html/2606.00029#bib.bib25)]。TiPNN 对时间路径(而非实体嵌入)进行推理,并通过编码关系序列和时间间隔,泛化到训练中未观察到的实体[26 (https://arxiv.org/html/2606.00029#bib.bib26)]。PCRS 通过路径补全和强化学习解决稀疏时序知识图谱问题,并使用显式时序一致性滤波器强制时间顺序有效性[27 (https://arxiv.org/html/2606.00029#bib.bib27)]。HIPNet 通过双编码器分离短期和长期时序结构,并根据交互频率动态平衡两个流[28 (https://arxiv.org/html/2606.00029#bib.bib28)]。HGCT 通过时间感知注意力为历史事实分配重要性权重,并结合时序卷积来捕捉局部动态和全局周期性[29 (https://arxiv.org/html/2606.00029#bib.bib29)]。这些模型表明,时序证据必须根据相关性和时间顺序进行过滤、加权和组织,而非无结构地积累。  

一系列相关工作通过语义整合和显式可解释性来加强时序推理。文本增强的时序模型将结构四元组与上下文提及嵌入相结合,尤其改善了图连接稀疏的实体的性能[30 (https://arxiv.org/html/2606.00029#bib.bib30)]。其他框架将语言模型与时序图编码器相结合,以改进对未见实体的归纳外推[31 (https://arxiv.org/html/2606.00029#bib.bib31)]。可解释性也变得更为突出。混合规则模型将挖掘出的时序规则与学习到的嵌入相结合,并展示了跨相关数据集的零样本迁移能力[32 (https://arxiv.org/html/2606.00029#bib.bib32)]。动态规则有效性也已通过基于 LLM 的时序推理直接建模,规则仅在其时间间隔与查询兼容时才被激活[33 (https://arxiv.org/html/2606.00029#bib.bib33)]。其他方法表明,历史趋势、元学习和强化学习进一步改善了时序泛化和规则归纳[34 (https://arxiv.org/html/2606.00029#bib.bib34),35 (https://arxiv.org/html/2606.00029#bib.bib35),36 (https://arxiv.org/html/2606.00029#bib.bib36)]。可解释框架现在构建局部时序子图、对关系路径进行排序,并生成与特定历史事件相关的可审计自然语言解释[37 (https://arxiv.org/html/2606.00029#bib.bib37)]。时序检索还支持了对时间敏感查询的零样本推理[38 (https://arxiv.org/html/2606.00029#bib.bib38)]。约束感知的时序问答进一步增加了层次:在修剪候选答案空间之前,从问题中提取句法和语义时间约束[39 (https://arxiv.org/html/2606.00029#bib.bib39),40 (https://arxiv.org/html/2606.00029#bib.bib40)]。这些结果表明,时序组

相似文章

为什么检索增强生成会失败:图视角

arXiv cs.CL

本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。