有界路径上下文:LLM知识图谱问答中可见路径历史受控研究
摘要
本文提出有界路径上下文(BPC),一种用于LLM知识图谱问答的方法,该方法限制提示中的可见路径历史,表明有界历史可以在减少token用量的同时匹配或超越全历史提示。
arXiv:2605.26645v1 公告类型:新
摘要:基于LLM的知识图谱问答(KGQA)将图遍历委托给语言模型,将每个问题转化为一系列局部关系选择决策,这些决策在多个波束和跳中重复执行。一个常见但未经检验的默认做法是将完整的部分路径序列化到每个路由提示中,尽管控制器已经以精确的符号状态维护了该路径。有界路径上下文(BPC)解耦了这两个角色:控制器在符号记忆中保留完整路径以用于答案提取和审计,而关系选择提示仅暴露问题、当前实体、出边关系候选以及最多最近K跳。通过固定图邻域、波束预算、深度、解码和答案提取格式,对K进行控制扫描实验表明,在完整的WebQSP和CWQ测试集上,使用Qwen3.5-9B-AWQ时,有界历史可以匹配或超越全历史提示:K=1时WebQSP的答案集F1为0.487,而全历史为0.472;K=0时CWQ达到0.287,而全历史为0.274,输入token分别减少9.7%和12.1%。在4B规模下,K=1仍是两个基准中最强的设置。逐样本分析显示,71-84%的样本不受历史长度影响,而受影响的案例则揭示了先前跳是消除歧义还是造成干扰。这些结果表明,路径序列化长度更适合作为可调接口变量,而不是作为基于LLM的图控制器中的默认假设。
查看缓存全文
缓存时间: 2026/05/27 09:08
# 有界路径上下文:LLM知识图谱问答中可见路径历史的可控研究 代码:https://github.com/AndyShan11/Bounded-Path-Context 来源:https://arxiv.org/html/2605.26645 Xihang Shan 数学科学学院 厦门大学 [email protected] & Ye Luo 信息学院 厦门大学 [email protected] ###### 摘要 基于LLM的知识图谱问答(KGQA)将图遍历委托给语言模型,将每个问题转化为一系列在束和跳之间重复的局部关系选择决策。一个常见但未经检验的默认做法是将完整的部分路径序列化到每个路由提示中,即使控制器已经将此路径作为精确符号状态维护。有界路径上下文(BPC)解耦了这两个角色:控制器在符号记忆中保留完整路径用于答案提取和审计,而关系选择提示仅暴露问题、当前实体、出边关系候选以及最多最后K跳。通过对K进行可控扫描——固定图邻域、束预算、深度、解码和答案提取格式——表明,在完整的WebQSP和CWQ测试集上,使用Qwen3.5-9B-AWQ时,有界历史匹配或超越全历史提示:K=1在WebQSP上达到0.487的答案集F1,而全历史为0.472;K=0在CWQ上达到0.287,而全历史为0.274,输入token分别减少9.7%和12.1%。在4B规模下,K=1仍然是两个基准上最强的设置。逐示例分析显示,71-84%的示例不受历史长度影响,而受影响的示例揭示了先前跳何时提供区分或分散注意力。这些结果表明,在基于LLM的图控制器中,路径序列化长度应被视为可调的接口变量,而非默认假设。 --- # 有界路径上下文:LLM知识图谱问答中可见路径历史的可控研究† †代码:https://github.com/AndyShan11/Bounded-Path-Context Xihang Shan 数学科学学院 厦门大学 [email protected] Ye Luo†† 通讯作者。 信息学院 厦门大学 [email protected] ## 1 引言 基于LLM的知识图谱问答(KGQA)将单个问题转化为图邻域上的许多小路由决策。在每一步,控制器询问语言模型接下来应遵循哪个出边关系,系统的质量和成本取决于此提示既信息丰富又易于重复。然而,一个常见的设计选择使得每次路由调用都重读完整的部分路径,即使相同的路径已由图控制器精确存储。 这一默认做法很重要,因为迭代式KGQA不是一个一次性生成问题。单个示例可能需要数十次关系选择调用,因为束通过实体和关系扩展到候选答案。因此,将完整路径序列化到每个提示中会反复将控制器内存转化为模型输入。额外的文本可能消耗KV缓存内存、限制本地批处理、增加延迟,并与当前的关系候选竞争注意力。如果完整路径对准确路由是必要的,那么这种成本是合理的。如果不是,那么全历史提示可能增加重复的输入成本,并且在某些图代理设置中可能成为一个糟糕的默认。 这种习惯持续存在有其自然原因。最近的基于LLM的图控制器通常使中间轨迹对模型可见,这遵循了思维链和工具使用提示的广泛成功。尽管取得了这些成功,KGQA具有一个容易被忽视的特殊结构:部分路径是由确定性代码维护的符号状态,而不仅仅是一个文本理由。控制器可以保留实体标识符、关系标识符、束成员资格和最终证据路径,而无需在每个跳时要求LLM重新读取它们。尚未解决的问题是,完整的符号路径是否也必须成为*可见*状态的一部分,用于局部路由决策。先前的系统混淆了上下文的两个角色:路径既作为控制器的精确簿记,又作为语言模型的可选消歧文本。 我们通过有界路径上下文(BPC)研究这一差距,这是针对基于LLM的KGQA的一个简单提示接口干预。BPC将符号搜索状态(控制器完整保留)与在关系选择期间显示给模型的路径历史分离开来。在第t跳时,具有界K的BPC控制器呈现问题、当前实体、出边关系候选以及仅最后K条遍历过的跳。当K=0时,路由提示不包含任何先前的跳。当K=full时,提示恢复传统的全历史接口。这种干预不会改变图邻域或配置的束和深度预算。控制器仍然精确存储每条保留的路径;搜索后,一个固定的答案提取提示渲染保留的完整路径,达到所有K设置中共享的提示预算。 BPC基于控制上下文与解释上下文之间的区分。对于最终答案,完整路径可能有用,因为它支持可审计性和证据检查。然而,对于下一个路由动作,问题、当前实体和出边关系清单已编码了强大的局部信号。较早的跳可以在通过语义不同的路线到达相同实体时有所帮助,但它们也可能引入陈旧的实体名称、较早的关系标签和表面形式,这些在当前边界已不再相关。因此,BPC提出一个窄幅的实证问题:在控制器保留完整符号状态的前提下,模型单独用于关系选择需要多少累积路径? 我们在WebQSP (Yih et al., 2016)和ComplexWebQuestions (Talmor and Berant, 2018)的完整测试集上评估了这个问题,使用由vLLM (Qwen, 2024)本地服务的Qwen3.5-9B-AWQ。可控扫描固定图邻域、束宽度、深度、关系上限、解码温度和答案提取格式,同时变化关系选择提示中的可见路径历史。在这种本地设置中,较小的可见历史相对于全历史默认具有有利的点估计。在WebQSP上,K=1给出最佳答案集F1(0.487),K=0基本持平(0.485),而全历史为0.472。在CWQ上,K=0最佳(0.287 F1),而全历史为0.274且使用更多输入token。这种增益不仅仅是图访问的结果,因为随机关系控制远低于学习到的控制器。 结果在4B规模下也有一个重要细微差别。使用相同控制器的Qwen3.5-4B-AWQ下,全历史提示在两个基准上的F1都高于K=0,表明较小的模型受益于路径上下文。然而,在4B规模下,K=1的F1高于K=0和全历史,使得一个可见跳成为在所研究模型尺寸中最具持续竞争力的设置。在这些运行中,完整路径在两个尺度上都不是最高F1的设置;区别在于9B模型通常在没有历史时表现强劲,而4B模型似乎受益于一个跳的局部消歧。这个边界对系统设计很有用,因为它将默认的提示惯例变成了可测量的变量。 本文做出五项具体贡献。第3节定义有界路径上下文,作为一个在关系选择期间将精确符号状态与模型可见路径历史解耦的接口。第5节、表3和图1提供了WebQSP和CWQ上的完整测试证据,表明有界历史与Qwen3.5-9B-AWQ的全历史提示具有竞争力,在CWQ上输入token减少多达12.1%。第6节添加了诊断控制,表明受控设置仍然依赖于图基础和学习的 relation 选择。第6节和附录清单文档展示了模型规模的交互:K=1在4B点估计中表现最强,并在9B时仍具竞争力,而全历史在两个尺度上都不是最高F1设置。第7节提供了逐示例错误分析,显示大多数示例在有界历史下最终F1不变,而变化的示例揭示了先前跳何时有所帮助或造成干扰。 ## 2 相关工作 ### 经典KGQA与图检索。 知识图谱问答传统上被构建为语义解析、查询图搜索或对结构化证据的学习遍历,而非自由形式文本检索。早期的基于语义解析和搜索的系统将问题映射为可执行的图查询或排序的查询图,WebQSP和CWQ成为评估系统是否从Freebase风格结构中恢复答案的标准测试平台 (Berant et al., 2013; Yih et al., 2016; Talmor and Berant, 2018; Lan and Jiang, 2020)。神经KGQA系统随后增加了可微检索、图传播和基于嵌入的匹配,如GraftNet、PullNet、EmbedKGQA、神经符号机器、TransferNet、子图检索、QA-GNN和统一检索-推理模型 (Sun et al., 2018, 2019; Saxena et al., 2020; He et al., 2021; Shi et al., 2021; Zhang et al., 2022; Yasunaga et al., 2021; Jiang et al., 2023b)。这些方法确立了本文的更广泛前提:图结构不仅仅是背景知识,而是一个操作搜索空间,其关系和实体必须在不充分的监督和有限计算下进行选择。然而,大多数经典系统不研究已经访问过的路径有多少应作为自然语言上下文呈现给LLM的每个路由步骤。相比之下,BPC保持图、束预算和符号状态固定,并隔离了一个更窄的接口问题:在局部关系选择期间,完整路径历史是否应对语言模型可见。 ### 基于LLM的KGQA与图控制器。 最近的工作通过结构化接口、少样本逻辑形式构建、生成然后检索流水线、判别式基础和联合答案形式解码将LLM与KG集成 (Jiang et al., 2023a; Li et al., 2023a; Luo et al., 2024a; Gu et al., 2023; Yu et al., 2023)。BPC最直接的先例是LLM图控制器,其使图遍历成为推理过程的一部分,包括Reasoning-on-Graphs、Think-on-Graph、GNN-RAG以及更新的智能体或检索框架如DARA、KELDaR、SubgraphRAG和图约束推理 (Luo et al., 2024b; Sun et al., 2024; Mavromatis and Karypis, 2025; Fang et al., 2024; Li et al., 2024, 2025a; Luo et al., 2025)。这些系统通过分解问题、检索子图、约束解码或使用LLM在图邻域上选择动作来改进KGQA。它们也使中间图状态显式化,因为模型通常需要证据来计划、验证或解释下一步。然而,这种设计通常将可见提示视为控制器的工作内存,因此累积路径被反复序列化,即使控制器已精确存储它。相比之下,BPC与更强的检索器、分解模块和约束解码器正交:它问的是,同一个控制器是否可以在提示之外保留完整符号路径,同时在关系选择期间仅向LLM显示一个有界后缀。 ### 推理轨迹、长上下文与提示压缩。 思维链和ReAct风格提示表明,当模型必须通过任务携带潜在状态时,中间轨迹和动作可以改进语言模型的推理 (Wei et al., 2022; Yao et al., 2023)。同时,长上下文研究表明,简单地添加更多文本并不是免费的改进,因为模型可能根据位置和显著度而利用不足或误读信息 (Liu et al., 2024)。提示压缩方法如Selective Context、LongLLMLingua、RECOMP和LLMLingua-2通过选择或重写文本上下文来减少输入长度,最近的研究将这些方法组织为以提示为中心和以模型为中心的压缩家族 (Li et al., 2023b; Jiang et al., 2024; Xu et al., 2024; Pan et al., 2024; Li et al., 2025b)。这一系列工作与BPC相关,因为BPC也减少了模型可见上下文,并将提示长度视为影响延迟、内存和注意力的系统变量。区别在于,BPC不压缩文档、总结理由或学习token选择器。相反,它利用了图控制器特有的属性:完整路径可以在符号记忆中保持精确,而只有路由相关的后缀暴露给LLM。 ### 基于路径的结构化表示。 基于路径的代码模型表明,当底层对象是结构化时,路径可以作为有用的神经输入 (Alon et al., 2019b, a; Allamanis et al., 2018)。我们仅将此工作作为类比使用:BPC不学习路径嵌入,而是测量精确KG路径的哪个后缀应暴露给LLM控制器。 ## 3 有界路径上下文 表1:BPC控制器的符号。该表将符号状态变量与提示接口变量分开,这是整个方法中使用的区别。 表1总结了符号。对于每个问题q,控制器接收一个针对问题的有向标记图G_q = (V_q, E_q)和一组主题实体S_q。实现构建三元组(h, r, t) ∈ E_q的邻接索引,因此出边关系查找和邻接...
相似文章
LLMs能否被约束在过往?通过基于回忆的提示改进知识截止
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。
多跳知识图谱问答的本体引导证据路径推理
提出 OPI,一种面向多跳知识图谱问答的本体引导框架,利用以关系为中心的本体图进行双向检索和迭代精炼,在多个基准上取得了最先进的结果。
面向多LLM智能体系统上下文自适应的基于图的目标反向传播
本文提出了GTBP,一种用于多LLM智能体系统中上下文自适应的基于图的反向传播框架,它通过理论收敛保证改进了提示优化,并在基准测试中优于现有方法。
面向上下文LLM级联的在线Pandora's Box
本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。
KG-Guard: 基于图的幻觉检测方法用于知识库问答
KG-Guard是一个轻量级的基于图的框架,用于检测基于LLM的知识库问答中的幻觉。它将LLM视为黑盒,使用图编码器与MLP分类器来识别幻觉答案节点,在参数少得多的前提下优于基线方法。