面向多模态核监管文件多跳推理的LLM引导规划

arXiv cs.AI 论文

摘要

本文将监管文件审查问题建模为LLM引导的规划问题,采用无向量文档树,配备浏览、读取和搜索工具,并以动态知识图谱作为状态。在针对NuScale FSAR文档的200个问题基准测试中,该系统达到了81.5%的准确率和0.93的RAGAS忠实度,显著优于现有RAG方法。

arXiv:2606.29399v1 公告类型:新 摘要:核监管文件的审查需要在数万页文档中进行多跳推理,其判断依赖于跨多个章节收集的证据。我们将此任务建模为规划问题:基于LLM的智能体观察已收集的证据,选择下一个要检查的文档片段,并在证据充分时停止。该智能体通过浏览、读取和搜索工具在无向量文档树上操作,并维护一个动态知识图谱作为状态。在针对NuScale最终安全分析报告(FSAR)文档的200个问题基准测试中,该系统达到了81.5%的准确率和0.93的RAGAS忠实度。主导性能因素是规划:与使用相同文档树但无状态条件动作选择的PageIndex相比,差距为+38.0个百分点(从43.5%到81.5%,p<0.001)。该系统还优于LightRAG(73.0%,p<0.05)、HippoRAG(70.5%,p<0.01)和GraphRAG(49.5%,p<0.001),并且在无需离线索引的情况下与RAPTOR(75.5%,p=0.11)持平。边推理增加了2.8倍成本但未提高准确率;我们将其保留作为可追溯性模块。在7,391条推理边中,有3条Violates边(0.04%)标记了范围边界(Q058)和部分符合性(Q176)作为类型化注释,供人类审查员审计。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:33

# LLM引导的多跳推理规划:面向多模态核监管文件

来源:https://arxiv.org/html/2606.29399

###### 摘要

核监管文件审阅需要在数万页的文档中进行多跳推理,其判断依赖于跨多个章节收集的证据。我们将此任务建模为规划问题:一个基于LLM的智能体观察已收集到的证据,选择下一个要检查的文档片段,并在证据充分时停止。该智能体在一个无向量的文档树上运行,具备浏览、读取和搜索工具,并维护一个动态知识图谱作为状态。在一个基于NuScale最终安全分析报告文献的200个问题基准测试中,系统达到81.5%的准确率,RAGAS忠实度为0.93。性能的主导因素是规划:与PageIndex(使用相同文档树但无状态条件动作选择)相比,差距为+38.0个百分点(43.5%对81.5%,p<0.001)。该系统还优于LightRAG(73.0%,p<0.05)、HippoRAG(70.5%,p<0.01)和GraphRAG(49.5%,p<0.001),并与RAPTOR(75.5%,p=0.11)相当,且无需离线索引。边推理增加2.8倍成本但未提升准确率;我们将其保留作为可追溯性模块。在7,391条推断边中,有3条“违反”边(0.04%)标记了边界范围(Q058)和部分符合(Q176)的类别,可供人工审阅者审计。

检索增强生成、知识图谱、智能体AI、核监管文件、多跳推理、规划、多模态AI

## 1. 引言

基于LLM的智能体在通用领域通过ReAct(Yao等人,2023b)、Toolformer(Schick等人,2023)和Self-RAG(Asai等人,2024)等范式取得了快速进展。安全关键监管领域施加了这些范式未解决的约束。Osprey(Hellert等人,2026)指出现有框架中缺乏动作预可见性。Lee(Lee,2025)分析了LLM不透明性与10 CFR第50章附录B质量保证可追溯性要求之间的冲突。核监管文件审阅(审查最终安全分析报告并做出符合性判断以支持电厂许可)正是这些约束最为严格的领域。

最终安全分析报告审阅具有三个特性,使其区别于一次性问答。首先,判断依赖于跨多个章节积累的证据:回答“应急堆芯冷却系统设计是否满足10 CFR 50.46(b)?”需要将第5章的规范与第1章的要求交叉引用,并从两者综合得出裁决。其次,证据是多模态的:规范表格和工程图纸与文字描述共同决定答案。第三,审阅过程包含充分性判断,审阅者决定何时收集的证据足以做出裁决。现有的检索增强生成方法均未解决这些问题。分块破坏了交叉引用(Gao等人,2023)。基于图的方法(GraphRAG(Edge等人,2024)、LightRAG(Guo等人,2024))构建静态全局图,缺乏迭代判断循环。所有方法都需要离线索引,这与持续修订的最终安全分析报告不兼容。

我们的关键观察是,监管审阅是一个规划问题:给定一个目标(监管判断)、状态(已收集的证据)和动作(文档导航),审阅者必须决定接下来检查什么。这是一个不可简化为一次性检索的序列决策过程。我们将文档构建为基于文本的环境,具有浏览/读取/搜索动作,实现闭环规划,其中33%的查询提前终止,67%使用完整的4跳预算。

我们做出四项贡献。(1) 文档作为环境进行规划:一个状态条件的规划循环,在无向量文档树上运行,与PageIndex(相同环境,无规划)相比,准确率差距为+38.0个百分点(p<0.001)。(2) 多模态证据处理集成到规划循环中:在答案步骤应用的视觉处理,使得仅在表格问题上比RAPTOR高出+18个百分点,同时保持所有中间操作为纯文本。(3) 一个200个问题的核监管基准测试,沿着三个正交轴(推理类型、证据复杂性、模态)定义,共同决定监管审阅过程。(4) 通过“违反”案例研究进行可追溯性分析:检索后边推理增加了2.8倍成本且无准确率提升,但产生可审计的推理路径。在7,391条推断边中,仅3条(0.04%)是“违反”,识别出范围排除(Q058)和部分符合(Q176)的类别,这些是自然语言回答无法结构化表示的类别注释。这满足10 CFR第50章附录B的可追溯性要求。

## 2. 相关工作

#### RAG和图检索。

标准RAG(Lewis等人,2020)通过分块破坏上下文。GraphRAG(Edge等人,2024)和LightRAG(Guo等人,2024)构建全局知识图谱,但需要昂贵的预索引和通用边模式。RAPTOR(Sarthi等人,2024)构建递归抽象树;HippoRAG(Gutiérrez等人,2024)使用海马记忆模型。所有这些方法执行一次性检索,没有迭代证据积累。

#### 智能体信息检索。

迭代检索方法如IRCoT、FLARE和Iter-RetGen将检索与思维链生成交织,但缺乏持久状态和动态终止。Self-RAG(Asai等人,2024)在单次传递中插入反思词元进行自适应检索。PRISM(Nahid & Rafiei,2025)通过迭代的选择器-加法器智能体循环分离精确率和召回率。APEX-Searcher(Chen等人,2026)将强化学习与监督微调结合用于规划,但需要训练。对于文档导航,ReadAgent(Lee等人,2024)使用要点记忆,DocAgent(Sun等人,2025)提取XML大纲,BookRAG(Wang等人,2025)通过层次化索引路由查询。PageIndex(Zhang & Tang,2025)构建无向量树但作为单次传递工具运行。我们的工作通过将文档构建为可扩展的基于文本的环境,具有持久KG状态、规划循环和动态终止,并且在无需训练的环境中运行,从而与这些方法不同。

#### 规划、世界模型和KG-RAG。

ReAct(Yao等人,2023b)、Tree of Thoughts(Yao等人,2023a)和LATS(Zhou等人,2024)通过带反思的树搜索在PDDL/机器人/网页环境中建立基于LLM的规划;我们将此范式扩展到结构化文档上的信息环境。GWM(Feng等人,2025)使用图结构状态和消息传递;我们类似地使用动态子知识图谱,但通过LLM推理而非嵌入生成显式关系边。我们的边本体论借鉴了SysML可追溯性(Friedenthal等人,2014)、论证挖掘(Peldszus & Stede,2013;Cabrio & Villata,2012)、因果KG(Hassanzadeh等人,2019)和先决条件学习(Pan等人,2017)。

#### 核NLP与评估。

NuclearQA(Acharya等人,2023)和NukeBERT(Jain等人,2020)解决单跳事实提取。我们的基准测试是首个针对多跳、多模态、跨章节监管判断的任务。我们采用双重评估:RAGAS(Es等人,2024)用于接地质量,以及LLM-as-Judge(Zheng等人,2023)结合三评估者多数投票。

## 3. 方法

![图1:整体架构。左侧的无向量文档树作为环境。中间的规划循环迭代执行状态估计、动作规划、执行和充分性检查。检索后边缘推理和视觉增强的答案生成(右侧)在输出阶段应用。](caption)

### 3.1 问题表述:监管审阅作为规划

我们将监管文档探索形式化为一个规划问题,具有单一智能体在结构化信息环境上运行:

- 状态st ∈ S:时刻t收集的动态子知识图谱Gt = (Vt, Et),表示智能体当前的证据和推断关系(§3.3)。
- 动作at ∈ A:工具调用,来自文档d、树节点v和关键词κ上的{browse(d,v), read(d,v), search(κ)}(§3.4)。
- 转移ftr(st, at) → st+1:工具执行后跟节点集成,以及(可选)边推理,产生更新后的KG(§3.5)。
- 目标测试φ(st, q) ∈ {0,1}:LLM判断的充分性检查,判断Gt是否包含足够证据来回答查询q;当φ=1或t=Tmax时终止。

与先规划后执行的框架不同,智能体观察st,根据累积状态选择at,并在选择at+1之前立即纳入环境反馈。这种状态条件的规划结构是我们针对PageIndex进行经验隔离的中心机制(§5.2)。

### 3.2 环境:无向量多模态文档树

整体架构如图1所示。本节描述的规划循环(状态估计、动作选择、动态终止)在架构上领域无关,适用于任何层次结构化的文档语料库。核监管文件(如最终安全分析报告)呈现了使该方法优于传统RAG的条件:深度层次结构(分块会破坏)、章节与图表之间的密集交叉引用、共同决定答案的多模态证据(规范表格、工程图纸),以及固有需要多跳证据收集和充分性判断的审阅过程。领域特定组件是边本体论(§3.5),它编码了监管推理关系(满足、违反);架构的其余部分可直接迁移到其他结构化文档领域。

环境被表示为JSON层次树,组织成章节→节→段节点,保留了监管文档的原始结构,无需任何分块或嵌入。为支持多模态推理,系统解析图表列表并检测文内引用(如“图5.1-1”),通过refferences字段将图表元数据附加到相应节点。这直接解决了“图表跨页”问题,即引用文本与实际图表位于PDF的不同页面。

系统不依赖密集向量检索,而是采用无向量设计,使用BM25Okapi关键词搜索覆盖整个文档树。章节标题获得3倍权重提升,文档长度归一化自然地将简短聚焦的叶节点提升到更高排名。在本工作评估的规模下,树涵盖第01章(866个节点,34幅图,19个表)和第05章(26个节点,29幅图,30个表)。

![图2:文档树环境(左)、三个智能体工具(右)以及将文内引用连接到实际PDF页面的多模态引用解析(底)。](caption)

### 3.3 状态(短期记忆):动态子知识图谱与双层边本体论

时刻t的智能体状态定义为动态知识图谱Gt = (Vt, Et)。节点集Vt包含通过探索收集的文档章节(证据节点)及其关联的多模态引用。边集Et受领域特定的双层本体论约束,仅在置信度≥0.4(经验设定)时保留边。

本体论总结在表1中。第1层是组织探索轨迹的结构边:

**表1:双层监管边本体论。**

一个带有边分布示例的KG如图3所示。经验上,结构边(引用、指定)在单跳事实查询中占主导,形成探索路径;而语义边(满足、支持)出现在复合多跳判断查询中,支持监管合规综合。在正确答案相对于错误答案中,“支持”的出现频率高出6.8个百分点,“满足”高出3.2个百分点。

![图3:一个示例动态子知识图谱显示五个证据节点通过结构(第1层)和语义(第2层)边连接。右侧的边分布摘要显示了200个问题中7,391条边的每种类型占比。](caption)

### 3.4 动作规划:基于LLM的工具选择

系统不预先计算完整的检索计划,而是执行闭环规划。在每个跳数,智能体观察当前KG状态Gt并决定动作at,环境反馈(检索结果)立即纳入后续规划。这构成一个基于状态的迭代决策结构,区别于APEX-Searcher(Chen等人,2026)的先规划后执行分离,以及Self-RAG(Asai等人,2022)的词元级反应式检索。与传统RAG中被动嵌入相似性检索不同,LLM主动评估当前状态并

相似文章

基于外部子图生成的大语言模型逐步推理增强

arXiv cs.CL

本文提出了SGR框架,通过查询相关的子图生成将外部知识图谱与大语言模型相结合,融合基于Cypher的推理与协同推理集成,从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明,该框架相比标准提示方法和知识增强基线具有更高的推理准确性。