面向多模态核监管文件多跳推理的LLM引导规划

arXiv cs.AI 2026/06/30 04:00 论文

multi-hop-reasoning planning knowledge-graphs rag nuclear-regulatory llm-agent multimodal

摘要

本文将监管文件审查问题建模为LLM引导的规划问题，采用无向量文档树，配备浏览、读取和搜索工具，并以动态知识图谱作为状态。在针对NuScale FSAR文档的200个问题基准测试中，该系统达到了81.5%的准确率和0.93的RAGAS忠实度，显著优于现有RAG方法。

arXiv:2606.29399v1 公告类型：新摘要：核监管文件的审查需要在数万页文档中进行多跳推理，其判断依赖于跨多个章节收集的证据。我们将此任务建模为规划问题：基于LLM的智能体观察已收集的证据，选择下一个要检查的文档片段，并在证据充分时停止。该智能体通过浏览、读取和搜索工具在无向量文档树上操作，并维护一个动态知识图谱作为状态。在针对NuScale最终安全分析报告（FSAR）文档的200个问题基准测试中，该系统达到了81.5%的准确率和0.93的RAGAS忠实度。主导性能因素是规划：与使用相同文档树但无状态条件动作选择的PageIndex相比，差距为+38.0个百分点（从43.5%到81.5%，p<0.001）。该系统还优于LightRAG（73.0%，p<0.05）、HippoRAG（70.5%，p<0.01）和GraphRAG（49.5%，p<0.001），并且在无需离线索引的情况下与RAPTOR（75.5%，p=0.11）持平。边推理增加了2.8倍成本但未提高准确率；我们将其保留作为可追溯性模块。在7,391条推理边中，有3条Violates边（0.04%）标记了范围边界（Q058）和部分符合性（Q176）作为类型化注释，供人类审查员审计。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:33

# LLM引导的多跳推理规划：面向多模态核监管文件

来源：https://arxiv.org/html/2606.29399

###### 摘要

核监管文件审阅需要在数万页的文档中进行多跳推理，其判断依赖于跨多个章节收集的证据。我们将此任务建模为规划问题：一个基于LLM的智能体观察已收集到的证据，选择下一个要检查的文档片段，并在证据充分时停止。该智能体在一个无向量的文档树上运行，具备浏览、读取和搜索工具，并维护一个动态知识图谱作为状态。在一个基于NuScale最终安全分析报告文献的200个问题基准测试中，系统达到81.5%的准确率，RAGAS忠实度为0.93。性能的主导因素是规划：与PageIndex（使用相同文档树但无状态条件动作选择）相比，差距为+38.0个百分点（43.5%对81.5%，p<0.001）。该系统还优于LightRAG（73.0%，p<0.05）、HippoRAG（70.5%，p<0.01）和GraphRAG（49.5%，p<0.001），并与RAPTOR（75.5%，p=0.11）相当，且无需离线索引。边推理增加2.8倍成本但未提升准确率；我们将其保留作为可追溯性模块。在7,391条推断边中，有3条“违反”边（0.04%）标记了边界范围（Q058）和部分符合（Q176）的类别，可供人工审阅者审计。

检索增强生成、知识图谱、智能体AI、核监管文件、多跳推理、规划、多模态AI

## 1. 引言

基于LLM的智能体在通用领域通过ReAct（Yao等人，2023b）、Toolformer（Schick等人，2023）和Self-RAG（Asai等人，2024）等范式取得了快速进展。安全关键监管领域施加了这些范式未解决的约束。Osprey（Hellert等人，2026）指出现有框架中缺乏动作预可见性。Lee（Lee，2025）分析了LLM不透明性与10 CFR第50章附录B质量保证可追溯性要求之间的冲突。核监管文件审阅（审查最终安全分析报告并做出符合性判断以支持电厂许可）正是这些约束最为严格的领域。

最终安全分析报告审阅具有三个特性，使其区别于一次性问答。首先，判断依赖于跨多个章节积累的证据：回答“应急堆芯冷却系统设计是否满足10 CFR 50.46(b)？”需要将第5章的规范与第1章的要求交叉引用，并从两者综合得出裁决。其次，证据是多模态的：规范表格和工程图纸与文字描述共同决定答案。第三，审阅过程包含充分性判断，审阅者决定何时收集的证据足以做出裁决。现有的检索增强生成方法均未解决这些问题。分块破坏了交叉引用（Gao等人，2023）。基于图的方法（GraphRAG（Edge等人，2024）、LightRAG（Guo等人，2024））构建静态全局图，缺乏迭代判断循环。所有方法都需要离线索引，这与持续修订的最终安全分析报告不兼容。

我们的关键观察是，监管审阅是一个规划问题：给定一个目标（监管判断）、状态（已收集的证据）和动作（文档导航），审阅者必须决定接下来检查什么。这是一个不可简化为一次性检索的序列决策过程。我们将文档构建为基于文本的环境，具有浏览/读取/搜索动作，实现闭环规划，其中33%的查询提前终止，67%使用完整的4跳预算。

我们做出四项贡献。(1) 文档作为环境进行规划：一个状态条件的规划循环，在无向量文档树上运行，与PageIndex（相同环境，无规划）相比，准确率差距为+38.0个百分点（p<0.001）。(2) 多模态证据处理集成到规划循环中：在答案步骤应用的视觉处理，使得仅在表格问题上比RAPTOR高出+18个百分点，同时保持所有中间操作为纯文本。(3) 一个200个问题的核监管基准测试，沿着三个正交轴（推理类型、证据复杂性、模态）定义，共同决定监管审阅过程。(4) 通过“违反”案例研究进行可追溯性分析：检索后边推理增加了2.8倍成本且无准确率提升，但产生可审计的推理路径。在7,391条推断边中，仅3条（0.04%）是“违反”，识别出范围排除（Q058）和部分符合（Q176）的类别，这些是自然语言回答无法结构化表示的类别注释。这满足10 CFR第50章附录B的可追溯性要求。

## 2. 相关工作

#### RAG和图检索。

标准RAG（Lewis等人，2020）通过分块破坏上下文。GraphRAG（Edge等人，2024）和LightRAG（Guo等人，2024）构建全局知识图谱，但需要昂贵的预索引和通用边模式。RAPTOR（Sarthi等人，2024）构建递归抽象树；HippoRAG（Gutiérrez等人，2024）使用海马记忆模型。所有这些方法执行一次性检索，没有迭代证据积累。

#### 智能体信息检索。

迭代检索方法如IRCoT、FLARE和Iter-RetGen将检索与思维链生成交织，但缺乏持久状态和动态终止。Self-RAG（Asai等人，2024）在单次传递中插入反思词元进行自适应检索。PRISM（Nahid & Rafiei，2025）通过迭代的选择器-加法器智能体循环分离精确率和召回率。APEX-Searcher（Chen等人，2026）将强化学习与监督微调结合用于规划，但需要训练。对于文档导航，ReadAgent（Lee等人，2024）使用要点记忆，DocAgent（Sun等人，2025）提取XML大纲，BookRAG（Wang等人，2025）通过层次化索引路由查询。PageIndex（Zhang & Tang，2025）构建无向量树但作为单次传递工具运行。我们的工作通过将文档构建为可扩展的基于文本的环境，具有持久KG状态、规划循环和动态终止，并且在无需训练的环境中运行，从而与这些方法不同。

#### 规划、世界模型和KG-RAG。

ReAct（Yao等人，2023b）、Tree of Thoughts（Yao等人，2023a）和LATS（Zhou等人，2024）通过带反思的树搜索在PDDL/机器人/网页环境中建立基于LLM的规划；我们将此范式扩展到结构化文档上的信息环境。GWM（Feng等人，2025）使用图结构状态和消息传递；我们类似地使用动态子知识图谱，但通过LLM推理而非嵌入生成显式关系边。我们的边本体论借鉴了SysML可追溯性（Friedenthal等人，2014）、论证挖掘（Peldszus & Stede，2013；Cabrio & Villata，2012）、因果KG（Hassanzadeh等人，2019）和先决条件学习（Pan等人，2017）。

#### 核NLP与评估。

NuclearQA（Acharya等人，2023）和NukeBERT（Jain等人，2020）解决单跳事实提取。我们的基准测试是首个针对多跳、多模态、跨章节监管判断的任务。我们采用双重评估：RAGAS（Es等人，2024）用于接地质量，以及LLM-as-Judge（Zheng等人，2023）结合三评估者多数投票。

## 3. 方法

![图1：整体架构。左侧的无向量文档树作为环境。中间的规划循环迭代执行状态估计、动作规划、执行和充分性检查。检索后边缘推理和视觉增强的答案生成（右侧）在输出阶段应用。](caption)

### 3.1 问题表述：监管审阅作为规划

我们将监管文档探索形式化为一个规划问题，具有单一智能体在结构化信息环境上运行：

- 状态st ∈ S：时刻t收集的动态子知识图谱Gt = (Vt, Et)，表示智能体当前的证据和推断关系（§3.3）。
- 动作at ∈ A：工具调用，来自文档d、树节点v和关键词κ上的{browse(d,v), read(d,v), search(κ)}（§3.4）。
- 转移ftr(st, at) → st+1：工具执行后跟节点集成，以及（可选）边推理，产生更新后的KG（§3.5）。
- 目标测试φ(st, q) ∈ {0,1}：LLM判断的充分性检查，判断Gt是否包含足够证据来回答查询q；当φ=1或t=Tmax时终止。

与先规划后执行的框架不同，智能体观察st，根据累积状态选择at，并在选择at+1之前立即纳入环境反馈。这种状态条件的规划结构是我们针对PageIndex进行经验隔离的中心机制（§5.2）。

### 3.2 环境：无向量多模态文档树

整体架构如图1所示。本节描述的规划循环（状态估计、动作选择、动态终止）在架构上领域无关，适用于任何层次结构化的文档语料库。核监管文件（如最终安全分析报告）呈现了使该方法优于传统RAG的条件：深度层次结构（分块会破坏）、章节与图表之间的密集交叉引用、共同决定答案的多模态证据（规范表格、工程图纸），以及固有需要多跳证据收集和充分性判断的审阅过程。领域特定组件是边本体论（§3.5），它编码了监管推理关系（满足、违反）；架构的其余部分可直接迁移到其他结构化文档领域。

环境被表示为JSON层次树，组织成章节→节→段节点，保留了监管文档的原始结构，无需任何分块或嵌入。为支持多模态推理，系统解析图表列表并检测文内引用（如“图5.1-1”），通过refferences字段将图表元数据附加到相应节点。这直接解决了“图表跨页”问题，即引用文本与实际图表位于PDF的不同页面。

系统不依赖密集向量检索，而是采用无向量设计，使用BM25Okapi关键词搜索覆盖整个文档树。章节标题获得3倍权重提升，文档长度归一化自然地将简短聚焦的叶节点提升到更高排名。在本工作评估的规模下，树涵盖第01章（866个节点，34幅图，19个表）和第05章（26个节点，29幅图，30个表）。

![图2：文档树环境（左）、三个智能体工具（右）以及将文内引用连接到实际PDF页面的多模态引用解析（底）。](caption)

### 3.3 状态（短期记忆）：动态子知识图谱与双层边本体论

时刻t的智能体状态定义为动态知识图谱Gt = (Vt, Et)。节点集Vt包含通过探索收集的文档章节（证据节点）及其关联的多模态引用。边集Et受领域特定的双层本体论约束，仅在置信度≥0.4（经验设定）时保留边。

本体论总结在表1中。第1层是组织探索轨迹的结构边：

**表1：双层监管边本体论。**

一个带有边分布示例的KG如图3所示。经验上，结构边（引用、指定）在单跳事实查询中占主导，形成探索路径；而语义边（满足、支持）出现在复合多跳判断查询中，支持监管合规综合。在正确答案相对于错误答案中，“支持”的出现频率高出6.8个百分点，“满足”高出3.2个百分点。

![图3：一个示例动态子知识图谱显示五个证据节点通过结构（第1层）和语义（第2层）边连接。右侧的边分布摘要显示了200个问题中7,391条边的每种类型占比。](caption)

### 3.4 动作规划：基于LLM的工具选择

系统不预先计算完整的检索计划，而是执行闭环规划。在每个跳数，智能体观察当前KG状态Gt并决定动作at，环境反馈（检索结果）立即纳入后续规划。这构成一个基于状态的迭代决策结构，区别于APEX-Searcher（Chen等人，2026）的先规划后执行分离，以及Self-RAG（Asai等人，2022）的词元级反应式检索。与传统RAG中被动嵌入相似性检索不同，LLM主动评估当前状态并

面向多模态核监管文件多跳推理的LLM引导规划

相似文章

让LLMs相互评判：用于医学问答的多智能体同行评审推理

SGR：一种基于外部子图生成的LLM逐步推理框架

基于外部子图生成的大语言模型逐步推理增强

LLM推理的周期表：推理范式、方法与失败模式的系统综述

面向LLM推理的科学逻辑性增强方法：以物理学为例

提交意见反馈