叙事知识编织器:面向长文本理解的叙事中心检索增强推理

arXiv cs.CL 论文

摘要

提出叙事知识编织器(NKW),一种基于来源的框架,用于长文本理解中的叙事中心检索增强推理。它对齐文本证据、原子事实、图结构、实体档案和故事线,在剧本级故事世界QA基准上取得强劲结果。

arXiv:2606.05724v1 公告类型:新论文 摘要:长文本叙事问答需要对不断演变的故事世界进行推理,而非孤立的段落:答案可能依赖于先前目标、变化的角色状态、社会关系、因果触发因素、时间位置以及后续后果。现有的检索和图增强生成方法改善了证据获取,但它们的单元——片段、实体、关系、摘要或工具操作——并未直接编码证据在故事中的功能。我们提出叙事知识编织器(NKW),一种基于来源的框架,用于对齐文本证据、原子事实、规范图结构、实体档案、交互、情节和故事线。在查询时,NKW利用文本、图和叙事工具,结合检索后的阅读技能,来整合证据并审计参与者、范围、极性、状态和时间约束。在STAGE、FairytaleQA和QuALITY上,NKW在剧本级故事世界QA中表现最强,同时在更以段落为中心的基准上保持竞争力。消融实验、问题类型分析、图资产统计和案例研究表明,NKW在角色、场景、时间、因果和叙事进展推理方面具有互补优势。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:07

# 叙事知识编织器:面向长篇文本理解的叙事中心检索增强推理  
来源:https://arxiv.org/html/2606.05724  

Qiuyu Tian1,2,Fengyi Chen3,Yiding Li5,Youyong Kong1,Fan Guo5,Yuyao Li5,Jinjing Shen5,Zhijing Xie5,Yiyun Luo5,Xin Zhang5,Yingce Xia2,Zequn Liu2††thanks:Corresponding author\.  
1东南大学,南京,中国  
2北京中关村学院,北京,中国  
3南京师范大学,南京,中国  
5追问科技有限公司,北京,中国  

###### 摘要  

长篇叙事问答需要在演变的故事世界中进行推理,而非仅针对孤立段落:答案可能依赖于先前的目标、变化的人物状态、社会关系、因果触发因素、时间位置以及后续结果。现有的检索和图增强生成方法虽然改进了证据获取,但其单元——片段、实体、关系、摘要或工具操作——并未直接编码证据在故事中的功能。我们引入了**叙事知识编织器(NKW)**,这是一个基于源的框架,将文本证据、原子事实、规范图结构、实体档案、交互、情节和故事线对齐。在查询时,NKW 使用文本、图和叙事工具,结合检索后阅读技能来组装证据,并审核行动者、范围、极性、状态和时间约束。在 STAGE、FairytaleQA 和 QuALITY 上,NKW 在剧本级故事世界问答中表现最强,同时在更侧重段落的基准测试中保持竞争力。消融实验、问题类型分析、图资产统计和案例研究表明,它在角色、场景、时间、因果和叙事进展推理方面具有互补优势。  

## 1 引言  

长篇叙事理解支持剧本分析、制作流程、文学解读和阅读辅助。与普通长文档不同,叙事围绕场景或章节、重复出现的角色、变化的状态以及时间-因果情节发展来组织。即使使用长上下文LLM,这仍然具有挑战性:挑战不仅在于长度,还在于恢复证据如何在不断演变的故事世界中发挥作用(Graesser and Franklin,1990 (https://arxiv.org/html/2606.05724#bib.bib26); Kintsch,1988 (https://arxiv.org/html/2606.05724#bib.bib23); Zwaan and Radvansky,1998 (https://arxiv.org/html/2606.05724#bib.bib24); Liu et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib32))。检索增强生成(RAG)通过将模型响应建立在外部证据上,部分解决了这一挑战(Lewis et al.,2020 (https://arxiv.org/html/2606.05724#bib.bib17); Izacard and Grave,2021 (https://arxiv.org/html/2606.05724#bib.bib18))。这使得它在定位相关段落和减少长文档中无根据生成方面非常有用。基于图的RAG通过实体、关系或社区级别的抽象来组织检索内容(Edge et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib2); Guo et al.,2025 (https://arxiv.org/html/2606.05724#bib.bib19); Gutiérrez et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib20); Zhu et al.,2025 (https://arxiv.org/html/2606.05724#bib.bib21)),而工具和检索控制型RAG方法则在生成过程中调整检索过程(Jiang et al.,2023 (https://arxiv.org/html/2606.05724#bib.bib35); Trivedi et al.,2023 (https://arxiv.org/html/2606.05724#bib.bib33); Asai et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib34); Du et al.,2026 (https://arxiv.org/html/2606.05724#bib.bib22))。然而,这些方法主要针对事实性、开放域或通用长文档场景开发,而叙事需要不同的证据组织方式。  

我们确定了通用RAG与叙事问答之间的两个不匹配。首先,叙事证据是功能性的,而不仅仅是位置性的:同一段落可能作为前提、转折点、结果、状态更新或干扰项。对于一个“为什么”问题,检索可能会找到决策场景,却遗漏了更早的动机交互。片段、实体、关系和社区摘要能定位材料,但并未编码其故事角色。其次,角色和关系是动态的。叙事问题会询问角色在某个情节节点相信什么、想要什么、知道什么或感受什么,或者某个场景后态度如何变化,这需要演变的状态和关系,而非平面化的实体档案。这两个不匹配使得通用RAG系统难以组装既在内容上相关,又在叙事功能和动态角色上下文中合适的证据。  

为此,我们提出**叙事知识编织器(NKW)**,一个针对这两个不匹配的叙事中心RAG系统。为了表示功能性的证据角色,NKW提取基于源的叙事资产,并将事件、交互和场景聚合到更高层次的情节和故事线中,从而证据可以根据其对情节进展的贡献来组织,而不仅仅依据段落相似性。为了捕捉动态角色和关系,NKW将稳定身份与变化状态分开。它首先将名字、别名、代词和场景特定引用链接到稳定的叙事实体。然后,它使用基于源的原子事实构建时间敏感的角色档案。因此,角色不再表示为静态图节点,而是以文本证据为基础的演变叙事状态。此外,NKW在文本、图和叙事视图上提供通道分离的工具接口,结合检索后阅读技能,在推理时组装和审核行动者、范围、极性和时间位置的证据。  

我们在三个长篇叙事问答数据集上评估NKW:STAGE(Tian et al.,2026 (https://arxiv.org/html/2606.05724#bib.bib11))、FairytaleQA(Xu et al.,2022 (https://arxiv.org/html/2606.05724#bib.bib10))和QuALITY(Pang et al.,2022 (https://arxiv.org/html/2606.05724#bib.bib9)),使用七个LLM骨干,并与Hybrid RAG、GraphRAG、LightRAG、HippoRAG和A-RAG进行比较。结果表明,当问题需要对演变状态、关系、时间顺序、因果动机和情节进展进行推理时,收益最大。消融实验、STAGE问题类型分解、图资产统计、案例研究以及两个下游应用进一步展示了叙事结构何时做出贡献。  

我们的主要贡献如下:  

- •**一个叙事中心的RAG系统。** NKW 通过规范实体图、基于源的叙事资产、情节/故事线聚合以及基于原子事实的角色档案来表示长篇叙事。  
- •**用于叙事证据组装的推理工具。** NKW 使用通道分离的方式访问文本、图和叙事视图,并使用检索后阅读技能来审核行动者、范围、极性和时间位置。  
- •**全面的评估和应用。** 我们在 STAGE、FairytaleQA 和 QuALITY 上使用七个LLM骨干评估 NKW,包括消融实验、问题类型分析、案例研究以及两个下游叙事应用。  

## 2 相关工作  

### 2.1 叙事与长篇文本理解  

叙事理解需要在不断演变的故事世界中跨证据进行推理。QuALITY(Pang et al.,2022 (https://arxiv.org/html/2606.05724#bib.bib9))、FairytaleQA(Xu et al.,2022 (https://arxiv.org/html/2606.05724#bib.bib10))和 STAGE(Tian et al.,2026 (https://arxiv.org/html/2606.05724#bib.bib11))涵盖了长段落阅读、细粒度故事问答和全剧本故事世界推理。这些基准测试最终答案,但对于恢复这些答案所需的中间故事表示提供的监督有限。这种表示差距也体现在先前关于事件因果性(Sun et al.,2024c (https://arxiv.org/html/2606.05724#bib.bib8))和事件基础(Jiayang et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib7))的工作中,这些工作强调连接发生了什么、为什么发生以及在哪里得到支持。话语理解(Graesser et al.,1994 (https://arxiv.org/html/2606.05724#bib.bib25))、建构整合理论(Kintsch,1988 (https://arxiv.org/html/2606.05724#bib.bib23))和情境模型理论(Zwaan and Radvansky,1998 (https://arxiv.org/html/2606.05724#bib.bib24))同样将叙事意义视为演变的状态、目标、因果联系和视角。NKW 将此观点实现为基于源的层次:事实、角色状态、交互、情节和故事线。  

### 2.2 图构建与图增强检索  

图构建提供了有用的骨干机制,但不是 NKW 的主要目标。文档级信息抽取和共指消解方法对实体、关系、事件和规范化提及进行建模(Yao et al.,2019 (https://arxiv.org/html/2606.05724#bib.bib12); Wadden et al.,2019 (https://arxiv.org/html/2606.05724#bib.bib13); Lin et al.,2020 (https://arxiv.org/html/2606.05724#bib.bib14); Barhom et al.,2019 (https://arxiv.org/html/2606.05724#bib.bib15); Cattan et al.,2020 (https://arxiv.org/html/2606.05724#bib.bib16));基于LLM的方法如 EDC(Zhang and Soh,2024 (https://arxiv.org/html/2606.05724#bib.bib1))和 Docs2KG(Sun et al.,2024b (https://arxiv.org/html/2606.05724#bib.bib6))将这些流水线扩展到灵活文档。这些工作主要侧重于抽取覆盖率,而 NKW 使用稳定图骨干,同时将事件、原子事实、实体档案、交互、情节、故事线和溯源明确为叙事资产。  

图增强RAG和图基础推理为检索和多步推理提供了结构化证据,包括 GraphRAG(Edge et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib2))、LightRAG(Guo et al.,2025 (https://arxiv.org/html/2606.05724#bib.bib19))、HippoRAG(Gutiérrez et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib20))、KG2RAG(Zhu et al.,2025 (https://arxiv.org/html/2606.05724#bib.bib21))、A-RAG(Du et al.,2026 (https://arxiv.org/html/2606.05724#bib.bib22))、RoG(Luo et al.,2024 (https://arxiv.org/html/2606.05724#bib.bib3))、ToG(Sun et al.,2024a (https://arxiv.org/html/2606.05724#bib.bib4))和 KG-Agent(Jiang et al.,2025 (https://arxiv.org/html/2606.05724#bib.bib5))。NKW 与此路线相连,但围绕叙事动态组织检索:局部事实、角色档案、交互、事件轨迹、情节和故事线。  

## 3 叙事知识编织器框架  

我们提出**叙事知识编织器**,一个用于长篇文本中叙事中心知识建模和推理的框架。令 D = {c_i}_{i=1}^n 表示源片段。NKW 构建一个基于源的资产包 B = (G, U, F, P, H, X),其中 G = (V, R) 是规范实体-关系图,U 包含事件、交互和场景,F 包含原子事实,P 包含实体档案,H 包含情节/故事线结构,X 索引回源证据的链接。系统将构建时智能体(构建该包)与查询时推理智能体(使用该包和源证据回答问题)分开。  

参见图1:叙事中心框架概述。该框架将构建时图构建与查询时推理分开。  

### 3.1 构建时资产构建  

构建时智能体按固定顺序构建互补的基于源资产:稳定的实体-关系图骨干、叙事单元和局部证据记录,然后是规范化的实体档案和图衍生事实。  

#### 3.1.1 规范实体-关系图骨干  

NKW 首先在稳定的叙事实体上构建规范图骨干。每个片段 c_i 由实体-关系抽取器处理,生成实体行 v = (name, type, desc, S_v) 和关系行 r = (u, v, desc, keywords, w, S_r),其中 S_v 和 S_r 是源标识符。原生实体模式仅限于稳定的故事指代对象,包括角色、团体、地点、时间点、物体、机构、社会角色和概念。叙事过程单元(如事件、交互、场景、情节、故事线和场景/章节标题)在此骨干中不作为原生实体类型处理。此骨干中的关系是稳定实体之间的二元边。它们默认存储为无序实体对,关系关键词用作主题描述符,而非固定的关系本体。n元陈述被分解为二元边,缺失的端点被物化为轻量级代理实体,以便关系仍可基于源。在合并和更新时,同名实体和同对关系被合并,长描述被压缩,图索引、向量索引、实体-片段索引和关系-片段索引保持同步。此骨干为后续叙事资产提供稳定的实体和关系基础。  

#### 3.1.2 基于源的叙事资产抽取  

与图骨干并行,NKW 从每个片段中提取基于源的叙事资产。基础叙事单元包括:**事件**,描述行动、发现、决定、到达、离开、物理过程或状态变化;**交互**,描述参与者之间的定向交流、冲突、合作或影响;**场景**,描述稳定情境、制度约束、社会规范、背景条件或类似场景的上下文。抽取器还会生成基于源的原子事实和实体属性。每个叙事单元保持与源证据的链接。交互存储结构化元数据,如主体、客体、交互类型、相关事件和相关场景;事件和场景在可用时存储参与者、环境、时间线索和局部上下文。这些结构化字段支持后续规范化和检索,而可见的叙事内容则以清晰的自然语言呈现,而非内部标识符或存储元数据。  

#### 3.1.3 实体规范与证据丰富化  

合并图骨干后,NKW 对显著提及进行规范化,以便同一角色、物体、地点、机构或计划的别名和局部描述共享一个指代对象。规范化映射应用于结构化叙事字段——参与者、交互主体/客体字段、原子事实主体/客体字段以及实体属性的所有者——而自然语言证据保持不变。只有场景被注入主图,作为与相关参与者或设置链接的上下文节点。事件和交互保留在叙事存储和向量索引中,用于检索和情节/故事线构建,从而保持基于源的证据,而不破坏实体-关系图。对于在我们的实验中图度数至少为2的实体,NKW 重新访问链接的源片段,提取关于状态、行动、目标、因果角色、心理状态和持久关系的特定实体原子事实,并推导出紧凑的属性字典和摘要。重复事实和重叠属性被合并,然后存储。

相似文章

VideoKR:面向知识和推理密集型视频理解

Hugging Face Daily Papers

VideoKR 引入了一个大规模视频推理数据集和基准,旨在通过专家领域内容和人机协同的示例生成,增强知识密集型视频理解。该数据集包含 31.5万个视频推理示例,覆盖 14.5万个专家领域视频。