# MemoryDocDataSet:联合对话记忆与长文档推理基准测试
摘要
MemoryDocDataSet 是一个全新的合成基准测试,包含 50 个微型世界和 1,000 个问答对,专为同时评估 AI 系统在对话记忆与长文档推理两项联合任务上的表现而设计。最优基线方法(RAG-Both)的整体 F1 值仅为 0.358,凸显了当前系统在将对话记忆与长文档导航能力融为一体方面存在的显著差距。
查看缓存全文
缓存时间: 2026/06/05 02:14
# MemoryDocDataSet:对话记忆与长文档推理联合评测基准 来源:https://arxiv.org/html/2606.04442 Qiyang Xie¹ Jialun Wu² Xinjie He³ Su Liu⁴ Shuai Xiao⁴ Zhiyuan Lin⁴ Weikai Zhou⁴ ¹东北大学 ²约翰斯·霍普金斯大学 ³哥伦比亚大学 ⁴独立研究员 \(2026年6月\) ###### 摘要 AI 系统越来越需要同时具备两种高难度能力:在多轮会话历史中自如导航,以及对长文档进行深度阅读理解。然而,目前尚无任何基准能够同时评估这两种能力。我们提出 MemoryDocDataSet——一个包含 50 个微型世界和 1,000 个问答对的合成基准。每个实例由以下部分组成:3–5 个人物角色、跨越数月活动的时序事件图、3–5 篇真实长文档(每篇 20,000–50,000 个 token,均来自 Caselaw Access Project)、基于上述文档构建的多轮对话,以及横跨五个推理类别的 20 个问答对。该基准的核心特色是 **Hybrid 来源标签**:要求系统先在对话历史中定位相关文档,再从该文档中提取答案。Hybrid 问题占数据集总量的 75.1%。我们通过基于 LLM-as-judge 的提示敏感性自洽分析来评估数据集质量,50 个微型世界的 Cohen's $\kappa$ 中位数为 $0.634$。我们对六种基线配置进行了评测,涵盖截断上下文、长上下文 LLM、检索增强生成(RAG)\[1\]以及记忆系统。最优基线(RAG-Both)的整体 F1 为 0.358,在 Hybrid 上为 0.342。仅检索文档的方案(RAG-Doc)在 Hybrid 上的得分骤降至 0.267,而其在纯文档问题上的得分为 0.453,清晰揭示了联合检索的差距,这一差距促使研究者探索将对话记忆与长文档导航相统一的架构。我们公开发布数据集、生成流水线及所有基线实现。 ## 1 引言 现代 AI 助手的工作场景要求其同时具备两种能力。其一,在长对话中保持连贯记忆——追踪谁说了什么、何时说的,以及历史上下文如何影响当前轮次。其二,对长文档——合同、报告、文件——进行深度阅读理解,而这类文档的规模远超任何对话交互。 这两种能力的研究长期各自为营。LoCoMo \[2\] 和 LongMemEval \[3\] 等记忆基准只呈现多轮对话,不附带任何长文档,因此能完美记忆对话事实的系统便可取得高分。L-Eval \[4\] 和 ZeroSCROLLS \[5\] 等长文档基准则只呈现书籍或报告长度的文本,没有任何对话结构,拥有大上下文窗口的系统无需任何记忆能力即可取得高分。 现有两类基准均无法衡量两种能力的结合,而现实部署却常常同时需要这两者。以法律助手为例:在数月内与客户持续合作时,助手必须从历史会话中回忆客户所询问的是哪份合同,再在那份多达 40,000 个 token 的合同中定位到涉及违约条款的具体答案。这一任务对于纯记忆系统和纯长上下文阅读器而言都并非易事。 我们提出 MemoryDocDataSet,这一基准数据集专为测试上述联合能力而设计。每个实例是一个**微型世界**——一个自包含的场景,包含以下组成部分:具有明确角色、专业知识和相互关系的 3–5 个**人物角色**;跨越至少六个月的 5–10 个时间戳事件构成的**时序事件图**;来自真实公共领域法律语料库的 3–5 篇每篇 20,000–50,000 个 token 的**长文档**;基于事件图构建、自然引用上述文档的五段**多轮对话**;以及每个微型世界的 **20 个问答对**,横跨五个推理类别。 核心创新在于**来源维度**——每个问答对均标注其答案来源:仅来自对话历史(Chat-only)、仅来自长文档(Doc-only),还是需要同时跨越两者(Hybrid)。Hybrid 问题要求系统先利用对话上下文识别相关文档,再对该文档进行深度阅读以提取答案。我们要求每个微型世界中至少 30% 的问答对为 Hybrid 类型。 我们针对基准评测了六种基线配置:截断上下文的基础 LLM、使用完整上下文的长上下文 LLM、仅对对话进行 RAG、仅对文档进行 RAG、对两者均进行 RAG,以及记忆系统基线。结果表明,所有六种配置在 Hybrid 问题上均表现不足,其中两者均 RAG 的方案 F1 最高,但仍远低于预期的人类水平(详见第 6.4 节)。这一差距激励着将对话记忆与长文档检索紧密整合的新型系统的研究。 #### 贡献 1. 一个包含 50 个微型世界、1,000 个问答对的基准数据集,以及现有基准均未提供的新颖来源维度标注。 2. 一个完全自动化、配置驱动的微型世界生成流水线,可利用真实长文档和 LLM 生成的合成结构进行规模化生产。 3. 跨六种检索与记忆配置的基线结果,建立了对话记忆与长文档推理联合任务的首个系统性比较。 ## 2 相关工作 ### 2.1 对话记忆基准 已有多个基准用于评估长期对话记忆。《Beyond Goldfish Memory》论文 \[6\] 提出了多轮对话(Multi-Session Chat,MSC)数据集,率先开展多轮对话评测,但侧重于短对话(约 1K token)中的人物一致性。LoCoMo \[2\] 将对话延伸至更长篇幅(最多 300 轮,约 9K token),并引入时间推理问题。LongMemEval \[3\] 将 LLM 作为多轮对话的参与方进行评估,提问内容涉及历史轮次中所说的内容。MemBench \[7\] 提供了涵盖存储、检索和更新等结构化记忆操作的系统测试套件。 上述基准的共同局限在于缺乏长文档。其上下文完全基于对话,能够熟练记忆对话事实的系统无需任何文档阅读能力即可取得高分。 ### 2.2 长文档与多跳推理基准 另一条研究线侧重于评估对长文档或多文档输入的阅读理解能力。L-Eval \[4\] 和 ZeroSCROLLS \[5\] 要求模型处理书籍长度或多文档文本,但将其作为无对话成分的静态阅读任务呈现。HotpotQA \[8\] 针对维基百科短段落的多跳推理,测试推理链条而非长文档阅读,且不含任何对话结构。 ### 2.3 差距分析 表 1 汇总了相关基准在关键维度上的对比情况。目前尚无任何基准将多轮对话与长文档(20K+ token)相结合,并要求对两者进行联合推理。MemoryDocDataSet 是首个通过 Hybrid 来源标签强制要求这一能力的基准。 表 1:MemoryDocDataSet 与相关基准的比较。 | 基准 | 多轮对话 | 长文档(20K+) | 联合推理 | 发表场所 | |------|----------|---------------|----------|----------| | LoCoMo \[2\] | ✓ | $\times$ | $\times$ | ACL 2024 | | LongMemEval \[3\] | ✓ | $\times$ | $\times$ | ICLR 2025 | | MSC \[6\] | ✓ | $\times$ | $\times$ | ACL 2022 | | MemBench \[7\] | ✓ | $\times$ | $\times$ | ACL 2025 | | L-Eval \[4\] | $\times$ | ✓ | $\times$ | ACL 2024 | | ZeroSCROLLS \[5\] | $\times$ | ✓ | $\times$ | EMNLP 2023 | | HotpotQA \[8\] | $\times$ | $\times$ | $\times$ | EMNLP 2018 | | 本文(MemoryDocDataSet) | ✓ | ✓ | ✓ | — | ### 2.4 检索增强生成与记忆系统 检索增强生成(RAG)\[1\] 已成为将 LLM 响应锚定于外部文档的主流范式。然而,标准 RAG 在查询时对静态文档集合建立索引,既不对对话的时序结构建模,也不建模对话上下文与特定文档之间的导航关系。Mem0 \[9\] 和 Zep \[10\] 等记忆系统通过基于图或基于事实的记忆存储来增强 LLM,可跨会话追踪实体和关系,但并非为长文档的深度阅读而设计。我们的基准同时揭示了这两方面的不足。 ## 3 MemoryDocDataSet 基准 ### 3.1 任务定义 任务定义如下。系统接收一个微型世界 $M$,其中包含一组对话会话 $C$ 和一组长文档 $D$。给定自然语言问题 $q$,系统需生成自由文本答案 $a$。问题可能仅需 $C$ 中的证据、仅需 $D$ 中的证据,或同时需要两者——系统在测试时不会收到任何关于所需来源的信号。评估采用精确匹配(EM)和 token 级 F1 与标准答案进行比较,并针对对抗性问题额外设置拒答准确率指标。 该设定在表示层面有意保持架构无关性:系统可将 $C$ 和 $D$ 表示为扁平上下文、向量索引、知识图谱或任意其他结构。基准不预设任何检索或记忆架构。 ### 3.2 微型世界结构 图 1:MemoryDocDataSet 微型世界的结构。每个微型世界由人物角色、时序事件图、长文档、多轮对话以及标注了来源标签(Chat-only、Doc-only、Hybrid)的问答对构成。 数据集的基本单元是**微型世界**——一个自包含的场景,提供回答其关联问题所需的全部上下文。图 1 展示了其结构。形式上,微型世界是一个五元组 $M=(P, G, D, C, Q)$。 #### $P$(人物角色) $P$ 是一组**人物角色**,每个角色由姓名、职业角色、领域专业知识、沟通风格以及与其他角色的有向关系集合(如"汇报给"、"协作")共同描述。每个微型世界包含 3–5 个人物角色。 #### $G$(事件图) $G$ 是一个**时序事件图**——由一组时间戳事件构成的有向无环图(DAG)。每个事件 $e \in G$ 具有时间戳、自然语言描述、涉及的人物角色子集,以及引用的文档子集。事件跨越至少六个月的模拟活动时间。DAG 结构编码了事件之间的因果依赖关系。 #### $D$(文档) $D$ 是一组**长文档**,每篇包含 20,000–50,000 个 token 的真实法律文本,均来自 Caselaw Access Project \[11\]。每个微型世界包含 3–5 篇文档。文档在微型世界内的人物角色和事件之间共享,将场景锚定于一组一致的书面证据之上。 #### $C$(对话) $C$ 是一组**对话会话**。每个会话 $s \in C$ 锚定于特定事件 $e \in G$,涉及 $P$ 中的人物角色子集,并由一系列话语组成。会话按时间顺序排列,整体跨越 $G$ 的时间线。至少 40% 的会话显式引用 $D$ 中的一篇或多篇文档,从而建立起对话上下文与文档内容之间的导航关系,这也是 Hybrid 问题的定义基础。 #### $Q$(问答对) $Q$ 是一组**问答对**。每个 $q \in Q$ 包含自然语言问题、标准自由文本答案、类别标签(第 3.3 节)、来源标签(第 3.4 节),以及指向支撑答案的特定话语或文档段落的一个或多个证据引用。每个微型世界包含 20 个问答对。 ### 3.3 问题类别 我们采用 LoCoMo \[2\] 建立的分类体系中的五个问题类别,该体系已成为记忆基准评测的标准。表 2 对每个类别进行了定义,并给出了来自法律领域的示例。 表 2:问答类别、定义及示例。 这五个类别在一般意义上并非互斥,但在我们的标注中,每个问答对仅被分配一个主要类别。对于对抗性问题,我们额外记录对抗类型(虚假前提或不可回答),并单独评估系统的**拒答准确率**——即系统正确拒绝作答而非生成幻觉响应的比率。 ### 3.4 来源维度 MemoryDocDataSet 的核心贡献是**来源维度**:对每个问答对的正交标注,用于标识回答该问题所需的信息来源。每个问答对恰好携带以下三个互斥来源标签之一。 #### Chat-only 标准答案可完全从对话会话 $C$ 中推导出来,无需阅读 $D$ 中的任何文档。该标签测试标准对话记忆能力,与 LoCoMo \[2\] 和 LongMemEval \[3\] 中的问题可比。 #### Doc-only 标准答案需要阅读 $D$ 中的一篇或多篇文档,对话会话不提供额外信号。该标签测试长文档理解能力,与 L-Eval \[4\] 和 ZeroSCROLLS \[5\] 中的问题可比。 #### Hybrid 回答需要两个步骤:首先,系统必须利用对话会话 $C$ 识别 $D$ 中**哪篇**文档是相关的——通常因为某个人物角色在会话中引用了某篇特定文档;其次,系统必须阅读该文档以提取答案。仅执行任一步骤均不足以作答。该标签在现有任何基准中均无对应。 我们强制要求每个微型世界中至少 30% 的问答对携带 Hybrid 标签。关键在于,每个 Hybrid 问答对均经过验证,满足两个结构条件:(1)$C$ 中至少有一个会话包含对回答 $q$ 所需文档的显式引用;(2)标准答案无法仅从 $C$ 中推导出来,系统必须实际阅读被引用的文档。 ### 3.5 数据集统计 MemoryDocDataSet v1.0 包含法律领域(来自 Caselaw Access Project 的美国判例法)的 **50 个微型世界**,在微型世界层面按 70/14/16 划分为训练集、验证集和测试集(分别为 35/7/8 个世界;轻微不对称源于将 50 个完整微型世界进行整数除法)。表 3 总结了已发布数据集的实测结构属性,表 4 展示了问答对的分布情况。 表 3:MemoryDocDataSet v1.0 结构属性。文档来源于 Caselaw Access Project \[11\]。
相似文章
MARDoc:面向多模态长文档问答的记忆感知精炼代理框架
MARDoc是一种用于多模态长文档问答的记忆感知精炼代理框架,在MMLongBench-Doc和DocBench基准上使用Qwen3-VL模型进行评估,相比基于MLLM、RAG和代理的基线表现出持续改进。
SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准
SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
Cognis:面向对话式 AI 智能体的上下文感知记忆系统
Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。