S3Mem:面向长周期交互式问答的结构化时空场景事件记忆
摘要
S3Mem 提出了一种用于长周期交互式问答的结构化时空场景事件记忆框架,采用锚点敏感检索和令牌预算感知的证据接口,在多个环境中优于标准 RAG。
arXiv:2605.28831v1 公告类型:新
摘要:长周期交互式智能体通常积累了大量的轨迹历史,但仍然无法可靠地回答关于早期事件的问题。我们认为主要瓶颈并非仅仅是上下文长度,而是长期记忆的轨迹到答案接口。当历史记录以纯文本块的形式存储,并使用标准检索增强生成(RAG)进行查询时,系统通常会检索到局部相关但链式不完整的证据,尤其是对于空间、时间、重复事件和多跳状态问题。我们提出了 S3MEM,一种用于长周期交互式问答(QA)的结构化场景事件情景记忆框架。S3MEM 将轨迹写入结构化的记忆单元,通过锚点敏感检索获取证据,并提供一个紧凑的、具有令牌预算感知的证据接口用于回答时的推理。从这个意义上说,S3MEM 是一个结构化的证据捆绑器,将智能体轨迹转换为查询对齐的支持。我们在两个内部头部环境(Crafter、Jericho)和两个不同家族环境(SciWorld、ALFWorld)上评估了 S3MEM。在共享的固定回答时间协议下,S3MEM 在所有四个环境中持续优于标准 RAG,在 Crafter、Jericho 和 ALFWorld 上超越了 Graph-NoReader,并在 SciWorld 上与其持平,同时使用的证据令牌数量大幅减少。三个改编的近期基线——A-MEM 启发、MemoryOS 改编和 LightMem 改编——在多个设置中优于标准 RAG,但都没有达到 S3MEM 的整体准确率-效率前沿。总的来说,证据支持一个有限的结论:在当前固定的回答时间协议下,结构化写入和锚点敏感证据路由为长周期交互式 QA 提供了比更通用的记忆接口更强的准确率-效率前沿。
查看缓存全文
缓存时间: 2026/05/29 09:11
# 结构化时空场景-事件记忆用于长程交互式问答 来源: https://arxiv.org/html/2605.28831 Encheng Su¹, Jinouwen Zhang³, Jianyu Wu², Qiucheng Yu⁴, Chen Tang⁵, Pengze Li⁶, Lintao Wang⁷, Yizhou Wang⁵,†, Xinzhu Ma⁸, Shixiang Tang⁵, Aoran Wang³,† ¹中国科学技术大学 ²上海交通大学 ³上海人工智能实验室 ⁴香港城市大学 ⁵香港中文大学 ⁶复旦大学 ⁷悉尼大学 ⁸北京航空航天大学 †通讯作者 ###### 摘要 长程交互式智能体通常会积累大量的轨迹历史记录,但仍然无法可靠地回答关于早期事件的问题。我们认为,主要的瓶颈不仅仅是上下文长度,而是长期记忆的*轨迹到答案的接口*。当历史记录以纯文本块的形式存储并使用标准的检索增强生成(RAG)进行查询时,系统通常检索到的证据在局部相关,但在链条上不完整,尤其是在涉及空间、时间、重复事件和多跳状态的问题上。我们提出**S3Mem**,一种结构化的场景-事件情景记忆框架,专为长程交互式问答(QA)设计。S3Mem将轨迹写入结构化的记忆单元,通过锚点敏感检索获取证据,并为答案推理提供一个紧凑的、对令牌预算感知的证据接口。从这个意义上说,S3Mem是一个结构化的证据管理工具,它将智能体轨迹转换为与查询对齐的支持证据。我们在两个内部头条环境(Crafter, Jericho)和两个域外环境(ScienceWorld, ALFWorld)上评估S3Mem。在共享的固定答案时间协议下,S3Mem在所有四个环境中持续优于Vanilla RAG,在Crafter、Jericho和ALFWorld上超越了Graph-NoReader,在ScienceWorld上与其性能相当,同时使用的证据令牌显著更少。三个经过适配的最新基线方法——A-MEM启发、MemoryOS适配和LightMem适配——在若干设置下相比Vanilla RAG有所改进,但没有任何一个能够匹配S3Mem的整体准确率-效率前沿。总体而言,证据支持一个有限的结论:在当前固定的答案时间协议下,结构化的写入和锚点敏感的证据路由为长程交互式QA提供了比通用记忆接口更强的准确率-效率前沿。 **关键词:** 情景记忆, 长程智能体, 交互式问答, 结构化检索, 证据接口 ## 1 引言 LLM/VLM智能体在基于文本的环境[8 (https://arxiv.org/html/2605.28831#bib.bib21),21 (https://arxiv.org/html/2605.28831#bib.bib23)]、视觉引导的交互[7 (https://arxiv.org/html/2605.28831#bib.bib20)]以及多步决策[26 (https://arxiv.org/html/2605.28831#bib.bib30)]方面取得了显著进展。然而,即使是强大的智能体,在回答关于剧情中较早发生的事件时仍然显得脆弱。这一弱点在*长程交互式问答*中尤为明显,系统不仅要记住过去的观察,还要能跨对象、事件、关系、状态变化和时间顺序恢复出可用的证据链。常见的做法是将轨迹历史外部化为文本块或简短摘要,然后使用检索增强生成(RAG)[13 (https://arxiv.org/html/2605.28831#bib.bib1)]检索top-k个片段。这种方法很简单,在短上下文中通常有效,但当问题依赖于重复事件消歧、时间偏移、空间推理或多跳状态跟踪时,就会失效。 问题不仅仅在于相关证据在轨迹中距离很远。更确切地说,通用的记忆接口以三种反复出现的方式削弱了轨迹到答案的传递。首先,将轨迹写成扁平文本会抹去后续推理所依赖的结构。其次,主要基于表面相似性的检索通常会返回局部相关但全局链不完整的片段。第三,答案阶段接收到的是冗长的非结构化片段,而非紧凑、与查询对齐的证据集,迫使模型自行重构链条。 因此,我们认为长程交互式QA不应仅仅被视为一个文本检索问题,而应被视为一个基于智能体生成轨迹的*情景证据构建*问题。适用于此设置的有用记忆接口应满足三个属性:(i) 它应将轨迹写入一个与交互过程对齐的结构化表示中;(ii) 它应使用基于问题的锚点(如目标步数、重复出现、状态转换)来检索证据;(iii) 它应在严格的令牌预算下暴露一个紧凑但充分的证据接口。 我们的核心主张是明确且有限的:在当前固定的答案时间协议下,长程交互式QA的关键不是暴露更多历史,而是从历史中暴露*正确的结构化证据*。 基于这一观点,我们提出S3Mem,一种用于长程交互式QA的结构化场景-事件情景记忆框架。S3Mem不是将交互历史视为通用文本,而是将每个交互步骤写入一个结构化的*记忆单元*,包含场景、事件、状态和时间上下文。在查询时,它执行*锚点敏感检索*,明确恢复目标步锚点、出现次数锚点和状态转换锚点。然后,它构建一个紧凑的、*对令牌预算感知的证据接口*,而不是逐字暴露所有检索到的证据。从这个意义上说,S3Mem应被理解为一个结构化的证据管理工具:它的作用是将长轨迹转换为最小的、与查询对齐的证据链,同时仍能支持答案推理。 这一框架也阐明了竞争基线的局限性。纯文本RAG、仅图检索以及最近的通用记忆邻居的主要弱点并非它们完全没有记忆,而是它们的记忆接口在长程、有预算的QA设置下泛化能力较弱。它们可能存储大量历史或有效地压缩历史,但它们不能一致地保留决定性的、带有锚点的步骤以及问题所需的最小局部链。因此,通用基线面临一个权衡:暴露更多历史可能提高准确率,但会以非常高的令牌成本为代价;而通用的压缩方法在减少令牌的同时,却无法恢复同样链完整的证据。因此,我们的目标不是构建一个通用的智能体操作系统,而是改进情景QA的轨迹到答案的接口。 我们在两个内部头条环境,Crafter[7 (https://arxiv.org/html/2605.28831#bib.bib20)]和Jericho[8 (https://arxiv.org/html/2605.28831#bib.bib21)],以及两个域外环境,ScienceWorld[23 (https://arxiv.org/html/2605.28831#bib.bib22)]和ALFWorld[21 (https://arxiv.org/html/2605.28831#bib.bib23)]上评估S3Mem。在所有四个环境中,S3Mem持续优于Vanilla RAG,并在Crafter、Jericho和ALFWorld上超越了Graph-NoReader基线,同时在ScienceWorld上与其性能相当,但证据成本显著降低。外部证据的解读有意比内部头条更窄。在ScienceWorld上,S3Mem主要展示了*效率泛化*:它在大幅减少证据令牌的同时保持了接近上限的准确率。在ALFWorld上,它展示了更强的*准确率和效率*提升。与此同时,Full-History控制实验表明,忽略令牌成本时暴露更多历史仍能提高准确率,因此本文最强有力的支持主张是一个*准确率-效率前沿*主张,而非无条件的准确率最优性。 我们通过三个互补的分析进一步强化了这一解读。首先,我们将S3Mem与三个最近的相邻记忆系统——A-MEM、MemoryOS和LightMem[25 (https://arxiv.org/html/2605.28831#bib.bib15),12 (https://arxiv.org/html/2605.28831#bib.bib16),4 (https://arxiv.org/html/2605.28831#bib.bib18)]——进行比较,这些系统已适配到相同的轨迹基础情景QA设置。其次,我们测试了性能提升的最强替代解释,即任何充分激进的通用压缩器是否可能恢复类似的前沿,通过Full-History、Summarize-then-Answer以及RTK风格的通用压缩控制。第三,我们通过一个四智能体Crafter推演研究检查了在轨迹源转移下的鲁棒性,并在ATM-Bench[27 (https://arxiv.org/html/2605.28831#bib.bib26)]上包含了一个额外的域外迁移测试。 我们的贡献有三方面: 1. **方法贡献:** 我们引入了S3Mem,一种结构化的场景-事件情景记忆接口,它统一了结构化写入、锚点敏感检索以及对令牌预算感知的证据暴露,用于长程交互式QA。 2. **实证贡献:** 我们在内部头条环境(Crafter, Jericho)上建立了更强的准确率-效率前沿,并通过在ScienceWorld上的效率泛化和在ALFWorld上的准确率+效率泛化展示了互补的域外证据。 3. **解读贡献:** 我们通过一套控制和鲁棒性测试套件——包括最近的相邻基线、上下文长度和通用压缩控制、写入端消融、回答者公平性诊断以及推演鲁棒性——限定了本文的主张范围,表明主要收益与在当前固定答案时间协议下的结构化证据管理工具一致,而剩余的最强非泛化性在于答案时间的消耗。 ## 2 相关工作 #### 纯文本检索与基于图的检索。 检索增强生成(RAG)通过从外部知识源检索的段落来增强语言模型[13 (https://arxiv.org/html/2605.28831#bib.bib1),6 (https://arxiv.org/html/2605.28831#bib.bib2),11 (https://arxiv.org/html/2605.28831#bib.bib3)]。对于长上下文问答,一种常见的适配是将历史扁平化为文本块,并在回答时检索top-k个片段。基于图的检索改进了扁平分块,将信息组织成图结构,更好地支持组合查询和关系感知推理[3 (https://arxiv.org/html/2605.28831#bib.bib4),9 (https://arxiv.org/html/2605.28831#bib.bib5),1 (https://arxiv.org/html/2605.28831#bib.bib19)]。这些方法对于静态语料库、文档集合和显式知识图谱是有效的。然而,长程交互式QA提出了一个不同挑战:证据分布在智能体生成轨迹中时间上分离的观察、动作、重新访问和状态转换之间。在此设置下,核心问题不仅仅是相关的片段或节点能否被检索到,而是检索到的证据在严格的答案时间预算下是否保留了问题所需的*场景-事件-状态-时间*链。我们的工作建立在这个检索文献之上,但针对一个不同的失效模式:当知识源是智能体自身的轨迹而非静态文本语料时,通用检索接口的弱点。 #### 智能体的结构化与层次化记忆。 越来越多的文献研究LLM和VLM基础智能体的记忆系统,包括自然语言记忆流、自我反思、笔记式记忆组织和层次化记忆管理[19 (https://arxiv.org/html/2605.28831#bib.bib6),20 (https://arxiv.org/html/2605.28831#bib.bib7),18 (https://arxiv.org/html/2605.28831#bib.bib8),22 (https://arxiv.org/html/2605.28831#bib.bib9),25 (https://arxiv.org/html/2605.28831#bib.bib15),12 (https://arxiv.org/html/2605.28831#bib.bib16),15 (https://arxiv.org/html/2605.28831#bib.bib17),4 (https://arxiv.org/html/2605.28831#bib.bib18)]。这些系统在持久记忆方面取得了重要进展,但它们通常针对更广泛的目标,如对话连续性、通用智能体基础设施、跨异构任务的长期记忆管理或在扩展的智能体生命周期内的持续适应。我们的设置更窄:我们研究基于智能体生成轨迹的*环境基础的长程问答*,其主要挑战是保留和暴露下游问题所需的决定性证据链。这使得我们的方法更接近于*结构化证据管理工具*,而非通用目的的智能体操作系统。在这个更广阔的领域中,A-MEM、MemoryOS和LightMem尤其相关,因为它们代表了三个相邻的设计家族——笔记链接组织、层次化记忆管理和效率导向的记忆构建——这些方法仍然适用于我们的设置,因此成为我们实验中最具信息性的近期可运行邻居。 #### 长程智能体记忆的基准测试。 最近的基准测试越来越侧重于评估长期记忆,而不是直接提出记忆方法,包括长程对话记忆和交互式智能体记忆基准[16 (https://arxiv.org/html/2605.28831#bib.bib24),24 (https://arxiv.org/html/2605.28831#bib.bib28),14 (https://arxiv.org/html/2605.28831#bib.bib25),10 (https://arxiv.org/html/2605.28831#bib.bib29),27 (https://arxiv.org/html/2605.28831#bib.bib26),17 (https://arxiv.org/html/2605.28831#bib.bib27)]。这些基准很有价值,因为它们表明当前智能体在长程记忆任务上仍然较弱,并揭露了朴素长上下文提示或简单检索中反复出现的失效模式。它们有助于确立*长程记忆是困难的*以及当前系统在何处失效。然而,它们本身并不能回答我们这里关注的方法问题:*当知识源是智能体自身的轨迹时,在令牌预算下,应该写入、检索和暴露什么作为证据?*我们的工作通过直接研究记忆表示和证据接口问题来补充这一基准文献,而不是引入一个新的基准家族。 #### 作为分析支持的程序化推理。 程序辅助推理方法将自然语言问题转换为可执行程序,并使用结构化执行来提高推理可靠性[5 (https://arxiv.org/html/2605.28831#bib.bib31),2 (https://arxiv.org/html/2605.28831#bib.bib32)]。在我们的工作中,解析器/执行器工具不是主要的方法家族。相反,它们作为*边界诊断*:帮助定位剩余的非泛化性中有多少在于答案时间的消耗,而非记忆接口本身。因此,我们不将S3Mem定位为语义解析系统。本文的核心贡献仍然是一个用于长程交互式QA的结构化记忆-证据接口。 ## 3 方法 ### 3.1 任务设置与概述 我们研究基于智能体生成轨迹的长程交互式问答。设一个剧情轨迹为 τ=(o₁,a₁,...,o_T,a_T),其中 o_t 是第 t 步的观察,a_t 是采取的动作。给定一个关于该轨迹的问题 q,系统必须预测一个答案 y。问题可能涉及单步查找、重复事件消歧、时间偏移、状态链推理、库存变化、位置访问以及基于早期事件的
相似文章
SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准
SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。
EviMem: 证据差距驱动的迭代检索用于长期对话记忆
EviMem结合了用于证据差距检测的IRIS和用于分层记忆的LaceMem,以改进长期对话记忆检索,在时间和多跳问题上实现了更高准确率和更低延迟。
学习检索:面向文本到SQL智能体的双层长期记忆
本文提出了MERIT,一种面向交互式文本到SQL智能体的动态多时域记忆检索框架,它使用情节级别和回合级别的记忆,并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明,MERIT在成功率上优于静态和单时域动态基线,同时需要更少的交互轮次。
EverMemOS: 面向结构化长程推理的自组织记忆操作系统
EverMemOS 是一种面向大语言模型的自组织记忆操作系统,通过将对话结构化为记忆单元和场景来增强长程推理能力。
SAM:面向长程推理智能体的状态自适应记忆
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。