ActiveMem:面向长程LLM推理的分布式主动记忆
摘要
ActiveMem提出了一种分布式主动记忆系统,将智能体记忆与大模型核心推理过程解耦,在长程任务上实现了最先进的准确率,同时显著降低了开销。
arXiv:2606.10532v1 公告类型:新
摘要:记忆对于使大语言模型(LLM)智能体能够处理长程推理任务至关重要。现有的记忆机制大多是集中式的,通常将检索到的信息和交互历史组织在单个模型上下文中。这种设计带来了一个根本性的权衡:扩展推理轨迹可能导致上下文过载,而激进的剪枝则可能导致不可逆的信息丢失。为了寻求更好的权衡,我们从人类认知系统中汲取灵感,特别是前额叶皮层(执行控制)和海马体(记忆管理)之间的功能互补性,这表明这种权衡并非必然存在,而可能源于集中式的记忆组织。为此,我们提出了ActiveMem,一个异构框架,将智能体记忆与核心推理过程解耦。具体来说,高层规划器利用提炼后的语义要点进行推理,同时一个轻量级的分布式记忆系统并行运行,在整个任务中主动积累和整合这些要点。在BrowseComp-Plus和GAIA上的实验表明,ActiveMem以显著降低的开销实现了最先进的准确率,证明了分布式主动记忆在长程推理中的有效性。
查看缓存全文
缓存时间: 2026/06/10 06:15
# ActiveMem:面向长时程LLM推理的分布式主动记忆 来源:https://arxiv.org/html/2606.10532 蒋云瀚^1,2, 段文彬^1,2, 郭莎莎^1, 庞亮^1††通讯作者, 孙晓茜^1, 沈华伟^1 ^1中国科学院计算技术研究所,人工智能安全国家重点实验室 ^2中国科学院大学 jiangyunhan20@mails\.ucas\.ac\.cn \{duanwenbin25e, guoshasha, pangliang, sunxiaoqian, shenhuawei\}@ict\.ac\.cn ###### 摘要 记忆对于使大语言模型(LLM)智能体能够处理长时程推理任务至关重要。现有的记忆机制大多是集中式的,通常将检索到的信息和交互历史组织在单一模型上下文中。这种设计引入了一个基本权衡:扩展推理轨迹可能导致上下文过载,而激进的内容剪枝可能导致不可逆的信息丢失。为了寻求更好的权衡,我们从人类认知系统中汲取灵感,特别是前额叶皮层(执行控制)和海马体(记忆管理)之间的功能互补,表明这种权衡并非固有,而可能源于集中式记忆组织。为此,我们提出了ActiveMem,这是一个异构框架,将智能体记忆与核心推理过程解耦。具体来说,一个高层规划器利用蒸馏的语义要点进行推理,而一个轻量级的分布式记忆系统则并行运行,在整个任务过程中主动累积和巩固这些要点。在BrowseComp-Plus和GAIA上的实验表明,ActiveMem以显著降低的开销实现了最先进的准确性,证明了分布式主动记忆在长时程推理中的有效性。 # ActiveMem:面向长时程LLM推理的分布式主动记忆 蒋云瀚^1,2, 段文彬^1,2, 郭莎莎^1††通讯作者, 庞亮^1††通讯作者, 孙晓茜^1, 沈华伟^1 ^1中国科学院计算技术研究所,人工智能安全国家重点实验室 ^2中国科学院大学 jiangyunhan20@mails\.ucas\.ac\.cn \{duanwenbin25e, guoshasha, pangliang, sunxiaoqian, shenhuawei\}@ict\.ac\.cn ## 1 引言 LLM智能体通过持续的多步交互在长时程推理任务中展现出卓越能力(Yao等人,2023 (https://arxiv.org/html/2606.10532#bib.bib5);Nakano等人,2021 (https://arxiv.org/html/2606.10532#bib.bib16);Wang等人,2024 (https://arxiv.org/html/2606.10532#bib.bib30))。然而,在这些复杂的流程中,交互上下文的持续扩展不可避免地使得工作记忆管理成为关键瓶颈(Zhang等人,2025b (https://arxiv.org/html/2606.10532#bib.bib29);Hu等人,2025b (https://arxiv.org/html/2606.10532#bib.bib32))。为此,有效的工作记忆必须选择性保留任务相关信息,并将模型注意力锚定在关键标记上,同时压缩活动上下文窗口,从而使智能体能够成功驾驭复杂的长时程任务。 参见图1说明 图1:ActiveMem在LLM-as-a-Judge准确率上优于现代集中式记忆智能体和原始ReAct LLM,同时实现了显著更低的计算成本。 参见图2说明 图2:(a) 耦合的集中式记忆 与 (b) 我们提出的解耦分布式记忆 (ActiveMem) 的比较。在集中式范式中,现有方法通过选择性保留记忆或将其压缩为步骤级摘要来管理上下文增长,用信息完整性换取有界上下文。ActiveMem采取不同路径:证据被路由到并行的记忆处理器,生成蒸馏的语义要点,持久存储在记忆碎片中并由操作器协调,使得规划器能够在一致紧凑的上下文上进行推理,而不丢弃底层信息。 尽管存在这种必要性,当前大多数推理系统都采用集中式架构,其中记忆紧密绑定到单一核心推理器。例如,在ReAct风格的智能体中,检索到的信息和中间轨迹持续累积在同一个模型上下文窗口中(Yao等人,2023 (https://arxiv.org/html/2606.10532#bib.bib5))。随着推理链的延伸,这种集中化不可避免地引发严重的上下文过载(Levy等人,2024 (https://arxiv.org/html/2606.10532#bib.bib3);An等人,2024 (https://arxiv.org/html/2606.10532#bib.bib4))以及“中间丢失”现象(Liu等人,2024 (https://arxiv.org/html/2606.10532#bib.bib17);Shi等人,2023 (https://arxiv.org/html/2606.10532#bib.bib1)),从而损害推理性能。为了缓解这一问题,当代方法引入了各种上下文压缩机制(Sun等人,2025 (https://arxiv.org/html/2606.10532#bib.bib8);Ye等人,2025 (https://arxiv.org/html/2606.10532#bib.bib9);Qian等人,2026 (https://arxiv.org/html/2606.10532#bib.bib13);Wu等人,2025 (https://arxiv.org/html/2606.10532#bib.bib39);Zhou等人,2025 (https://arxiv.org/html/2606.10532#bib.bib38);Zhang等人,2025a (https://arxiv.org/html/2606.10532#bib.bib42);Mei等人,2025 (https://arxiv.org/html/2606.10532#bib.bib33))。然而,这些策略不可避免地导致永久性信息丢失——要么完全丢弃旧记忆,要么将其压缩为粗粒度的步骤级摘要。这使得记忆内容不可逆转地退化,无法用于后续推理步骤(图2 (https://arxiv.org/html/2606.10532#S1.F2)(a))。这一困境暴露了集中式记忆设计的基本局限性:记忆存储和推理计算紧密耦合,在轨迹扩展和记忆保真度之间产生了固有的权衡。 汲取人类认知系统的灵感,我们认为这种看似固有的权衡从根本上源于集中式记忆组织的局限性。人脑通过前额叶皮层(执行控制)和海马体(记忆管理)之间的功能互补,巧妙地规避了这一瓶颈。前额叶皮层作为主执行控制器,发出自上而下的执行信号来指导检索,而不是充当详细记忆内容的大型存储库(Lara和Wallis,2015 (https://arxiv.org/html/2606.10532#bib.bib18))。互补地,海马体执行并行模式完成,整合这些执行信号以重新激活并在新皮层上分布整体的抽象信息(Horner等人,2015 (https://arxiv.org/html/2606.10532#bib.bib23)),经常将具体的片段细节交换为结构化的蒸馏语义要点(Hindy等人,2026 (https://arxiv.org/html/2606.10532#bib.bib19))。这一生物学机制暗示了一个有前景的设计范式:在结构上将记忆系统与推理过程解耦。 受上述见解的启发,我们引入了ActiveMem,这是一个异构框架,实现了解耦且分布式的主动记忆架构,以克服集中式范式的局限性。具体来说,ActiveMem由两个主要模块组成:一个高层规划器和一个分布式记忆系统。规划器处理推理和自上而下的查询生成,专注于在紧凑的上下文窗口上执行核心推理链。作为补充,分布式记忆系统用并行化且分片的架构取代了单块上下文缓冲区,该架构本质上是轻量级且主动的。该架构包含三个紧密协调的组件:(1) 记忆处理器,利用信息处理的固有并行性,并发处理检索到的文档并提取蒸馏的语义要点;(2) 记忆碎片,在整个任务生命周期中主动分区、持久存储并巩固这些要点;(3) 操作器,动态编排整个碎片网络中的主动路由和语义重用。如图2 (https://arxiv.org/html/2606.10532#S1.F2)(b)所示,这种协作设计使得规划器的上下文范围保持有界且干净,同时保留了文档级见解,从而显著缓解了轨迹扩展与记忆保真度之间的权衡。 贡献: (1) 受神经科学启发的认知解耦。我们提出了一个受前额叶皮层和海马体功能协同启发的解耦记忆-推理范式。该架构通过将执行控制与分布式记忆巩固分离,解放了集中式推理核心。 (2) ActiveMem框架。我们引入了ActiveMem,这是一个将上述范式具体化为分布式主动记忆架构的异构框架。它使记忆处理器能够并发处理检索到的文档并合成巩固的语义要点,这些要点在整个任务生命周期中动态维护在局部碎片中。 (3) 更低的计算成本带来优越的准确率。ActiveMem在九个基线中取得了最高的LasJ准确率,同时以PFLOPs衡量的计算复杂度显著更低,如图1 (https://arxiv.org/html/2606.10532#S1.F1)所示。 ## 2 相关工作 记忆管理已成为LLM智能体的核心挑战。现有的集中式方法可分为三种形式。第一种是原始的集中式记忆,其中原始轨迹或检索到的文档直接反馈到同一个模型上下文中,如ReAct风格的智能体(Yao等人,2023 (https://arxiv.org/html/2606.10532#bib.bib5))。第二种针对长期对话管理——方法如A-MEM(Xu等人,2025 (https://arxiv.org/html/2606.10532#bib.bib6))、Mem0(Chhikara等人,2025 (https://arxiv.org/html/2606.10532#bib.bib7))、MemGPT(Packer等人,2023 (https://arxiv.org/html/2606.10532#bib.bib34))、MemoryBank(Zhong等人,2024 (https://arxiv.org/html/2606.10532#bib.bib35))、Memory-R1(Yan等人,2025 (https://arxiv.org/html/2606.10532#bib.bib40))和Mem-α\alpha(Wang等人,2025 (https://arxiv.org/html/2606.10532#bib.bib41))专注于在长时间对话中保留用户交互历史,而不是支持工具增强的长时程推理。第三种更直接地解决长时程推理,要么通过基于压缩的策略来总结过去的轨迹或原始文档(Sun等人,2025 (https://arxiv.org/html/2606.10532#bib.bib8);Ye等人,2025 (https://arxiv.org/html/2606.10532#bib.bib9);Yu等人,2025 (https://arxiv.org/html/2606.10532#bib.bib10);Zhang等人,2025a (https://arxiv.org/html/2606.10532#bib.bib42)),要么通过工作记忆的结构化组织(Hu等人,2025a (https://arxiv.org/html/2606.10532#bib.bib12);Qian等人,2026 (https://arxiv.org/html/2606.10532#bib.bib13))。这些方法改进了智能体管理工作记忆的方式,并提升了处理长时程任务的能力,但记忆和推理仍然紧密耦合在一个中央推理节点内,在保留足够细节和维持高效推理之间产生了权衡。 少量但不断增长的工作探索跨多个智能体或模块的分布式记忆。MIRIX(Wang和Chen,2025 (https://arxiv.org/html/2606.10532#bib.bib15))引入了一个模块化的多智能体记忆系统,将记忆巩固分配给按记忆类型(如情景、语义和程序性记忆)组织的专用控制器。然而,这种分布形式遵循记忆分类法,而非推理过程中不断演变的信息需求。因此,其记忆模块不会在规划器发出的子查询下主动提炼任务相关信息,限制了它们对长时程推理任务的有效性,因为在这些任务中,相关证据必须动态解释并选择性地呈现给中央推理器。 我们的工作与这两条研究路线不同。集中式方法将记忆和推理紧密耦合在单一模型上下文中。压缩或截断该上下文的方法可以减少过载,但可能丢弃后续推理所需的信息。现有的分布式方法,如MIRIX,按照记忆类型而不是推理过程的信息需求来组织记忆,这限制了它们支持需要动态文档选择的长时程任务的能力。ActiveMem通过将记忆形成与推理解耦来解决这一局限性。并行记忆处理器在规划器发出的查询下处理原始文档,生成查询条件的记忆摘要,这些摘要存储在持久化的记忆碎片中,并在需要时选择性返回给规划器。 ## 3 方法 我们引入了ActiveMem,这是一个分布式记忆框架,将记忆管理与高层推理解耦。规划器生成检索查询并整合返回的语义要点,以指导后续推理或产生最终答案。分布式记忆系统由持久化的记忆碎片、轻量级的记忆处理器和操作器组成:记忆处理器并行处理检索到的文档并生成蒸馏的语义要点;记忆碎片在整个任务过程中主动累积并巩固这些要点;操作器协调跨碎片的路由、记忆重用和巩固。图3 (https://arxiv.org/html/2606.10532#S3.F3)展示了ActiveMem的整体架构。 参见图3说明 图3:我们的ActiveMem框架概述。规划器发出检索查询 \mathcal{Q}_t 以从外部语料库中召回文档。每个文档与其查询配对形成记忆任务,并路由到适当的碎片。对于重复文档,操作器检查与先前任务的语义相似性:如果相似,则直接返回存储的要点;否则,记忆器为规划器蒸馏新的要点,同时操作器异步将其巩固到碎片中。这将记忆与推理解耦——记忆系统在持久化碎片中持续累积要点,而规划器则在干净、紧凑的蒸馏上下文中运行。 ### 3.1 规划器 规划器维护一个紧凑的推理状态 s_t = (x, h_t, m_{t-1}),其中 x 是原始问题,h_t 记录修剪后的交互历史,m_{t-1} 包含从上一步返回的蒸馏记忆。为了保持推理上下文有界,ActiveMem 只保留最近的 K 个交互步骤: h_t = \mathrm{Trim}\left(h_{t-1} \cup \{a_t, o_t\}\right), (1) 其中 a_t 表示规划器的动作,o_t 表示工具观察。\mathrm{Trim} 只保留最近的 K 个交互步骤;丢弃的内容不会丢失,因为其要点已存储在记忆碎片中。规划器将此紧凑状态映射到一组检索查询,即: \mathcal{Q}_t = \pi(s_t), (2) 其中每个元素 (q_i, k_i) \in \mathcal{Q}_t 指定一个检索查询 q_i 及其检索预算 k_i,即规划器为该查询请求的文档数量。在收到来自记忆系统的蒸馏要点后,规划器更新其推理状态,并要么发出另一个检索请求,要么产生最终答案。 ### 3.2 分布式记忆系统 分布式记忆系统旨在保留文档级记忆,而不会使规划器的推理上下文过载。它包含三个组件:存储持久化要点的记忆碎片、并行记忆处理器来处理检索到的文档,以及操作器来管理碎片。相似文章
AdMem:面向任务求解智能体的高级记忆系统
本文介绍AdMem,一种面向基于LLM的智能体的统一记忆框架,整合语义记忆、情景记忆和程序性记忆,并采用双层短期与长期存储结构,通过多智能体架构实现自动记忆生成与自适应检索。实验表明,该方法在长程多轮任务中提升了鲁棒性和成功率。
RecMem:基于重复的记忆整合方法,用于高效且有效的长期运行LLM智能体
RecMem是一种基于重复的记忆整合方法,适用于长期运行的LLM智能体,通过仅在语义相似的交互重复出现时调用LLM,可减少高达87%的令牌消耗,同时提高准确性。
SimpleMem: 面向大语言模型智能体的高效终身记忆
介绍SimpleMem,一种面向LLM智能体的高效记忆框架,利用语义无损压缩提升准确率并降低token消耗,F1分数提升26.4%,推理时token使用量减少高达30倍。
@dair_ai: // δ-mem: LLM的高效在线记忆 // 这是我本月看到的最优雅的记忆机制之一。大多数长…
本文介绍了δ-mem,一种轻量级在线记忆机制,它通过delta规则学习更新的紧凑型关联记忆状态来增强冻结的LLM,在记忆密集型基准测试中取得了显著改进,无需微调或上下文扩展。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。