StageMem:面向语言模型的生命周期管理记忆框架
摘要
StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。
arXiv:2604.16774v1 发布类型:新论文
摘要:长期运行的语言模型系统日益依赖持久化记忆,但许多现有架构仍将其主要视为静态存储:写入数据,存入记忆,日后按需检索。我们认为,这种设定未能准确刻画已部署大语言模型(LLM)系统中的实际记忆控制难题。在实际场景中,难点往往不在于单纯遗忘有用信息,而在于保留了过多不确定性高的条目、以错误顺序遗忘了关键内容,且用户对数据能否长期留存缺乏信任。为此,我们提出 StageMem,这是一种基于生命周期管理的记忆框架,将记忆视为有状态的处理流程而非被动仓库。StageMem 将记忆划分为三个层级——瞬态、工作态和持久态,并通过明确的置信度与强度指标对每个条目进行建模。该设计实现了浅层载入与长期承诺的解耦:信息可先以低开销写入,随后依据证据积累与负载压力的演变,动态决定其晋升、保留、更新或淘汰。在受控的压力调节机制下,这种分层策略有助于保护后期至关重要的内容,同时将整体记忆负担与深层存储污染限制在可控范围内。通过适配外部任务进行的边界验证表明,该架构在非纯合成控制的更强检索结构中依然高度兼容。本文旨在展示 StageMem 作为一套系统性方案,为语言模型系统的记忆控制问题提供了一种严谨的结构化分解思路。
查看缓存全文
缓存时间: 2026/04/21 07:04
# StageMem:面向语言模型的生命周期管理记忆系统 Source: https://arxiv.org/html/2604.16774 ###### 摘要 长期运行的语言模型系统日益依赖持久化记忆,但许多现有设计仍将其视为静态存储:写入一条信息、存入记忆库,后续需要时再检索。我们认为,这种框架未能充分反映部署中 LLM 系统所面临的实际记忆控制难题。在真实场景中,难点往往不在于遗忘有用信息,而在于保留了过多不确定内容、按错误顺序遗忘了关键信息,且用户对哪些内容能够长期留存缺乏信任。为此,我们提出 StageMem,一种基于生命周期管理的记忆框架,将记忆视为一种动态演进的过程而非被动仓储。StageMem 将记忆划分为三个状态阶段——*瞬时(Transient)*、*工作(Working)*与*持久(Durable)*记忆,并通过显式的*置信度(Confidence)*和*强度(Strength)*对每条记忆进行建模。该设计将浅层接纳与长期承诺解耦:信息可先以低代价写入,随后随着证据积累与系统压力的变化,再决定晋升、保留、更新或淘汰。在可控的压力机制下,这种架构分解既能有效保护后期才显现重要性的内容,又能更好地控制记忆负担与深层记忆的干扰。外部适配任务提供了边界验证,表明该模式在与更复杂的检索结构交互时依然保持兼容。本文旨在阐明 StageMem 如何为语言模型系统的记忆控制问题提供一种原则性的结构化解决方案。 StageMem:面向语言模型的生命周期管理记忆系统 Jiarui Han [email protected] ## 1 引言 大型语言模型在生成、推理、工具使用及交互能力上进步显著。然而在实际产品应用中,记忆仍是核心瓶颈之一。上下文窗口大小有限,即使明确支持长上下文的模型也未能始终稳健地在长输入中提取并利用相关信息(Wanget al\.,2023 (https://arxiv.org/html/2604.16774#bib.bib10); Liuet al\.,2024 (https://arxiv.org/html/2604.16774#bib.bib9))。用户对系统究竟会保留什么信息的控制权也十分有限,而最具破坏性的失误往往不是简单的遗漏。一种常见且令人沮丧的失败模式是非对称性的:系统保留了本不该长期留存的内容,而在记忆压力累积后,那些后来证明重要的信息却被遗忘。这严重削弱了用户信任,并直接限制了持久化 LLM 系统的实用价值。 现有方案从不同角度切入该问题,包括扩大有效上下文、图记忆、分层记忆、动态检索以及遗忘机制等。这些方向固然有价值,但往往存在结构性缺口:部分方法优化了检索却未明确记忆在被接纳后的演化规则;另一些则添加了遗忘或强化机制,却未将记忆构建为统一的运行架构。因此,我们提出 StageMem,一种生命周期管理的记忆框架,将记忆建模为状态系统而非静态存储。StageMem 将浅层接纳与后续的保留决策分离,将内容组织到瞬时、工作和持久记忆中,并通过显式的置信度和强度跟踪每项内容。这一视角兼具概念性与操作性:记忆的管理被视为在容量受限条件下对已接纳内容的生命周期管控,而非单次的前端准入决策。 该框架定位为架构模式而非针对特定基准的补丁。它已支持无图结构下的生命周期管理,兼容图增强检索,并能承载学习到的显著性特征或更丰富的未来状态而不改变底层分解逻辑。本文在受控但有意义的范围内验证该框架,聚焦于“后期遗忘顺序”问题:许多观察结果起初看似合理的记忆候选项,但只有少数后续被证明至关重要。这一研究动机源于近期发现,即即使对于长上下文和检索增强系统,长期对话记忆依然困难重重,且当前记忆基准测试仍存在重要的评估空白(Maharanaet al\.,2024 (https://arxiv.org/html/2604.16774#bib.bib18); Tanet al\.,2025a (https://arxiv.org/html/2604.16774#bib.bib21); Jiaet al\.,2025 (https://arxiv.org/html/2604.16774#bib.bib22))。在此范围内,我们表明生命周期管理能在压力下保护后期重要的内容,且与修正后的关系密集型外部评估兼容。 我们的贡献如下: - • 提出了一种新的 LLM 记忆范式,将其视为*生命周期管理的状态系统*,而非主要由前端准入和后续检索控制的静态存储。 - • 将该范式实例化为 StageMem,一种具备显式项目级置信度和强度的三阶段架构,从而以操作一致的方式将接纳与保留深度解耦。 - • 证明该框架解决了核心的实际记忆困境:允许暂态的浅层写入而无需强制立即做出长期承诺,并在后续压力下解决晋升与遗忘问题。 - • 在受控压力机制下,证实该生命周期分解有助于保护后期重要的内容,同时更好地控制记忆负担与深层干扰,并表明同一架构模式与学习到的显著性及图增强检索兼容。 - • 论证生命周期管理是 LLM 记忆系统的一个有价值架构方向,其核心难点不仅在于写什么,更在于已接纳的内容应在何时、以何种顺序进行保留或遗忘。 ## 2 相关工作 我们的工作与多条记忆研究脉络相关,但在设计理念的核心对象上有所不同。 #### 动态记忆控制与遗忘机制。 MemoryBank 及后续如 A-MEM、All-Mem、AtomMem 和个人化对话的反思式记忆管理系统均认识到记忆应随时间演化而非一成不变(Zhonget al\.,2023 (https://arxiv.org/html/2604.16774#bib.bib8); Xuet al\.,2025 (https://arxiv.org/html/2604.16774#bib.bib11); Lvet al\.,2026 (https://arxiv.org/html/2604.16774#bib.bib12); Huoet al\.,2026 (https://arxiv.org/html/2604.16774#bib.bib13); Tanet al\.,2025b (https://arxiv.org/html/2604.16774#bib.bib23))。StageMem 共享这一动机,但以生命周期状态和分阶溢出触发转换来框定问题,而非依赖更大的动作词表或独立的演化流程。 #### 生产级提取与整合流水线。 Mem0 是一项强大的面向产品的记忆流水线,包含提取、整合、检索及可选的图结构(Chhikaraet al\.,2025 (https://arxiv.org/html/2604.16774#bib.bib15))。相较于 StageMem,Mem0 更强调写入时的控制力;而 StageMem 强调浅层接纳,待长期价值尚未明朗时再做后续保留决策。 #### 分层记忆框架。 分层记忆已以多种形式出现,包括 MemGPT、HiMem 和 H-MEM 类方法(Packeret al\.,2023 (https://arxiv.org/html/2604.16774#bib.bib14); Zhanget al\.,2026 (https://arxiv.org/html/2604.16774#bib.bib16); Sun and Zeng,2025 (https://arxiv.org/html/2604.16774#bib.bib17))。这些工作确立了层级划分的价值。StageMem 在此基础上进一步强调层状态与项目状态的协同演化,而非仅仅关注层级本身。 #### 图记忆与关系结构。 图记忆是多关系检索和多跳访问的自然选择,例如 Mem0 的图变体。我们将图结构视为互补而非替代方案:图结构优化了遍历效率,而 StageMem 负责管理接纳、保留与遗忘。因此,此处的贡献是一种可承载更强检索结构的生命周期架构,而非全新的图检索方案。 纵观这些研究脉络,主要差异在于解构方式。前期系统通常强化特定环节(如提取、检索、遗忘或结构设计),而 StageMem 则将记忆项目的动态生命周期作为核心设计对象。 ## 3 问题设定与设计目标 我们针对的是实际产品中的记忆痛点,而非端到端的文本生成最优解:大量信息在初期值得存储,但仅有一小部分后续被证明至关重要。此类场景常见于长对话、持续性用户交互、助手记忆及长程任务执行中。 StageMem 围绕以下目标设计: - • 容量受限下的结构化保留:系统应能保留最终重要的内容,同时防止记忆负担失控增长。 - • 接纳与保留解耦:浅层写入不应自动等同于长期承诺。 - • 低开销运行:记忆管理不应在每个步骤引入巨大的额外计算负担。 - • 可解释性与可控性:记忆状态应足够简单,便于检查与推理。 - • 可扩展性:架构应能承载学习到的显著性特征、更强的检索结构以及未来的原生图扩展。 我们亦明确非目标:我们不声称该系统在全球意义上是最优的,不认为当前的三阶段分解或公式是唯一最佳方案,也不主张 StageMem 将取代所有现有记忆系统。目标更为聚焦:为记忆控制问题提供更清晰的组织框架。 ## 4 StageMem 框架 StageMem 的核心理念是将记忆建模为分阶段的状态演进过程。在框架层面,核心主张即是生命周期分解本身:将试探性接纳与后续的保留深度决策分离,使已接纳内容通过显式状态演进,而非由单一的前端判决决定。实验中使用的具体阈值、更新规则和学习组件是该框架内的一种稳定实现。 ### 4.1 概览 StageMem 包含三个记忆阶段: - • 瞬时记忆(Transient Memory):为新接纳项目提供低承诺的浅层存储; - • 工作记忆(Working Memory):为通过局部竞争的项目提供中间层存储; - • 持久记忆(Durable Memory):为积累足够支撑证据从而值得长期留存的内容提供深度存储。 在当前实现中,这些阶段对应缓存/内存/磁盘层级,但我们采用瞬时/工作/持久的术语以强调生命周期语义。 每条记忆条目包含两类信息: - • 内容(content):锚点值信息本身; - • 状态(state):显式的置信度和强度。 新观察到的信息会经过准入评估,若被接受则首先进入瞬时记忆,仅在某一层级填满时才重新评估。清理操作因此发生在压力节点,而非依赖对整个记忆库的持续维护。 ### 4.2 为何采用三阶段分解 三阶段设计兼顾记忆语义与计算效率。语义上,它映射了从试探性到持久性的保留层级。操作上,清理仅在层级填满时触发,这使得较弱的内容能在早期(尤其是在较小的瞬时层中)被过滤,避免污染深层记忆。从计算角度看也有利:控制器只需偶尔承担层级级别的清理成本,例如在容量为 $C$ 的层级上进行一次 $O(C)$ 或 $O(C \log C)$ 的扫描,同时降低了在回答时将不必要记忆反复暴露给 Transformer 所带来的高昂下游成本。 ### 4.3 置信度与强度 每个条目携带两个显式状态变量: - • 置信度(Confidence):系统当前对存储内容正确性的确信程度。 - • 强度(Strength):该条目应被保留的深度。 区分二者至关重要。置信度关乎存储值的准确性,而强度关乎记忆对象的持久性。某条记忆可能高度准确但对长期存储并无价值,也可能准确度一般但因反复出现而值得保留。因此,置信度决定修订与晋升资格,强度决定保留深度。 ### 4.4 准入与初始阶段分配 StageMem 将*准入(Admission)*与*保留深度(Retention Depth)*分离。在当前实现中,准入由保守的基于检索的新颖性检查控制。若最佳锚点匹配得分最大值属于 $[-1, 1]$ 区间,我们将其转换为有界新颖性得分: $$ n = \text{clip}\left(\frac{s_{\max} + 1}{2}, 0, 1\right). \quad (1) $$ 若未找到锚点匹配且 $n < \tau_{\text{create}}$,则将该条目作为新记忆接纳;否则系统放弃处理。我们将此规则呈现为一种简单有效的准入策略,而非框架内唯一的政策选项。其作用是对完全新颖的内容保持刻意保守,同时允许已被接纳的项目进入瞬时记忆,而无需迫使其立即做出长期决策。 底层直觉十分直观:前端关卡应过滤明显无用的内容,但许多信息初看既非明显无用,也非显然持久。因此,瞬时阶段充当低承诺的试验缓冲区,而非强制即时做出长期决定。 ### 4.5 晋升与淘汰逻辑 当某个阶段填满时,StageMem 会对该阶段执行统一的清理决策。在当前主配置中,我们采用基于置信度门控的强度规则。对于状态为 $(c_i, m_i)$ 的条目 $i$,其晋升判定为: $$ \text{promote}(i) = \mathbb{1}[c_i \geq \tau_c] \cdot \mathbb{1}[m_i \geq \tau_m], \quad (2) $$ 其中 $\tau_c$ 和 $\tau_m$ 为特定阶段的阈值。持久记忆无进一步晋升目标,因此在压力下仅执行淘汰。我们使用这组阈值作为消融实验识别出的稳定运行点,而非声称某一精确设置具有理论唯一性。 该逻辑有意设计为非对称的。置信度充当硬性语义门控,强度则在满足最低合理性后决定是否需要更深度的保留。淘汰阈值在更深层级也会更加严格,因此深层保留必须持续赢得。 ### 4.6 状态更新动力学 条目状态亦会通过使用和后续证据不断演进。在当前系统中: - • 强度(strength):在记忆被调用或以其他方式得到强化时增加,反映记忆巩固与重复效用; - • 置信度(confidence):当相关内容再次出现时更新,根据新证据是支持还是冲突于当前值而增或减。 在当前实现中,这些更新是连续进行的,并通过消融实验选定。支持与冲突的证据会以相反方向影响置信度,强度增长更为保守,且深层阶段的可塑性低于浅层阶段。因此,置信度表现为累积状态而非一次性判决。完整的运算公式见附录。本文的核心建模原则是:置信度决定内容有效性,强度决定保留深度,且两者随条目生命周期共同演进。 ### 4.7 学习到的显著性与扩展性 该架构兼容学习型组件。在当前扩展中,学习到的显著性机制为已接纳的各项资源分配*初始强度* ra
相似文章
δ-mem:大型语言模型的高效在线记忆机制
本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。
Δ-Mem:大型语言模型的高效在线记忆
提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。
EverMemOS: 面向结构化长程推理的自组织记忆操作系统
EverMemOS 是一种面向大语言模型的自组织记忆操作系统,通过将对话结构化为记忆单元和场景来增强长程推理能力。
Mem0:利用可扩展的长期记忆构建生产就绪的 AI 智能体
Mem0 引入了一种基于图表示的可扩展内存中心架构,旨在提升大语言模型(LLM)在长期对话中的连贯性,在显著降低延迟和 Token 成本的同时,性能优于现有的记忆系统。
@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型,用于存储、检索和整合…
MeMo 引入了一种模块化记忆模型,可为任何 LLM 增强存储、检索和整合新知识的能力,无需重新训练或担心灾难性遗忘。它在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 等基准测试上优于基于 RAG 的方法。