智能体记忆是数据库吗？重新思考长期AI智能体记忆的数据基础

arXiv cs.AI 2026/05/27 04:00 论文

agent-memory data-management long-term-memory ai-agents database state-evolution research

摘要

本文重新思考长期AI智能体记忆的数据基础，认为当前的数据库范式存在不足。它引入了受控演化记忆（GEM），一种包含状态级别操作符和正确性条件的形式化方法，并提出了一个名为MemState的原型，构建在属性图后端之上。

arXiv:2605.26252v1 公告类型：新摘要：长期运行的AI智能体需要持久记忆。记忆支持跨会话的学习，减少重复的上下文注入，并能够审计过去的决策。当前的智能体记忆系统和数据库范式将记忆视为存储。它们将正确性定位于记录、嵌入或边。每个仅提供长期记忆所需的部分能力。结果是四种反复出现的故障模式：无监管的增长、缺失语义修订、容量驱动的遗忘以及只读检索。在我们的愿景中，长期智能体记忆是一种新的数据管理工作负载。其正确性是状态轨迹的属性，而非单个记录的属性。我们将其形式化为受控演化记忆（GEM）。GEM用四个状态级别操作符（摄入、修订、遗忘和检索）取代了记录级别的数据库操作。六个正确性条件约束状态的演化。三个结构性观察表明，无论存储模型如何，任何记录级别的系统都无法满足这些条件。我们在MemState中实现了这一抽象，MemState基于属性图后端构建。MemState验证了可行性，并揭示了与原生引擎之间的差距。我们概述了三个研究方向，将记忆中心的数据管理定义为一个工作负载。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:02

# 智能体记忆是一种数据库吗？重新思考长期AI智能体记忆的数据基础
来源：https://arxiv.org/html/2605.26252
###### 摘要

长期运行的AI智能体需要持久化记忆。记忆支持跨会话学习、减少重复的上下文注入，并可审计过往决策。当前的智能体记忆系统和数据库范式将记忆视为存储。它们将正确性定位在记录、嵌入或边上。每种方案仅提供长期记忆所需的部分能力。这导致四种反复出现的失效模式：无节制的增长、缺少语义修订、基于容量的遗忘和只读检索。在我们的愿景中，长期智能体记忆是一种新型的数据管理工作负载。其正确性是状态轨迹的属性，而非单个记录的属性。我们将其形式化为受管演化记忆（Governed Evolving Memory, GEM）。GEM用四种状态级操作符取代了记录级数据库操作：摄取、修订、遗忘和检索。六个正确性条件规定了状态如何演化。三个结构性观察表明，无论采用何种存储模型，没有任何记录级系统能满足这些条件。我们在MemState原型上实现了这一抽象，该原型基于属性图后端。MemState验证了可行性，并暴露了与原生引擎之间的差距。我们提出了三个研究方向，将记忆中心的数据管理定义为一个工作负载。

††版权声明：无

## 关键贡献
- 将长期智能体记忆数据化形式化为 Mt = (Dt, St, Pt)，包含四个操作符（摄取、修订、遗忘、检索）和六个正确性条件
- 将智能体记忆重新定义为一种新的数据管理工作负载，指出现有数据系统的不足
- MemState：基于嵌入式属性图引擎构建的原型，展示了所提出的基础
- 面向长期AI智能体的受管演化记忆的研究议程

代码：https://github.com/CoDS-GCS/MemState

## 1. 引言

参见图注

图1：智能体记忆作为追加记录存储，跨越三个周快照。基于数据库操作，它追加新记录并按时间淘汰旧记录，从不整合状态。这暴露了四种失败（1、2、3和4）。

表1：受管记忆所需的四种能力在数据库范式和智能体记忆系统中的覆盖情况。每个单元格描述了该系列如何实现该能力。"无"表示没有原生支持。没有系列能支持全部四种，每个系列都贡献了其他系列所缺乏的一种基础优势。

| 系列 | 相关性驱动保留 | 依赖感知传播 | 分级衰减 | 状态修改检索 | 基础优势 |
|------|--------------|-------------|---------|------------|---------|
| **数据库范式** | | | | | |
| 关系型 | 无 | 仅外键 | 无 | 无 | 模式，ACID |
| 键值/文档 | 无 | 无 | 无 | 无 | 灵活或无模式 |
| RDF/属性图 | 无 | 有类型、实体粒度 | 无 | 无 | 有类型的结构关系 |
| 时序数据库 | 无 | 无 | 无 | 无 | 版本化历史 |
| 向量数据库 | 无 | 几何邻近 | 无 | 无 | 语义相似度 |
| **智能体记忆系统** | | | | | |
| 分层（MemGPT, MemOS） | 无 | 无 | 无 | 无 | 两级分页 |
| 事实提取（Mem0） | 无 | 无 | 无 | 无 | 原子事实维护 |
| 图结构（Zep） | 无 | 单边失效 | 无 | 无 | 双时间边 |
| 整合（MIRIX, EverMemOS） | 无 | 无 | 预判过期 | 无 | 有类型组件，场景整合 |
| RL驱动（Mem-α, Memory-R1） | 无 | 无 | 无 | 无 | 学习更新策略 |
| 生成式智能体 | 重要性排序 | 无 | 无 | 访问时更新时效 | 重要性+反思 |

AI智能体作为持久化系统运行，与用户、工具和环境交互 (CrewAI Inc., 2025; OpenAI, 2025b; LangChain Inc., 2026)。与问答系统不同 (Omar et al., 2023, 2026)，它们必须跨会话维护和修订信息 (Tan et al., 2025; Hu et al., 2025)。为支持这一行为，智能体将信息持久化存储在上下文窗口之外的外部记忆中 (Packer et al., 2023; Li et al., 2025; Xu et al., 2025; Wang and Chen, 2025; Rasmussen et al., 2025)。这种持久化状态决定了智能体行为是否会随着交互积累而保持稳定，还是性能会下降 (Wu et al., 2025; Hu et al., 2025)。因此，长期记忆改变了智能体的能力。它让智能体通过将先前的决策和约束带入后续任务和会话中，实现跨任务和跨会话学习。它还能通过避免重复的上下文注入来减少推理成本和延迟。

当前的记忆设计并未保留这些特性。大多数记忆设计反而遵循一种累积策略，不断追加新信息，同时保持已存储的条目不变 (LangChain Inc., 2026; OpenAI, 2025b; Wang and Chen, 2025; Xu et al., 2025; Rasmussen et al., 2025)。图1追踪了同一记忆在三个周快照中的这一行为。每一列代表一周的记忆状态，每个框代表一个已存储的条目。从第0周到第1周，新增了记录，冗余条目开始累积。随着状态增长，更新后的事实与过时的事实并存。到第2周，较旧的条目根据时间而不是根据其对用户的重要性被淘汰。然后检索操作在这一不断演化的混乱状态上进行。这些行为已经出现在日常的LLM应用中。ChatGPT (OpenAI, 2025a) 和 Claude (Anthropic, 2025b) 会保留用户偏好，但仍会将过时的事实作为当前事实呈现。Cursor (Anysphere, 2025) 和 Claude Code (Anthropic, 2025a) 会学习代码库，但随着上下文增长会丢失之前的决策。代价落在用户身上。用户不得不重新解释系统已经见过的上下文。随着上下文增长，用户还要支付更高的推理成本。

这些系统从传统数据库继承了记录级CRUD操作（创建、读取、更新、删除）。因此，记忆操作作用于单个记录，而不是作用于演化的记忆状态本身。这种不匹配导致了图1所示的四种反复出现的失效模式。

1*无节制的增长。*追加式摄取会累积冗余和低相关性的条目。当用户重新解释一项任务时，相同的事实会被再次摄取（例如，项目记录"网站重新设计||截止日期：3月15日"在第1周被存储了两次）。这些冗余条目在检索时相互竞争，并消耗LLM上下文窗口空间，挤掉了有用的内容。

2*缺少语义修订。*更新被追加而不是整合到现有条目中。在第1周，"截止日期已更新：4月20日"作为新条目被存储，而"截止日期：3月15日"仍然存在。查询"网站重新设计的截止日期是什么？"可能返回"3月15日"而不是"4月20日"（基于查询和消息嵌入之间的语义相似度）(Tan et al., 2025; Hu et al., 2025)。

3*缺乏选择性遗忘。*当存储空间填满时，记忆必须淘汰内容。但淘汰是由时间或容量驱动的，而不是由用户重要性驱动的。在图1的第2周，项目截止日期被淘汰，而低相关性的条目"讨论了午餐偏好"仍然存在。同一截止日期查询现在返回"我不知道"，尽管用户之前问过。系统无法根据事实对用户的相关性来保留事实 (Maharana et al., 2024)。

4*只读检索。*检索返回事实，但从不更新记忆状态 (Wu et al., 2025; Wang and Chen, 2025)。用户每周都查询项目截止日期，但该条目没有获得重要性，后来和其他条目一样被淘汰（失效模式3）。因此，用户交互模式无法强化有用信息或保护其不被遗忘。频繁访问的事实与过时内容处于同等竞争地位。

这些限制反映了抽象差距，而非实现问题。每种失效都追溯到一种CRUD操作：创建无法整合，更新无法传播，删除无法调节相关性，读取无法适应。更大的上下文窗口或更好的检索无法解决这种不匹配 (Tan et al., 2025; Hu et al., 2025)。限制在于缺少演化语义，而非检索质量。

**贡献。** 本文将长期智能体记忆定位为一种新的数据管理工作负载，其正确性存在于状态轨迹中，而非单个记录中。我们的贡献是：

- •一个**四能力分析视角**（相关性驱动保留、依赖感知传播、分级衰减和状态修改检索），表明没有数据库范式或智能体记忆系统能提供全部四种能力（第2节）。
- •**受管演化记忆（GEM）**，一种状态抽象，用四个状态级操作符（摄取、修订、遗忘、检索）取代记录级CRUD，并在状态轨迹上定义了六个正确性条件。三个结构性观察表明，无论底层存储系统如何，没有基于CRUD的系统能满足这些条件（第3节）。
- •**MemState**，一个在属性图后端上实现GEM的原型，具有基于主题的存储、类型化依赖和声明式策略。该原型验证了可行性，并揭示了原生引擎必须提供什么（第4节）。
- •一个**研究议程**，涵盖三个方向：原生引擎、轨迹级正确性以及多租户记忆下的隐私，并附有明确的成功标准。（第5节）。

## 2. 为什么当前抽象会失败

我们通过受管记忆所需的四种能力来考察数据库范式和最新的智能体记忆系统。每种能力是表1中的一列，也是图1中的一种失效模式。表1涵盖了五种数据库范式和五种智能体记忆系统系列，外加生成式智能体 (Park et al., 2023) 作为最接近的单一方法。每个系列贡献了一种基础优势。没有一个能覆盖所有四种能力。

### 数据库范式和记忆系列

数据库范式的区别在于它们存储什么以及如何更新。关系型存储在固定模式下管理记录 (Codd, 1970)。键值和文档存储放宽了这一限制，使用无模式或灵活模式 (DeCandia et al., 2007; Chang et al., 2008)。RDF和属性图在实体之间添加了类型化关系 (Angles and Gutierrez, 2008; Francis et al., 2018; Neumann and Weikum, 2010; Perez et al., 2009)。时序数据库对元组进行版本化以保留历史 (Jensen and Snodgrass, 2002; Snodgrass, 1999)。向量数据库为语义相似度索引嵌入向量 (Wang et al., 2021; Pan et al., 2024a)。

智能体记忆系统根据其主要机制分为五个系列。分层设计（MemGPT (Packer et al., 2023)、MemOS (Li et al., 2025)）实现两级分页：一个小的上下文内活动层和一个较大的外部存储层。当活动层填满时，按时间或大小进行淘汰。事实提取系统（Mem0 (Chhikara et al., 2025)）将交互解析为原子事实并在冲突时覆盖。图结构系统（Zep (Rasmussen et al., 2025)）通过类型化边链接条目并双时间失效以保留历史。整合系统（MIRIX (Wang and Chen, 2025)、EverMemOS (Hu et al., 2026)）将内容路由到专门的记忆类型中，并将相关条目聚合成更高级别的结构。RL驱动系统（Mem-α (Wang et al., 2025)、Memory-R1 (Yan et al., 2025)）通过强化学习更新策略，根据下游答案质量奖励操作。生成式智能体 (Park et al., 2023) 根据重要性对记忆进行排序，并在读取时更新时效性。每个系列贡献了一种基础优势；表1显示了每个系列的不足之处。本节其余部分将依次考察每种能力。

### 2.1. 相关性驱动保留

相关性驱动保留通过效用限定活动记忆的大小，从而在交互增长时稳定推理成本。没有它，记忆会单调增长，冗余条目会挤掉有用条目（失效模式1）。

**数据库范式**通过容量或时间限制增长，而非效用。关系型和文档存储使用TTL过期或手动删除 (Elmasri and Navathe, 2016)；时序数据库对版本化元组实施保留窗口 (Jensen and Snodgrass, 2002)；向量数据库按容量或时间修剪嵌入向量 (Wang et al., 2021; Pan et al., 2024b)。高实用性和低实用性的事实以相同速度过期（在图1中，"讨论了午餐偏好"与项目截止日期按相同时间表过期）。没有范式通过相关性来限制记忆。

**智能体记忆系统**重复了这一模式。基于层级、基于生命周期、基于容量和学习控制器的淘汰都依赖于时间或大小 (Packer et al., 2023; Li et al., 2025; Hu et al., 2026; Chhikara et al., 2025; Wang et al., 2025; Yan et al., 2025)。生成式智能体 (Park et al., 2023) 最为接近。它们结合了重要性分数与时效性衰减

智能体记忆是数据库吗？重新思考长期AI智能体记忆的数据基础

相似文章

智能体记忆是数据库吗？

你认为智能体记忆主要是一个AI问题，还是一个恰好被AI使用的基础设施/数据管理问题？

智能体记忆：剖析

Oracle Agent Memory作为面向长周期AI智能体的企业级记忆基座

AI 智能体记忆机制详解（28 分钟阅读）

提交意见反馈