受人类启发的LLM智能体记忆架构

arXiv cs.AI 论文

摘要

微软研究人员提出了一种受生物学启发的LLM智能体记忆架构,该架构结合了睡眠阶段巩固和基于干扰的遗忘机制,以高效管理持久性记忆。

arXiv:2605.08538v1 公告类型:新论文 摘要:当前的大型语言模型(LLM)智能体缺乏在长交互周期内管理持久性记忆的有效机制。我们提出了一种基于生物学原理的记忆架构,包含六种认知机制:(1)睡眠阶段巩固,(2)基于干扰的遗忘,(3)印迹成熟,(4)检索时的再巩固,(5)实体知识图谱,以及(6)混合多线索检索。每种机制都针对朴素记忆累积的特定失效模式。我们引入了一种合成校准方法,无需接触基准数据即可推导所有流程阈值,消除了评估泄漏的一个常见来源。我们在两个基准数据集上进行了评估。首先,在一个VSCode问题跟踪数据集(13,000个问题,120,000个事件)上,基于去重的巩固方法实现了97.2%的保留精度,同时减少了58%的存储空间(比基线高21.8个百分点)。其次,在LongMemEval个人聊天基准测试中,我们首次进行了流式M级评估(475个会话,约540,000个独特轮次)。在200K token的上下文预算下,我们的流程在检索准确率上与原始检索方法持平(70.1% vs. 71.2%,95%置信区间重叠),同时揭示了可调的准确率/存储空间操作曲线。在S级规模(50个会话)下,基于去重的巩固方法使偏好回忆提升了13.3个百分点。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:17

# 受人类启发的 LLM 智能体记忆架构
来源: https://arxiv.org/html/2605.08538
Doga Kerestecioglu Microsoft &Alexei Robsky Microsoft &Clemens Vasters Microsoft &Anshul Sharma Microsoft &Yitzhak Kesselman Microsoft

###### 摘要

当前的 LLM 智能体缺乏在长交互时间范围内管理持久记忆的有原则的机制。我们提出了一种基于生物学基础的记忆架构,包含六种认知机制:(1) 睡眠期巩固,(2) 基于干扰的遗忘,(3) 记忆痕迹成熟,(4) 检索时的再巩固,(5) 实体知识图谱,以及 (6) 混合多线索检索。每种机制都针对朴素记忆累积的特定失效模式。我们引入了一种合成校准方法,该方法从不接触基准数据的人工生成语料库中派生所有管道阈值,从而消除了评估泄露的一个常见来源。我们在两个基准上进行了评估。首先,在一个 VSCode 问题追踪数据集(13K 个问题,120K 个事件)上,基于去重的巩固实现了 97.2% 的保留精度,存储减少 58%(比基线高出 21.8 个百分点)。其次,在 LongMemEval 个人聊天基准上,我们进行了首次流式 M 级评估(475 个会话,约 540K 个唯一轮次)。在 200K token 的上下文预算下,我们的管道匹配原始检索精度(70.1% 对比 71.2%,95% 置信区间重叠),同时揭示了一条可调节的精度/存储大小操作曲线。在 S 级规模(50 个会话)下,基于去重的巩固使偏好回忆提高了 13.3 个百分点。

## 1 引言

大型语言模型(LLM)智能体在推理、规划和任务执行方面展现了卓越的能力。然而,一个根本性的限制制约了它们在企业环境中的效用:缺乏持久且自适应的记忆。当前的方法可分为三类,每类都有不足之处。

无状态智能体独立对待每次交互,在会话之间丢失所有上下文。这迫使用户反复重新建立上下文,并防止智能体从过去的交互中学习。

上下文窗口方法试图通过用历史信息扩展提示来维持记忆。最近的进展已将上下文窗口扩展到数百万个 token,但这种方法增加了成本而没有提升智能(即,智能体仍然无法优先处理、遗忘或学习)。同样,基于滚动摘要的方法随着历史的增长会受到复合信息损失的困扰。

向量数据库方法(RAG)基于嵌入相似性存储和检索信息。虽然比无状态设计有所改进,但这些系统平等对待所有信息,缺乏巩固或遗忘机制,并且无法根据新信息演化记忆。

我们提出了一种从根本上不同的方法,灵感来源于人类神经科学,并提出了一种基于人类记忆系统神经科学的记忆架构。我们的设计通过引入 (1) 多层存储,(2) 离线巩固,(3) 自适应遗忘,(4) 渐进成熟,和 (5) 检索时的再巩固,实现了使生物记忆有效的关键机制。该架构旨在实现企业级可扩展性、治理和集成。

#### 贡献。

本文做出以下贡献:

- •一种基于生物学基础的记忆架构,将六种认知机制映射到系统组件,并为每个组件提供详细规范。本文中有四种机制有消融证据(*巩固*、*遗忘*、*图检索*、*重要性评分*)。另外两种为实现操作完整性而实施,但需要当前基准中不存在的部署条件。*成熟*需要数周的重复检索才能激活,而*再巩固*需要跨会话的矛盾,这两者在 LongMemEval 的构建中均结构性缺失。
- •一种合成校准方法,从根据固定规范生成的 LLM 语料库中派生所有管道阈值(不接触基准数据),从而消除评估泄露。
- •一种流式评估协议,按时间顺序顺序处理会话,模拟真实的智能体部署。
- •在 LongMemEval S 级上的九种配置消融研究,带有自举 95% 置信区间,隔离了巩固、遗忘、再巩固和图检索的贡献。
- •流式 M 级评估(每个问题 475 个会话,约 540K 个唯一轮次),证明在 200K token 上下文预算下,管道匹配原始检索精度,并在较低预算下揭示了一条可调节的精度/存储大小操作曲线。

本文的其余部分组织如下。§2 (https://arxiv.org/html/2605.08538#S2) 回顾了生物学基础。§3 (https://arxiv.org/html/2605.08538#S3) 介绍了技术架构。§§4 (https://arxiv.org/html/2605.08538#S4)–6 (https://arxiv.org/html/2605.08538#S6) 详细介绍了巩固、遗忘和成熟机制。§7 (https://arxiv.org/html/2605.08538#S7) 涵盖检索和智能体集成。§8 (https://arxiv.org/html/2605.08538#S8) 描述了实验方法,§9 (https://arxiv.org/html/2605.08538#S9) 展示了评估结果。§§10 (https://arxiv.org/html/2605.08538#S10)–12 (https://arxiv.org/html/2605.08538#S12) 讨论相关工作、局限性和结论。

## 2 生物学基础

我们的架构基于六项既定的神经科学原理。表 1 (https://arxiv.org/html/2605.08538#S2.T1) 总结了从生物机制到系统设计的映射。

表 1:从系统机制到神经科学灵感的映射。互补学习系统理论 McClelland 等人 (1995 (https://arxiv.org/html/2605.08538#bib.bib12)) 的核心见解是,快速的陈述性编码(海马体)和缓慢的语义提取(新皮层)服务于不同的角色。我们的架构镜像了这一点。向量存储提供高保真度的陈述性检索,而知识图谱通过巩固积累语义关系。睡眠期巩固 Frankland 和 Bontempi (2005 (https://arxiv.org/html/2605.08538#bib.bib4)) 在离线运行以去重和合并冗余痕迹。遗忘结合了指数痕迹衰减(艾宾浩斯遗忘曲线)与检索引起的干扰 Anderson (2003 (https://arxiv.org/html/2605.08538#bib.bib15))。记忆成熟遵循 Kitamura 等人 Kitamura 等人 (2017 (https://arxiv.org/html/2605.08538#bib.bib6)) 的发现,即记忆痕迹立即形成但在几天内保持“沉默”,直到变得明确可检索。再巩固 Nader 等人 (2000 (https://arxiv.org/html/2605.08538#bib.bib21)) 使检索到的记忆能够在不稳定性窗口期间用新信息进行更新,防止陈旧事实无限期持续。图层基于认知心理学中的语义网络和传播激活理论。

## 3 技术架构

该架构将三个生物记忆层级映射到系统组件:*短期*(前额叶皮层 → 热缓存,内存中,TTL 分钟-小时),*中期*(海马体 → 温陈述性存储,全保真度,TTL 天-周),和 *长期*(新皮层 → 知识图谱,语义和永久)。具体来说,系统由三层组成:(1) *摄入层*,存储带有嵌入和元数据富集的原始事件;(2) *陈述性存储*,提供对近期记忆的时间索引向量搜索,带有分层缓存;和 (3) *语义图*,按实体关系组织长期记忆,启用多跳遍历查询。所有三层共享统一数据层,消除服务间的数据移动并实现统一治理。

## 4 记忆巩固管道

巩固管道通过计划批处理(默认为每 6 小时,但根据领域优化)实现生物锐波涟漪机制,识别、验证、转换和提升有价值的记忆到长期存储。未提升的事件保留在陈述性存储中,受基于 TTL 的过期影响,主动遗忘机制独立运行(第 5 节 (https://arxiv.org/html/2605.08538#S5))。

#### 重要性评分。

每个待处理事件使用五个因素进行长期保留价值评分(表 2 (https://arxiv.org/html/2605.08538#S4.T2)):

S\(e\)=∑i=15wi⋅fi\(e\)=\sum_{i=1}^{5}w_{i}\cdot f_{i}(e) (1) 其中 \(f_{i}\) 代表每个评分因素,\(w_{i}\) 代表其权重。事件按综合得分分类:提升(前 20%),保留(中间 60%),和修剪(后 20%)。

表 2:带有默认权重的重要性评分因素。
#### 下游阶段。

在过滤之前,时间验证步骤检测乱序到达、重复和因果倒置,隔离异常事件(TTL: 15 分钟)以防止“智能体既视感”。基于得分的过滤然后降低自动化和低权限事件的权重,同时保留高惊讶度的系统警报。提升的事件通过 LLM 生成的摘要和聚类转换为语义摘要,然后与实体边一起集成到知识图谱中。新集成的记忆以“沉默”状态开始,具有低激活强度(第 6 节 (https://arxiv.org/html/2605.08538#S6)),确保只有稳定的知识影响长期推理。

## 5 自适应遗忘

我们的架构将遗忘视为提高检索精度、减少干扰并确保相关性的必要维护。

#### 被动衰减。

未巩固的事件在 TTL 过期时自动移除。对于等待巩固的事件,重要性得分衰减:

I\(t\)=I0⋅e−λt=I_{0}\cdot e^{-\lambda t} (2) 其中 \(\lambda\) 是衰减率(经验优化:\(\lambda=0.001\),对应于半衰期 ≈ 29 天),\(t\) 是自编码以来的小时数。

#### 基于干扰的遗忘。

当记忆共享特征(类似内容、重叠实体)时,它们会产生检索干扰。我们计算干扰得分并有选择地遗忘高干扰、低价值的记忆:

Iinterference=∑jwj⋅sim\(mi,mj\)=\sum_{j}w_{j}\cdot\text{sim}(m_{i},m_{j}) (3) 其中 \(w_{j}\) 代表干扰权重(倒摄=0.6,前摄=0.4),反映了新学习更强烈地破坏旧记忆的发现。

#### 优雅降级。

在完全遗忘之前,记忆通过六个级别经历渐进式保真度降低,从完整的陈述性记录(L0, 100%)通过摘要(L2, 50%)和概要(L3, 25%)到墓碑记录(L5, 0%),后者仅保留记忆存在的事实。降级由年龄结合记忆得分触发,而非存储经济性。

## 6 记忆成熟动力学

遵循 Kitamura 等人关于记忆痕迹立即形成但在变得可检索之前保持“沉默”的发现,我们的架构实现了记忆成熟。当事件被巩固时,全保真度的陈述性记录立即可检索,而知识图谱中创建了摘要的语义版本,其 `activation_strength=0.0`。这种双痕迹设计确保智能体保持响应性。因此,近期事件始终可从陈述性存储中获取,而语义层仅积累经过验证的稳定知识。

激活强度根据 sigmoid 函数演变:

A\(t\)=11+e−(t−t1/2)/k=\frac{1}{1+e^{-(t-t_{1/2})/k}} (4) 其中 \(t_{1/2}\) 是成熟半衰期(默认:168 小时),\(k\) 是斜率参数(默认:48)。记忆开始时是沉默的(\(A \approx 0.03\)),在一周时达到检索阈值(\(A=0.5\)),在两周时完全成熟(\(A > 0.9\))。低于阈值时,记忆仍可通过隐式*启动*效应影响其他记忆的相关性评分,而不被明确表面化。这镜像了生物上隐式和显式记忆的区别。

## 7 检索与智能体集成

### 7.1 混合检索

记忆检索结合陈述性和语义路径,镜像大脑的双重检索系统。关键的是,系统优先考虑近期查询的陈述性检索,确保用户不会因语义成熟而经历延迟。

陈述性检索:跨陈述性存储的热和温层进行向量相似性搜索,带有针对会话和近期记忆的时间过滤器。这是近期形成记忆的主要路径。

语义检索:知识图谱的多跳遍历,用于关系感知、模式基础的知识。此路径用成熟的抽象知识补充陈述性检索,并在陈述性 TTL 过期后成为旧信息的主要路径。

混合 GraphRAG:向量搜索种子图遍历,结合近期性和关系上下文。检索跨越所有三层,按优先级排序:(1) 当前会话的短期热缓存(亚秒级,最高优先级);(2) 近期陈述性记忆的温向量存储(按重要性得分过滤);(3) 成熟语义记忆的知识图谱遍历(按激活强度过滤)。结果合并、去重并按近期性提升排名。

### 7.2 再巩固

检索到的记忆进入不稳定状态,并在可配置窗口内保持可修改(默认:60 分钟,最优值取决于领域),实现生物再巩固。当通过带有新上下文的显式检索、矛盾检测或阐述性检索检测到新信息时,系统根据置信度、近期性和矛盾严重程度使用自适应强度将其与现有记忆内容混合。

记忆得分也根据结果调整,为成功决策做出贡献的记忆得到强化,而错误则作为学习信号保留。

## 8 实验方法

评估记忆系统的一个中心挑战是*阈值泄露*:在基准数据上调优的参数会夸大报告的精度。我们通过合成校准解决这一问题,从不接触评估基准的固定规范生成的 LLM 语料库中派生所有管道阈值。

### 8.1 合成校准

我们构建两个合成语料库用于阈值派生:

#### 相似性阈值。

八个主题多样的个人聊天会话(88 轮次)使用评估中相同的模型(text-embedding-3-large, 3072 维度)进行嵌入。我们计算会话内和跨会话相似性分布。近去重阈值设置为所有成对相似性的第 99 百分位(0.559);聚类距离为会话内相似性的 \(1-P_{95}\)(0.404);干扰阈值为会话内相似性的 \(P_{90}\)(0.542)。这些百分位规则无需重新调优即可跨领域转移。

#### 重要性权重。

五十个 LLM 生成的会话(483 轮次,377 实质性,106 填充)跨越三个模拟月份中的 14 个主题,由主题列表、实质性/填充比率及返回主题结构的固定规范生成。每轮次都带有嵌入在生成规范中的显式实质性/填充标签。我们计算四个信号(内容长度、嵌入惊讶、轮次位置、近期性)的每信号 ROC AUC,并通过 AUC 超额归一化派生权重。我们的发现揭示,内容长度(AUC=0.77, 权重=0.363)和轮次位置(权重=0.325)占主导地位,而近期性(AUC=0.51, 权重

相似文章

从存储到经验:大语言模型智能体记忆机制演进综述

Hugging Face Daily Papers

本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。