受人类启发的LLM智能体记忆架构

arXiv cs.AI 2026/05/12 04:00 论文

llm-agents memory-management microsoft neuroscience-inspired long-context research

摘要

微软研究人员提出了一种受生物学启发的LLM智能体记忆架构，该架构结合了睡眠阶段巩固和基于干扰的遗忘机制，以高效管理持久性记忆。

arXiv:2605.08538v1 公告类型：新论文摘要：当前的大型语言模型（LLM）智能体缺乏在长交互周期内管理持久性记忆的有效机制。我们提出了一种基于生物学原理的记忆架构，包含六种认知机制：（1）睡眠阶段巩固，（2）基于干扰的遗忘，（3）印迹成熟，（4）检索时的再巩固，（5）实体知识图谱，以及（6）混合多线索检索。每种机制都针对朴素记忆累积的特定失效模式。我们引入了一种合成校准方法，无需接触基准数据即可推导所有流程阈值，消除了评估泄漏的一个常见来源。我们在两个基准数据集上进行了评估。首先，在一个VSCode问题跟踪数据集（13,000个问题，120,000个事件）上，基于去重的巩固方法实现了97.2%的保留精度，同时减少了58%的存储空间（比基线高21.8个百分点）。其次，在LongMemEval个人聊天基准测试中，我们首次进行了流式M级评估（475个会话，约540,000个独特轮次）。在200K token的上下文预算下，我们的流程在检索准确率上与原始检索方法持平（70.1% vs. 71.2%，95%置信区间重叠），同时揭示了可调的准确率/存储空间操作曲线。在S级规模（50个会话）下，基于去重的巩固方法使偏好回忆提升了13.3个百分点。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:17

# 受人类启发的 LLM 智能体记忆架构
来源: https://arxiv.org/html/2605.08538
Doga Kerestecioglu Microsoft &Alexei Robsky Microsoft &Clemens Vasters Microsoft &Anshul Sharma Microsoft &Yitzhak Kesselman Microsoft

###### 摘要

当前的 LLM 智能体缺乏在长交互时间范围内管理持久记忆的有原则的机制。我们提出了一种基于生物学基础的记忆架构，包含六种认知机制：(1) 睡眠期巩固，(2) 基于干扰的遗忘，(3) 记忆痕迹成熟，(4) 检索时的再巩固，(5) 实体知识图谱，以及 (6) 混合多线索检索。每种机制都针对朴素记忆累积的特定失效模式。我们引入了一种合成校准方法，该方法从不接触基准数据的人工生成语料库中派生所有管道阈值，从而消除了评估泄露的一个常见来源。我们在两个基准上进行了评估。首先，在一个 VSCode 问题追踪数据集（13K 个问题，120K 个事件）上，基于去重的巩固实现了 97.2% 的保留精度，存储减少 58%（比基线高出 21.8 个百分点）。其次，在 LongMemEval 个人聊天基准上，我们进行了首次流式 M 级评估（475 个会话，约 540K 个唯一轮次）。在 200K token 的上下文预算下，我们的管道匹配原始检索精度（70.1% 对比 71.2%，95% 置信区间重叠），同时揭示了一条可调节的精度/存储大小操作曲线。在 S 级规模（50 个会话）下，基于去重的巩固使偏好回忆提高了 13.3 个百分点。

## 1 引言

大型语言模型（LLM）智能体在推理、规划和任务执行方面展现了卓越的能力。然而，一个根本性的限制制约了它们在企业环境中的效用：缺乏持久且自适应的记忆。当前的方法可分为三类，每类都有不足之处。

无状态智能体独立对待每次交互，在会话之间丢失所有上下文。这迫使用户反复重新建立上下文，并防止智能体从过去的交互中学习。

上下文窗口方法试图通过用历史信息扩展提示来维持记忆。最近的进展已将上下文窗口扩展到数百万个 token，但这种方法增加了成本而没有提升智能（即，智能体仍然无法优先处理、遗忘或学习）。同样，基于滚动摘要的方法随着历史的增长会受到复合信息损失的困扰。

向量数据库方法（RAG）基于嵌入相似性存储和检索信息。虽然比无状态设计有所改进，但这些系统平等对待所有信息，缺乏巩固或遗忘机制，并且无法根据新信息演化记忆。

我们提出了一种从根本上不同的方法，灵感来源于人类神经科学，并提出了一种基于人类记忆系统神经科学的记忆架构。我们的设计通过引入 (1) 多层存储，(2) 离线巩固，(3) 自适应遗忘，(4) 渐进成熟，和 (5) 检索时的再巩固，实现了使生物记忆有效的关键机制。该架构旨在实现企业级可扩展性、治理和集成。

#### 贡献。

本文做出以下贡献：

- •一种基于生物学基础的记忆架构，将六种认知机制映射到系统组件，并为每个组件提供详细规范。本文中有四种机制有消融证据（*巩固*、*遗忘*、*图检索*、*重要性评分*）。另外两种为实现操作完整性而实施，但需要当前基准中不存在的部署条件。*成熟*需要数周的重复检索才能激活，而*再巩固*需要跨会话的矛盾，这两者在 LongMemEval 的构建中均结构性缺失。
- •一种合成校准方法，从根据固定规范生成的 LLM 语料库中派生所有管道阈值（不接触基准数据），从而消除评估泄露。
- •一种流式评估协议，按时间顺序顺序处理会话，模拟真实的智能体部署。
- •在 LongMemEval S 级上的九种配置消融研究，带有自举 95% 置信区间，隔离了巩固、遗忘、再巩固和图检索的贡献。
- •流式 M 级评估（每个问题 475 个会话，约 540K 个唯一轮次），证明在 200K token 上下文预算下，管道匹配原始检索精度，并在较低预算下揭示了一条可调节的精度/存储大小操作曲线。

本文的其余部分组织如下。§2 (https://arxiv.org/html/2605.08538#S2) 回顾了生物学基础。§3 (https://arxiv.org/html/2605.08538#S3) 介绍了技术架构。§§4 (https://arxiv.org/html/2605.08538#S4)–6 (https://arxiv.org/html/2605.08538#S6) 详细介绍了巩固、遗忘和成熟机制。§7 (https://arxiv.org/html/2605.08538#S7) 涵盖检索和智能体集成。§8 (https://arxiv.org/html/2605.08538#S8) 描述了实验方法，§9 (https://arxiv.org/html/2605.08538#S9) 展示了评估结果。§§10 (https://arxiv.org/html/2605.08538#S10)–12 (https://arxiv.org/html/2605.08538#S12) 讨论相关工作、局限性和结论。

## 2 生物学基础

我们的架构基于六项既定的神经科学原理。表 1 (https://arxiv.org/html/2605.08538#S2.T1) 总结了从生物机制到系统设计的映射。

表 1：从系统机制到神经科学灵感的映射。互补学习系统理论 McClelland 等人 (1995 (https://arxiv.org/html/2605.08538#bib.bib12)) 的核心见解是，快速的陈述性编码（海马体）和缓慢的语义提取（新皮层）服务于不同的角色。我们的架构镜像了这一点。向量存储提供高保真度的陈述性检索，而知识图谱通过巩固积累语义关系。睡眠期巩固 Frankland 和 Bontempi (2005 (https://arxiv.org/html/2605.08538#bib.bib4)) 在离线运行以去重和合并冗余痕迹。遗忘结合了指数痕迹衰减（艾宾浩斯遗忘曲线）与检索引起的干扰 Anderson (2003 (https://arxiv.org/html/2605.08538#bib.bib15))。记忆成熟遵循 Kitamura 等人 Kitamura 等人 (2017 (https://arxiv.org/html/2605.08538#bib.bib6)) 的发现，即记忆痕迹立即形成但在几天内保持“沉默”，直到变得明确可检索。再巩固 Nader 等人 (2000 (https://arxiv.org/html/2605.08538#bib.bib21)) 使检索到的记忆能够在不稳定性窗口期间用新信息进行更新，防止陈旧事实无限期持续。图层基于认知心理学中的语义网络和传播激活理论。

## 3 技术架构

该架构将三个生物记忆层级映射到系统组件：*短期*（前额叶皮层 → 热缓存，内存中，TTL 分钟-小时），*中期*（海马体 → 温陈述性存储，全保真度，TTL 天-周），和 *长期*（新皮层 → 知识图谱，语义和永久）。具体来说，系统由三层组成：(1) *摄入层*，存储带有嵌入和元数据富集的原始事件；(2) *陈述性存储*，提供对近期记忆的时间索引向量搜索，带有分层缓存；和 (3) *语义图*，按实体关系组织长期记忆，启用多跳遍历查询。所有三层共享统一数据层，消除服务间的数据移动并实现统一治理。

## 4 记忆巩固管道

巩固管道通过计划批处理（默认为每 6 小时，但根据领域优化）实现生物锐波涟漪机制，识别、验证、转换和提升有价值的记忆到长期存储。未提升的事件保留在陈述性存储中，受基于 TTL 的过期影响，主动遗忘机制独立运行（第 5 节 (https://arxiv.org/html/2605.08538#S5)）。

#### 重要性评分。

每个待处理事件使用五个因素进行长期保留价值评分（表 2 (https://arxiv.org/html/2605.08538#S4.T2)）：

S\(e\)=∑i=15wi⋅fi\(e\)=\sum_{i=1}^{5}w_{i}\cdot f_{i}(e) (1) 其中 \(f_{i}\) 代表每个评分因素，\(w_{i}\) 代表其权重。事件按综合得分分类：提升（前 20%），保留（中间 60%），和修剪（后 20%）。

表 2：带有默认权重的重要性评分因素。
#### 下游阶段。

在过滤之前，时间验证步骤检测乱序到达、重复和因果倒置，隔离异常事件（TTL: 15 分钟）以防止“智能体既视感”。基于得分的过滤然后降低自动化和低权限事件的权重，同时保留高惊讶度的系统警报。提升的事件通过 LLM 生成的摘要和聚类转换为语义摘要，然后与实体边一起集成到知识图谱中。新集成的记忆以“沉默”状态开始，具有低激活强度（第 6 节 (https://arxiv.org/html/2605.08538#S6)），确保只有稳定的知识影响长期推理。

## 5 自适应遗忘

我们的架构将遗忘视为提高检索精度、减少干扰并确保相关性的必要维护。

#### 被动衰减。

未巩固的事件在 TTL 过期时自动移除。对于等待巩固的事件，重要性得分衰减：

I\(t\)=I0⋅e−λt=I_{0}\cdot e^{-\lambda t} (2) 其中 \(\lambda\) 是衰减率（经验优化：\(\lambda=0.001\)，对应于半衰期 ≈ 29 天），\(t\) 是自编码以来的小时数。

#### 基于干扰的遗忘。

当记忆共享特征（类似内容、重叠实体）时，它们会产生检索干扰。我们计算干扰得分并有选择地遗忘高干扰、低价值的记忆：

Iinterference=∑jwj⋅sim\(mi,mj\)=\sum_{j}w_{j}\cdot\text{sim}(m_{i},m_{j}) (3) 其中 \(w_{j}\) 代表干扰权重（倒摄=0.6，前摄=0.4），反映了新学习更强烈地破坏旧记忆的发现。

#### 优雅降级。

在完全遗忘之前，记忆通过六个级别经历渐进式保真度降低，从完整的陈述性记录（L0, 100%）通过摘要（L2, 50%）和概要（L3, 25%）到墓碑记录（L5, 0%），后者仅保留记忆存在的事实。降级由年龄结合记忆得分触发，而非存储经济性。

## 6 记忆成熟动力学

遵循 Kitamura 等人关于记忆痕迹立即形成但在变得可检索之前保持“沉默”的发现，我们的架构实现了记忆成熟。当事件被巩固时，全保真度的陈述性记录立即可检索，而知识图谱中创建了摘要的语义版本，其 `activation_strength=0.0`。这种双痕迹设计确保智能体保持响应性。因此，近期事件始终可从陈述性存储中获取，而语义层仅积累经过验证的稳定知识。

激活强度根据 sigmoid 函数演变：

A\(t\)=11+e−(t−t1/2)/k=\frac{1}{1+e^{-(t-t_{1/2})/k}} (4) 其中 \(t_{1/2}\) 是成熟半衰期（默认：168 小时），\(k\) 是斜率参数（默认：48）。记忆开始时是沉默的（\(A \approx 0.03\)），在一周时达到检索阈值（\(A=0.5\)），在两周时完全成熟（\(A > 0.9\)）。低于阈值时，记忆仍可通过隐式*启动*效应影响其他记忆的相关性评分，而不被明确表面化。这镜像了生物上隐式和显式记忆的区别。

## 7 检索与智能体集成

### 7.1 混合检索

记忆检索结合陈述性和语义路径，镜像大脑的双重检索系统。关键的是，系统优先考虑近期查询的陈述性检索，确保用户不会因语义成熟而经历延迟。

陈述性检索：跨陈述性存储的热和温层进行向量相似性搜索，带有针对会话和近期记忆的时间过滤器。这是近期形成记忆的主要路径。

语义检索：知识图谱的多跳遍历，用于关系感知、模式基础的知识。此路径用成熟的抽象知识补充陈述性检索，并在陈述性 TTL 过期后成为旧信息的主要路径。

混合 GraphRAG：向量搜索种子图遍历，结合近期性和关系上下文。检索跨越所有三层，按优先级排序：(1) 当前会话的短期热缓存（亚秒级，最高优先级）；(2) 近期陈述性记忆的温向量存储（按重要性得分过滤）；(3) 成熟语义记忆的知识图谱遍历（按激活强度过滤）。结果合并、去重并按近期性提升排名。

### 7.2 再巩固

检索到的记忆进入不稳定状态，并在可配置窗口内保持可修改（默认：60 分钟，最优值取决于领域），实现生物再巩固。当通过带有新上下文的显式检索、矛盾检测或阐述性检索检测到新信息时，系统根据置信度、近期性和矛盾严重程度使用自适应强度将其与现有记忆内容混合。

记忆得分也根据结果调整，为成功决策做出贡献的记忆得到强化，而错误则作为学习信号保留。

## 8 实验方法

评估记忆系统的一个中心挑战是*阈值泄露*：在基准数据上调优的参数会夸大报告的精度。我们通过合成校准解决这一问题，从不接触评估基准的固定规范生成的 LLM 语料库中派生所有管道阈值。

### 8.1 合成校准

我们构建两个合成语料库用于阈值派生：

#### 相似性阈值。

八个主题多样的个人聊天会话（88 轮次）使用评估中相同的模型（text-embedding-3-large, 3072 维度）进行嵌入。我们计算会话内和跨会话相似性分布。近去重阈值设置为所有成对相似性的第 99 百分位（0.559）；聚类距离为会话内相似性的 \(1-P_{95}\)（0.404）；干扰阈值为会话内相似性的 \(P_{90}\)（0.542）。这些百分位规则无需重新调优即可跨领域转移。

#### 重要性权重。

五十个 LLM 生成的会话（483 轮次，377 实质性，106 填充）跨越三个模拟月份中的 14 个主题，由主题列表、实质性/填充比率及返回主题结构的固定规范生成。每轮次都带有嵌入在生成规范中的显式实质性/填充标签。我们计算四个信号（内容长度、嵌入惊讶、轮次位置、近期性）的每信号 ROC AUC，并通过 AUC 超额归一化派生权重。我们的发现揭示，内容长度（AUC=0.77, 权重=0.363）和轮次位置（权重=0.325）占主导地位，而近期性（AUC=0.51, 权重

相似文章

从存储到经验：大语言模型智能体记忆机制演进综述

Hugging Face Daily Papers

本综述论文提出了一种大语言模型（LLM）智能体记忆机制的演进框架，将其发展划分为三个阶段：存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力，旨在为下一代智能体的设计提供指导原则。

HeLa-Mem：面向LLM智能体的赫布学习与联想记忆

arXiv cs.CL

# HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents 来源：[https://arxiv.org/html/2604.16839](https://arxiv.org/html/2604.16839) Jinchang Zhu1,∗,a, Jindong Li1,∗, Cheng Zhang2,∗, Jiahong Liu3, Menglin Yang1,†,b 1香港科技大学（广州） 2吉林大学 3香港中文大学 [email protected] [email protected] ∗同等贡献 †通讯作者 ###### 摘要长...

受人类启发的LLM智能体记忆架构

相似文章

从存储到经验：大语言模型智能体记忆机制演进综述

HeLa-Mem：面向LLM智能体的赫布学习与联想记忆

SuperLocalMemory V3.3: 活体大脑——面向零LLM智能体记忆系统的生物启发式遗忘、认知量化与多通道检索

Mem0：利用可扩展的长期记忆构建生产就绪的 AI 智能体

从回想到遗忘：为个性化智能体评估长期记忆

提交意见反馈