Memora: 平衡抽象与具体性的和谐记忆表示
摘要
Memora 是一个可扩展的 AI 智能体记忆系统,它将存储与检索解耦,在长周期任务上实现了最先进的性能,同时使用的 token 数量减少了高达 98%。该研究发表于 ICML 2026。
暂无内容
查看缓存全文
缓存时间: 2026/07/02 23:09
# Memora 扩展智能体记忆,提升长周期任务生产力
来源:https://www.microsoft.com/en-us/research/blog/memora-a-harmonic-memory-representation-balancing-abstraction-and-specificity/
三个极简白色图标,背景为紫到粉渐变。从左到右:沙漏、圆形仪表盘、一对带斜线的尖括号。
## 概览
- 当前的 AI 智能体无法记住过往交互。它们必须反复被喂入相关信息,或从外部来源检索,这在处理更长、更复杂任务时效率低下。要扩展智能体能力,我们需要一种更高效的方式来随时间保留和访问信息。
- **Memora** 是一种可扩展的记忆系统,通过解耦**存储什么**(丰富记忆内容)与**如何检索**(轻量抽象与提示锚点),平衡抽象性与具体性,从而显著提升智能体在长周期任务上的生产力。
- Memora 在 LoCoMo 和 LongMemEval 上刷新了最先进水平,在性能上超越 Mem0、RAG 和全上下文推理,同时使用的上下文令牌最多减少 98%。
- Memora 论文(在新标签页中打开)(https://arxiv.org/abs/2602.03315)发表于 ICML 2026。Memora 代码已在 https://github.com/microsoft/Memora 开源。
设想一个职场 AI 助手,协助你运行一个持续数月的项目。经过数周的对话,你分享了约束条件、商定了里程碑、修订了截止日期、还浮现出数十位利益相关者的偏好。当你后续要求它为同事起草一份更新时,它应该回忆起的不仅是最近的决定,而是达成最终方案的整个过程:尝试过什么、排除了什么、谁发表了意见。如今的 AI 智能体在这方面力不从心。现代大型语言模型(LLM)推理能力强大,但本质上无状态:每次会话从零开始,每次长对话迫使模型重新读取整个历史,每条新信息要么以原始文本存储(碎片化且嘈杂),要么被压缩成模糊的摘要(丢失精确细节)。随着 AI 助手和自主智能体进入长周期部署——例如跟踪项目数月之久的副驾驶,或通过长期使用积累专业领域知识的研究智能体——缺乏有原则的记忆系统已成为关键瓶颈。
一系列新兴工作开始填补这一空白。像 Mem0 这类系统从对话中提取原子事实;检索增强(RAG)方法为原始文本片段建立索引以便后续召回;而基于图的记忆系统(如 Zep 和 GraphRAG)通过实体关系施加结构。每一种都代表了真正的进步,但都遇到了同样的障碍:现有设计迫使在具体性(保留精细细节)和抽象性(高效组织不断增长的记忆)之间做出不可避免的权衡。Memora 旨在让智能体两者兼得。
## 什么是 Memora
**Memora**(https://www.microsoft.com/en-us/research/publication/memora-a-harmonic-memory-representation-balancing-abstraction-and-specificity/)是一个面向长周期 AI 智能体的智能体记忆框架。Memora 的核心洞见是将存储内容与检索方式解耦。记忆内容可以保持丰富且富有表现力,例如项目时间线、关于约束的多轮讨论,而一个独立的轻量*结构*层则负责索引和检索。最终得到的是一套可扩展的记忆系统:它将相关信息整合为稳定单元,在需要时呈现精细细节,并让智能体在不重读全部历史的情况下导航自身记忆。在标准长对话基准测试上,Memora 取得了最先进的性能,同时使用的令牌比将完整历史直接放入上下文的做法最多减少 98%。
### 为何困难:抽象性与具体性的张力
现有记忆系统走向两个极端。**内容碎片化系统**(如 RAG 和 Mem0)直接嵌入提取的事实或文本片段。这保留了细节,但产生了脆弱、孤立的条目,失去了叙事连贯性。**粗粒度抽象系统**则将经历压缩为紧凑摘要。它们效率高,但摘要剥离了约束、边界情况和数字细节,而这些正是记忆有用之初的原因。基于图的系统在内容之上添加结构,但检索仍依赖内容本身,且通常需要无法跨领域泛化的严格本体。没有一个能解决抽象性(保持记忆高效)与具体性(赋予记忆实用性)之间的根本张力。
Memora 架构概览图,展示了多模态数据如何被分段、转换为结构化记忆条目和隐式记忆图,然后通过策略驱动的过程(利用组相对学习优化)进行检索,返回相关的情景记忆。
图1:Memora 架构概览
## Memora 的工作原理
Memora 通过一种谐和组织解决了这一张力。每条记忆条目包含两个部分:一个**主要抽象**——简短短语(6–8 个词)捕捉记忆的根本主题,以及一个保存丰富内容本身的**记忆值**。关键的是,只有主要抽象被嵌入用于相似性搜索;记忆值从不通过其自身内容被直接检索。这种分离意味着关于一个演变主题的新信息会合并到主要抽象相同的现有记忆条目中,而不是碎片化为一连串部分重复。作为主要抽象的补充,**提示锚点**是从每条记忆值中提取的短小、上下文敏感的标签,为同一记忆提供替代访问路径。它们充当灵活、有机生成的元数据。
具体来说:假设用户说:“Dave 和 Sarah 同意将原型推迟到4月1日,试点推迟到5月2日,MVP 推迟到5月30日。”知识图谱系统需要预定义实体类型和关系模式:Person → agreed\_on → Milestone → has\_date → Date,任何新的关系类型都需要扩展模式。在 Memora 中,主要抽象 *Updated Project Orion timeline agreed by Dave and Sarah* 作为规范访问点,而提示锚点如 *Dave Project Orion update*、*Project Orion prototype schedule* 和 *Project Orion pilot timeline* 提供替代检索路径——所有这些无需承诺一个本体。后续关于 Dave 近期贡献、原型计划或试点时机的查询都可以通过不同的线索路由到同一底层记忆,而完整细节保留在记忆值中。
在此表示之上,Memora 引入了**策略引导检索器**,将记忆访问视为主动推理过程。它不是一次性返回 top-k 语义相似项,而是迭代优化查询,通过提示锚点扩展以浮现相关但不相似的记忆,并决定何时停止。这让智能体能导航到纯语义搜索会遗漏的关联非局部上下文,像人类回忆关联事件时那样追踪多跳依赖关系。检索策略可以借助强大 LLM 进行手工提示,也可以通过强化学习蒸馏到更小的模型中。
人工智能体验亮点
[](https://aka.ms/research-copilot/?OCID=msr_researchforum_Copilot_MCR_Blog_Promo)
## 微软研究副驾驶体验
通过我们的人工智能体验,发现更多关于微软的研究
## 结果
柱状图比较了各记忆系统在 LoCoMo 上的总体得分(使用 LLM 评判、F1 和 BLEU 指标)。Memora (P) 获得了最高的 LLM 评判分数 (0.863),其次是 Memora (S) (0.849) 和全上下文 (0.825)。Memora 变体在所有三个指标上均优于其他基于记忆的方法。
图2:Memora 在 LoCoMo 数据集上的表现
我们在两个长上下文基准上评估 Memora:**LoCoMo**(对话平均 600 轮)和 **LongMemEval**(上下文 115,000 令牌)。Memora 在两个基准上都取得了新的最先进水平:LoCoMo 上 LLM 评判准确率 86.3%,LongMemEval 上 87.4%,优于 RAG、Mem0、Nemori、Zep、LangMem 甚至全上下文推理。差距最大的是多跳推理,Memora 通过提示锚点进行遍历的能力带来了最大回报。效率方面的故事同样令人瞩目:Memora 每段对话存储的记忆条目大约是 Mem0 的一半(344 条 vs. 651 条),并且相对于全上下文推理,令牌消耗最多减少 98%。读得更少、存得更少、回答更好。
## 展望
Memora 的设计影响超越了基准性能。我们将这项工作视为向 AI 智能体迈出的一步——这些智能体能够维持与用户的长期协作,并在数月乃至数年间积累组织知识,而不仅限于单次会话。在此基础之上,我们正在探索若干互补方向。MemLoop 研究记忆系统如何从检索和任务失败中学习,将错误归因于记忆管道的特定阶段,并随时间自我改进。Deferred Memory 探讨何时应推迟记忆构建,直到获得足够的上下文、证据或未来效用,而不是过早地承诺存储什么。Group Memory 研究知识如何在团队和智能体之间共享,同时保留来源、访问边界、所有权和敏感上下文。我们随论文发布了代码,并邀请社区基于这一表示进行构建,探索当 AI 智能体不再无状态时能实现什么。
### 致谢
感谢 Shantanu Dixit(研究员)、Paramaguru Harimurugan(研究员)、Rujia Wang(https://www.microsoft.com/en-us/research/people/rujiawang/)、Victor Rühle(https://www.microsoft.com/en-us/research/people/virueh/)以及 Robert Sim(https://www.microsoft.com/en-us/research/people/rsim/)对本项目的贡献。
相似文章
@MSFTResearch: AI 智能体无法记住过去的对话。它们必须不断重新加载或检索上下文,随着任务变长和复杂,效率变得越来越低…
Memora 是一种为 AI 智能体设计的可扩展记忆系统,它将存储与检索分离,能够支持长周期任务,同时将上下文令牌减少多达 98%,并在基准测试上取得了新的最佳性能。该论文发表于 ICML 2026。
@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型,用于存储、检索和整合…
MeMo 引入了一种模块化记忆模型,可为任何 LLM 增强存储、检索和整合新知识的能力,无需重新训练或担心灾难性遗忘。它在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 等基准测试上优于基于 RAG 的方法。
Mem0:利用可扩展的长期记忆构建生产就绪的 AI 智能体
Mem0 引入了一种基于图表示的可扩展内存中心架构,旨在提升大语言模型(LLM)在长期对话中的连贯性,在显著降低延迟和 Token 成本的同时,性能优于现有的记忆系统。
@omarsar0: // AutoMem // 我非常喜欢这个元记忆的概念。(标记一下) 这项来自斯坦福的新研究将智能体的记忆…
这篇斯坦福研究论文介绍了AutoMem,这是一个将智能体记忆管理视为可训练技能的框架。通过分别优化记忆结构和熟练度,AutoMem在长周期任务上将基础智能体性能提升了2到4倍,使得一个32B开源权重模型能够与Claude Opus 4.5和Gemini 3.1 Pro Thinking等前沿系统竞争。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。