@MSFTResearch: AI 智能体无法记住过去的对话。它们必须不断重新加载或检索上下文,随着任务变长和复杂,效率变得越来越低…
摘要
Memora 是一种为 AI 智能体设计的可扩展记忆系统,它将存储与检索分离,能够支持长周期任务,同时将上下文令牌减少多达 98%,并在基准测试上取得了新的最佳性能。该论文发表于 ICML 2026。
查看缓存全文
缓存时间: 2026/06/30 11:43
AI代理无法记住过去的对话。它们必须不断地重新加载或检索上下文,随着任务变得更长、更复杂,这变得越来越低效。Memora通过一个可扩展的记忆系统解决了这个问题,该系统将存储的内容与检索的方式分离:https://msft.it/6018vs3gC
Memora扩展代理记忆以提升长期生产力
来源:https://www.microsoft.com/en-us/research/blog/memora-a-harmonic-memory-representation-balancing-abstraction-and-specificity/ 紫色到粉色渐变背景上的三个极简白色图标。从左到右:沙漏、圆形仪表和一对带斜线的尖括号。## 概览
- 今天的人工智能代理不记得过去的交互。它们必须反复被提供相关信息或从外部来源检索,随着处理更复杂和更长的任务,这变得更低效。为了扩展代理的能力,我们需要一种更高效的方式来随时间保留和访问信息。
- Memora 是一个可扩展的记忆系统,通过将存储什么(丰富的记忆内容)与如何检索(轻量级抽象和线索锚点)解耦,显著提升代理在长期任务上的生产力,平衡抽象和特异性。
- Memora 在 LoCoMo 和 LongMemEval 上设定了新的最先进水平,性能优于 Mem0、RAG 和全上下文推理,同时使用多达98%更少的上下文 token。
- Memora 论文(在新标签页中打开)(https://arxiv.org/abs/2602.03315) 发表于 ICML 2026。Memora 代码可在 https://github.com/microsoft/Memora 获取。
想象一个职场AI助手,帮你管理一个持续数月的项目。在数周的对话中,你分享了约束条件,商定了里程碑,修订了截止日期,并浮现出数十个利益相关者的偏好。当你后来让它为同事起草一份更新时,它不仅应记得最新的决策,还应记得达成共识的整个过程:尝试过什么,排除了什么,谁参与了讨论。今天的人工智能代理难以做到这一点。现代大型语言模型(LLM)是强大的推理者,但它们本质上是无状态的:每次会话从零开始,每次长对话迫使模型重新读取整个历史记录,每条新信息要么作为原始文本存储(碎片化且噪声大),要么被压缩成模糊的摘要(丢失精确细节)。随着AI助手和自主代理进入长期部署,例如跟踪项目数月的副驾驶,或通过长期使用积累领域专业知识的研究代理,缺乏有原则的记忆系统已成为关键瓶颈。
一系列日益增长的工作已开始填补这一空白。像Mem0这样的系统从对话中提取原子事实;检索增强(RAG)方法为后续回忆索引原始文本片段;而基于图的记忆系统如Zep和GraphRAG通过实体关系施加结构。每一项都是真正的进步,但每一项都遇到同样的障碍:现有设计迫使在特异性(保留细粒度细节)和抽象性(随着记忆增长高效组织)之间做出不可避免的权衡。Memora的构建旨在让代理两者兼得。
什么是Memora
Memora (https://www.microsoft.com/en-us/research/publication/memora-a-harmonic-memory-representation-balancing-abstraction-and-specificity/) 是一个为长期AI代理设计的代理记忆框架。Memora的核心见解是将存储的内容与检索的方式解耦。记忆内容可以保持丰富和富于表现力,例如项目时间线、关于约束的多轮讨论,而一个独立的、轻量级的结构层则处理索引和检索。结果是一个可扩展的记忆系统:它将相关信息整合成稳定的单元,在需要时呈现细粒度细节,并使代理能够导航自己的历史而无需重新阅读所有内容。在标准的长对话基准测试中,Memora设立了新的最先进性能表现,同时与将全部历史放入上下文的做法相比,使用的token减少了多达98%。
为何这很难:抽象与特异性之间的张力
现有记忆系统分为两个极端。内容碎片化系统,如RAG和Mem0,直接嵌入提取的事实或文本片段。这保留了细节,但产生了脆弱、孤立的条目,失去叙述连贯性。粗略抽象系统将经验压缩成紧凑的摘要。它们高效,但摘要剥离了使记忆有用的约束、边缘情况和数值细节。基于图的系统在内容之上添加结构,但仍依赖内容本身进行检索,并且通常需要严格的、跨领域不泛化的本体。这些方法都没有解决抽象(保持记忆高效)与特异性(赋予记忆效用)之间的根本张力。
Memora架构概览,展示多模态数据如何被分割、转换为结构化记忆条目和隐式记忆图,然后通过策略驱动过程检索,该过程通过组相对学习优化以返回相关的情景记忆。图1:Memora架构概览。## Memora如何工作
Memora通过一种谐波组织解决了这一张力。每个记忆条目有两个组成部分:一个主要抽象,即捕获记忆基本内容的短短语(6-8个词),以及一个包含丰富内容本身的记忆值。关键是,只有主要抽象被嵌入用于相似性搜索;值从不通过自身内容直接检索。这种分离意味着关于一个演变主题的新信息会合并到同一主要抽象下的现有记忆条目中,而不是碎片化成一系列部分重复品。作为主要抽象的补充,线索锚点是从每个记忆值中提取的简短、上下文感知标签,提供访问同一记忆的替代路径。它们充当灵活、有机生成的元数据。
为了具体说明:假设用户说:“Dave和Sarah同意将原型推迟到4月1日,试点推迟到5月2日,MVP推迟到5月30日。”知识图系统需要预定义的实体类型和关系模式:Person → agreed_on → Milestone → has_date → Date,任何新的关系类型都需要模式扩展。在Memora中,主要抽象“Updated Project Orion timeline agreed by Dave and Sarah”作为规范访问点,而线索锚点如“Dave Project Orion update”、“Project Orion prototype schedule”和“Project Orion pilot timeline”提供替代检索路径——所有这些都不必承诺使用本体。之后关于Dave最近贡献、原型进度或试点时间的查询都可以通过不同线索路由到同一底层记忆,完整细节保留在记忆值中。
在这种表示之上,Memora引入了一个策略引导的检索器,将记忆访问视为一个主动推理过程。策略检索器不是一次性返回top-k语义相似的条目,而是迭代地优化其查询,通过线索锚点扩展以浮现相关但不相似的记忆,并决定何时停止。这使代理能够导航到纯语义搜索会错过的相关非局部上下文,像人类回忆关联事件时那样追逐多跳依赖。检索策略既可以由强大的LLM通过手工提示来实现,也可以通过强化学习提炼到一个小得多的模型中。
播客系列
Daniel Carpenter、Timo Minssen、Chad Atalla 和 Kathleen Sullivan 的插画头像,用于微软研究播客 (https://www.microsoft.com/en-us/research/story/ai-testing-and-evaluation-learnings-from-science-and-industry/)
AI测试与评估:来自科学与工业的经验教训
了解微软如何从其他领域学习,将评估和测试作为AI治理的支柱。
结果
条形图比较了使用LLM评判、F1和BLEU指标的各记忆系统在LoCoMo上的总体得分。Memora (P) 达到最高LLM评判得分(0.863),其次是 Memora (S)(0.849)和 Full Context(0.825)。Memora变体在所有三个指标上均优于其他基于记忆的方法。图2:Memora在LoCoMo数据集上的性能。我们在两个长上下文基准上评估Memora:LoCoMo,对话平均600轮,以及LongMemEval,上下文达115,000个token。Memora在两个基准上都取得了新的最先进性能:LoCoMo上LLM评判准确率86.3%,LongMemEval上87.4%,优于RAG、Mem0、Nemori、Zep、LangMem甚至全上下文推理。差距最大的是多跳推理,Memora通过线索锚点进行遍历的能力带来了最大收益。效率故事同样引人注目:Memora每次对话存储的记忆条目大约是Mem0的一半(344个对比651个),并且相对于全上下文推理,token消耗减少了多达98%。更少阅读,更少存储,更佳答案。
展望未来
Memora的设计影响超越了基准性能。我们将这项工作视为迈向能长期与用户协作、并在数月甚至数年内积累组织知识(而不仅仅是在单次会话内)的AI代理的一步。在此基础之上,我们正在探索几个互补方向。MemLoop探索记忆系统如何从检索和任务失败中学习,将错误归因于记忆管道的特定阶段,并随时间改进自身。Deferred Memory研究何时应推迟记忆构建,直到有了足够的上下文、证据或未来效用,而不是过早提交应存储的内容。Group Memory研究如何在团队和代理之间共享知识,同时保留出处、访问边界、所有权和敏感上下文。我们随论文一起发布代码,并邀请社区在此表示基础上构建,探索当AI代理不再无状态时可能实现的成果。
致谢
我们要感谢 Shantanu Dixit (Research Fellow)、Paramaguru Harimurugan (Research Fellow)、Rujia Wang (https://www.microsoft.com/en-us/research/people/rujiawang/)、Victor Rühle (https://www.microsoft.com/en-us/research/people/virueh/) 和 Robert Sim (https://www.microsoft.com/en-us/research/people/rsim/) 对本项目的贡献。
相似文章
@Oliviacoder1: MIT刚刚让每家AI公司的数十亿美元赌注看起来尴尬不已。他们解决了AI记忆问题。不是通过构建更大的……
MIT CSAIL研究人员提出了一种新颖的AI记忆方法,通过将文档存储在外部,并让AI自行导航和查询,从而避免了上下文腐烂,以更低成本实现了1000万令牌的有效上下文。
Mem0:利用可扩展的长期记忆构建生产就绪的 AI 智能体
Mem0 引入了一种基于图表示的可扩展内存中心架构,旨在提升大语言模型(LLM)在长期对话中的连贯性,在显著降低延迟和 Token 成本的同时,性能优于现有的记忆系统。
Cognis:面向对话式 AI 智能体的上下文感知记忆系统
Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。
AI智能体拥有强大的记忆能力,但毫无记忆卫生可言。六个月后会是什么样?没人谈论这一点。
探讨了AI智能体中被忽视的记忆卫生问题——长期存储导致上下文过时且不可靠,并质疑行业是否在忽视一个即将到来的全球性问题。
@simplifyinAI:腾讯刚刚开源了Hy-Memory。一个内存插件,通过6层框架赋予AI代理真正的长期记忆…
腾讯开源了Hy-Memory,这是一个为AI代理提供长期记忆的内存插件,采用6层双推理框架,将令牌使用量减少35%,内存膨胀减少70%。