Cognis:面向对话式 AI 智能体的上下文感知记忆系统
摘要
Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。
查看缓存全文
缓存时间: 2026/04/23 10:02
# 1 引言
来源:https://arxiv.org/html/2604.19771
Cognis:面向对话 AI 智能体的上下文感知记忆
Parshva Daftari\* Khush Patel\* Shreyas Kapale\* Jithin George Siva Surendira
Lyzr Research {parshva, khush, shreyas, jithin, siva}@lyzr.ai
*同等贡献
###### 摘要
大模型智能体缺乏持久记忆,导致每次会话都会重置,无法实现长期个性化。我们提出 Lyzr Cognis——一套面向对话 AI 的统一记忆架构,通过多阶段检索管道解决这一痛点。Cognis 采用双后端:OpenSearch BM25 关键词匹配 + Matryoshca 向量相似搜索,经 Reciprocal Rank Fusion 融合。其上下文感知写入管道先在向量库中检索已有记忆,再提取新信息,实现智能版本追踪:既保留完整历史,又保持存储一致。时间敏感查询可获得时效性加权,最终由 BGE-2 交叉编码器重排提升结果质量。我们在 LoCoMo 与 LongMemEval 两套独立基准、共 8 种答案生成模型上评测,均取得 SOTA 成绩。系统已开源并投产于对话 AI 产品。
大模型(LLM)的快速发展催生了具备复杂推理与自然语言理解能力的对话智能体。然而,这些智能体受限于固定上下文窗口且缺乏持久记忆,导致每次对话都无法利用过往交互。该缺陷带来一系列实际问题:
- 会话断层:用户每轮都要重建上下文
- 个性丢失:无法随时间学习用户偏好
- 重复劳动:用户反复提供相同信息
- 关系浅薄:无法通过连续性建立信任
现有 LLM 记忆方案分两类:
- 把记忆当文档检索的 RAG
- 专用记忆系统,如 Mem0、Zep、SuperMemory
这些系统虽有进展,但常依赖单一检索模态,缺乏精细时间推理,也未对演化信息维护版本历史。
我们推出 Lyzr Cognis 统一记忆架构,核心贡献如下:
1. 记忆分类法:15 个语义类别(如个人详情、职业、健康)× 2 种持久范围(USER 跨会话、CONTEXT 会话内)
2. 双库存储:
- OpenSearch 负责文档存储、原生 BM25、可配置文本分析、版本历史
- 向量库采用 768D+256D 双层 Matryoshka 嵌入,实现两级语义检索
3. 上下文感知写入:提取前先检索相似记忆,让模型决定 ADD / UPDATE(带版本链接)/ DELETE 矛盾信息 / 跳过重复
4. 混合检索管道:向量相似度 + BM25 经 RRF 融合(权重 70% / 30%),支持时间加权、去重、BGE-2 交叉编码器重排
5. 版本追踪:完整历史,含 is_current 标记与 replaces_id 链接,可回答“我历任职位有哪些?”
6. 跨基准验证:在 LoCoMo 与 LongMemEval 上测试 8 种答案模型,架构优势普适,LongMemEval 500 题准确率最高 92.4%
(图 1、图 2 略,译文保持原图注,百分比增益已翻译)
本文结构:第 2 章相关工作,第 3 章系统架构,第 4 章写入管道,第 5 章检索管道,第 6 章实验设置,第 7 章 LoCoMo 结果,第 8 章 LongMemEval 结果,第 9 章讨论与局限,第 10 章结论。
## 2 相关工作
### 2.1 LLM 智能体记忆系统
为 LLM 增加持久记忆已成研究热点。商业方案 Mem0 提供自动事实提取与向量检索;Zep 支持长时记忆与会话时间感知;SuperMemory 侧重知识图谱多跳推理。学术方面,MemGPT 用操作系统视角把 LLM 当 CPU,分页管理上下文;MemoryBank 借鉴人脑巩固机制;ReadAgent 构建多粒度“要义记忆”;SimpleMem 追求高效终身记忆;A-MEM 引入结构化自主管理;MemR3 通过反思判断记忆相关性;Hindsight Memory 强调保留-召回-反思三能力。
Cognis 综合以上洞见并补其短板:
1) 简化 MemGPT 式分页,采用并行双库混合检索
2) 多模态融合,非单一路径
3) 引入 Matryoshka 嵌入两级检索
4) 维护完整版本历史
5) 强化时间推理
### 2.2 检索增强生成(RAG)
RAG 用外部知识库增强 LLM,适合静态文档,但缺时间感知、版本追踪与更新机制。CLaRa 通过连续潜变量推理联合优化检索与生成。我们在 RAG 基础上加 BM25 精确匹配、时间加权、BGE-2 重排。
### 2.3 混合搜索与稠密检索
稠密检索擅语义相似,稀疏检索如 BM25 擅精确词匹配。RRF 无需校准即可融合多路排名。实体或时间密集型查询常需二者互补。CADET 表明交叉编码器蒸馏可提升稠密检索,因此我们引入 BGE-2 作为最终精排,并显式加入时间相关性打分。
### 2.4 嵌入表示
Matryoshca 表示学习支持维度截断自适应权衡;BGE M3 提供多语言、多功能嵌入,配套交叉编码器精度更高。我们先用 256D 快速粗排,再用 768D 精排,最终由 BGE-2 交叉编码器重排。
### 2.5 查询理解与注意力
System 2 Attention 用 LLM 推理先过滤无关上下文;Rephrase and Respond 通过改写问题提升性能。我们的查询分析检测时间意图与历史关键词,触发时间加权与版本链遍历。
### 2.6 认知科学基础
我们的记忆分类法借鉴 Tulving 对记忆类型的经典区分……相似文章
Mem0:利用可扩展的长期记忆构建生产就绪的 AI 智能体
Mem0 引入了一种基于图表示的可扩展内存中心架构,旨在提升大语言模型(LLM)在长期对话中的连贯性,在显著降低延迟和 Token 成本的同时,性能优于现有的记忆系统。
SaliMory:面向对话智能体的认知记忆编排框架
SaliMory 是一个框架,通过训练单一语言模型来管理对话智能体的认知结构化记忆(包括用户事实、偏好和工作记忆),采用分层阶段式过程奖励与奖励分解对比精化机制。该框架将记忆归因失败率降低了三分之一,端到端准确率超越现有最优方法逾10%,并将良好个性化率提升至原来的两倍以上。
CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏
CoreMem提出了一种资源高效的边缘-云端内存架构,用于对话代理,采用基于Fisher-Rao度量的黎曼检索和Fisher引导的离散令牌蒸馏,在8 GB VRAM预算内实现了显著的准确性提升。
SuperLocalMemory V3.3: 活体大脑——面向零LLM智能体记忆系统的生物启发式遗忘、认知量化与多通道检索
SuperLocalMemory V3.3 引入了一种面向AI智能体的统一记忆与学习系统,具备生物启发式遗忘、多通道检索和P2P网状协调。该系统在LoCoMo基准测试上达到74.8%的成绩,并具有三流学习、生命周期管理和符合欧盟AI法案的特点。
rohitg00/agentmemory
agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。