Cognis:面向对话式 AI 智能体的上下文感知记忆系统

arXiv cs.CL 论文

摘要

Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。

arXiv:2604.19771v1 公告类型:新增 摘要:LLM 智能体缺乏持久记忆,导致每次会话都会重置对话,无法实现长期个性化。我们提出 Lyzr Cognis——面向对话式 AI 的统一记忆架构,通过多阶段检索管道解决这一痛点。Cognis 采用双存储后端,将 OpenSearch BM25 关键词匹配与 Matryoshka 向量相似度搜索结合,并通过 Reciprocal Rank Fusion 融合。其上下文感知写入管道会在提取前先检索已有记忆,实现智能版本追踪,在保持存储一致的同时完整保留记忆历史。时间加权提升对时间敏感查询的效果,BGE-2 交叉编码器重排器进一步优化最终结果质量。我们在 LoCoMo 与 LongMemEval 两大独立基准、共八种答案生成模型上评估 Cognis,均取得当前最佳性能。系统已开源,并在生产环境中服务于对话式 AI 应用。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:02

# 1 引言  
来源:https://arxiv.org/html/2604.19771  
Cognis:面向对话 AI 智能体的上下文感知记忆  
Parshva Daftari\* Khush Patel\* Shreyas Kapale\* Jithin George Siva Surendira  
Lyzr Research {parshva, khush, shreyas, jithin, siva}@lyzr.ai  
*同等贡献  

###### 摘要  
大模型智能体缺乏持久记忆,导致每次会话都会重置,无法实现长期个性化。我们提出 Lyzr Cognis——一套面向对话 AI 的统一记忆架构,通过多阶段检索管道解决这一痛点。Cognis 采用双后端:OpenSearch BM25 关键词匹配 + Matryoshca 向量相似搜索,经 Reciprocal Rank Fusion 融合。其上下文感知写入管道先在向量库中检索已有记忆,再提取新信息,实现智能版本追踪:既保留完整历史,又保持存储一致。时间敏感查询可获得时效性加权,最终由 BGE-2 交叉编码器重排提升结果质量。我们在 LoCoMo 与 LongMemEval 两套独立基准、共 8 种答案生成模型上评测,均取得 SOTA 成绩。系统已开源并投产于对话 AI 产品。  

大模型(LLM)的快速发展催生了具备复杂推理与自然语言理解能力的对话智能体。然而,这些智能体受限于固定上下文窗口且缺乏持久记忆,导致每次对话都无法利用过往交互。该缺陷带来一系列实际问题:  
- 会话断层:用户每轮都要重建上下文  
- 个性丢失:无法随时间学习用户偏好  
- 重复劳动:用户反复提供相同信息  
- 关系浅薄:无法通过连续性建立信任  

现有 LLM 记忆方案分两类:  
- 把记忆当文档检索的 RAG  
- 专用记忆系统,如 Mem0、Zep、SuperMemory  

这些系统虽有进展,但常依赖单一检索模态,缺乏精细时间推理,也未对演化信息维护版本历史。  

我们推出 Lyzr Cognis 统一记忆架构,核心贡献如下:  
1. 记忆分类法:15 个语义类别(如个人详情、职业、健康)× 2 种持久范围(USER 跨会话、CONTEXT 会话内)  
2. 双库存储:  
   - OpenSearch 负责文档存储、原生 BM25、可配置文本分析、版本历史  
   - 向量库采用 768D+256D 双层 Matryoshka 嵌入,实现两级语义检索  
3. 上下文感知写入:提取前先检索相似记忆,让模型决定 ADD / UPDATE(带版本链接)/ DELETE 矛盾信息 / 跳过重复  
4. 混合检索管道:向量相似度 + BM25 经 RRF 融合(权重 70% / 30%),支持时间加权、去重、BGE-2 交叉编码器重排  
5. 版本追踪:完整历史,含 is_current 标记与 replaces_id 链接,可回答“我历任职位有哪些?”  
6. 跨基准验证:在 LoCoMo 与 LongMemEval 上测试 8 种答案模型,架构优势普适,LongMemEval 500 题准确率最高 92.4%  

(图 1、图 2 略,译文保持原图注,百分比增益已翻译)  

本文结构:第 2 章相关工作,第 3 章系统架构,第 4 章写入管道,第 5 章检索管道,第 6 章实验设置,第 7 章 LoCoMo 结果,第 8 章 LongMemEval 结果,第 9 章讨论与局限,第 10 章结论。  

## 2 相关工作  
### 2.1 LLM 智能体记忆系统  
为 LLM 增加持久记忆已成研究热点。商业方案 Mem0 提供自动事实提取与向量检索;Zep 支持长时记忆与会话时间感知;SuperMemory 侧重知识图谱多跳推理。学术方面,MemGPT 用操作系统视角把 LLM 当 CPU,分页管理上下文;MemoryBank 借鉴人脑巩固机制;ReadAgent 构建多粒度“要义记忆”;SimpleMem 追求高效终身记忆;A-MEM 引入结构化自主管理;MemR3 通过反思判断记忆相关性;Hindsight Memory 强调保留-召回-反思三能力。  

Cognis 综合以上洞见并补其短板:  
1) 简化 MemGPT 式分页,采用并行双库混合检索  
2) 多模态融合,非单一路径  
3) 引入 Matryoshka 嵌入两级检索  
4) 维护完整版本历史  
5) 强化时间推理  

### 2.2 检索增强生成(RAG)  
RAG 用外部知识库增强 LLM,适合静态文档,但缺时间感知、版本追踪与更新机制。CLaRa 通过连续潜变量推理联合优化检索与生成。我们在 RAG 基础上加 BM25 精确匹配、时间加权、BGE-2 重排。  

### 2.3 混合搜索与稠密检索  
稠密检索擅语义相似,稀疏检索如 BM25 擅精确词匹配。RRF 无需校准即可融合多路排名。实体或时间密集型查询常需二者互补。CADET 表明交叉编码器蒸馏可提升稠密检索,因此我们引入 BGE-2 作为最终精排,并显式加入时间相关性打分。  

### 2.4 嵌入表示  
Matryoshca 表示学习支持维度截断自适应权衡;BGE M3 提供多语言、多功能嵌入,配套交叉编码器精度更高。我们先用 256D 快速粗排,再用 768D 精排,最终由 BGE-2 交叉编码器重排。  

### 2.5 查询理解与注意力  
System 2 Attention 用 LLM 推理先过滤无关上下文;Rephrase and Respond 通过改写问题提升性能。我们的查询分析检测时间意图与历史关键词,触发时间加权与版本链遍历。  

### 2.6 认知科学基础  
我们的记忆分类法借鉴 Tulving 对记忆类型的经典区分……

相似文章

SaliMory:面向对话智能体的认知记忆编排框架

arXiv cs.CL

SaliMory 是一个框架,通过训练单一语言模型来管理对话智能体的认知结构化记忆(包括用户事实、偏好和工作记忆),采用分层阶段式过程奖励与奖励分解对比精化机制。该框架将记忆归因失败率降低了三分之一,端到端准确率超越现有最优方法逾10%,并将良好个性化率提升至原来的两倍以上。

rohitg00/agentmemory

GitHub Trending (daily)

agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。