Cognis：面向对话式 AI 智能体的上下文感知记忆系统

arXiv cs.CL 2026/04/23 04:00 论文

摘要

Lyzr Cognis 推出统一开源记忆系统，融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入，在 LoCoMo 与 LongMemEval 基准上实现 SOTA。

arXiv:2604.19771v1 公告类型：新增摘要：LLM 智能体缺乏持久记忆，导致每次会话都会重置对话，无法实现长期个性化。我们提出 Lyzr Cognis——面向对话式 AI 的统一记忆架构，通过多阶段检索管道解决这一痛点。Cognis 采用双存储后端，将 OpenSearch BM25 关键词匹配与 Matryoshka 向量相似度搜索结合，并通过 Reciprocal Rank Fusion 融合。其上下文感知写入管道会在提取前先检索已有记忆，实现智能版本追踪，在保持存储一致的同时完整保留记忆历史。时间加权提升对时间敏感查询的效果，BGE-2 交叉编码器重排器进一步优化最终结果质量。我们在 LoCoMo 与 LongMemEval 两大独立基准、共八种答案生成模型上评估 Cognis，均取得当前最佳性能。系统已开源，并在生产环境中服务于对话式 AI 应用。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:02

# 1 引言  
来源：https://arxiv.org/html/2604.19771  
Cognis：面向对话 AI 智能体的上下文感知记忆  
Parshva Daftari\* Khush Patel\* Shreyas Kapale\* Jithin George Siva Surendira  
Lyzr Research {parshva, khush, shreyas, jithin, siva}@lyzr.ai  
*同等贡献  

###### 摘要  
大模型智能体缺乏持久记忆，导致每次会话都会重置，无法实现长期个性化。我们提出 Lyzr Cognis——一套面向对话 AI 的统一记忆架构，通过多阶段检索管道解决这一痛点。Cognis 采用双后端：OpenSearch BM25 关键词匹配 + Matryoshca 向量相似搜索，经 Reciprocal Rank Fusion 融合。其上下文感知写入管道先在向量库中检索已有记忆，再提取新信息，实现智能版本追踪：既保留完整历史，又保持存储一致。时间敏感查询可获得时效性加权，最终由 BGE-2 交叉编码器重排提升结果质量。我们在 LoCoMo 与 LongMemEval 两套独立基准、共 8 种答案生成模型上评测，均取得 SOTA 成绩。系统已开源并投产于对话 AI 产品。  

大模型（LLM）的快速发展催生了具备复杂推理与自然语言理解能力的对话智能体。然而，这些智能体受限于固定上下文窗口且缺乏持久记忆，导致每次对话都无法利用过往交互。该缺陷带来一系列实际问题：  
- 会话断层：用户每轮都要重建上下文  
- 个性丢失：无法随时间学习用户偏好  
- 重复劳动：用户反复提供相同信息  
- 关系浅薄：无法通过连续性建立信任  

现有 LLM 记忆方案分两类：  
- 把记忆当文档检索的 RAG  
- 专用记忆系统，如 Mem0、Zep、SuperMemory  

这些系统虽有进展，但常依赖单一检索模态，缺乏精细时间推理，也未对演化信息维护版本历史。  

我们推出 Lyzr Cognis 统一记忆架构，核心贡献如下：  
1. 记忆分类法：15 个语义类别（如个人详情、职业、健康）× 2 种持久范围（USER 跨会话、CONTEXT 会话内）  
2. 双库存储：  
   - OpenSearch 负责文档存储、原生 BM25、可配置文本分析、版本历史  
   - 向量库采用 768D+256D 双层 Matryoshka 嵌入，实现两级语义检索  
3. 上下文感知写入：提取前先检索相似记忆，让模型决定 ADD / UPDATE（带版本链接）/ DELETE 矛盾信息 / 跳过重复  
4. 混合检索管道：向量相似度 + BM25 经 RRF 融合（权重 70% / 30%），支持时间加权、去重、BGE-2 交叉编码器重排  
5. 版本追踪：完整历史，含 is_current 标记与 replaces_id 链接，可回答“我历任职位有哪些？”  
6. 跨基准验证：在 LoCoMo 与 LongMemEval 上测试 8 种答案模型，架构优势普适，LongMemEval 500 题准确率最高 92.4%  

（图 1、图 2 略，译文保持原图注，百分比增益已翻译）  

本文结构：第 2 章相关工作，第 3 章系统架构，第 4 章写入管道，第 5 章检索管道，第 6 章实验设置，第 7 章 LoCoMo 结果，第 8 章 LongMemEval 结果，第 9 章讨论与局限，第 10 章结论。  

## 2 相关工作  
### 2.1 LLM 智能体记忆系统  
为 LLM 增加持久记忆已成研究热点。商业方案 Mem0 提供自动事实提取与向量检索；Zep 支持长时记忆与会话时间感知；SuperMemory 侧重知识图谱多跳推理。学术方面，MemGPT 用操作系统视角把 LLM 当 CPU，分页管理上下文；MemoryBank 借鉴人脑巩固机制；ReadAgent 构建多粒度“要义记忆”；SimpleMem 追求高效终身记忆；A-MEM 引入结构化自主管理；MemR3 通过反思判断记忆相关性；Hindsight Memory 强调保留-召回-反思三能力。  

Cognis 综合以上洞见并补其短板：  
1) 简化 MemGPT 式分页，采用并行双库混合检索  
2) 多模态融合，非单一路径  
3) 引入 Matryoshka 嵌入两级检索  
4) 维护完整版本历史  
5) 强化时间推理  

### 2.2 检索增强生成（RAG）  
RAG 用外部知识库增强 LLM，适合静态文档，但缺时间感知、版本追踪与更新机制。CLaRa 通过连续潜变量推理联合优化检索与生成。我们在 RAG 基础上加 BM25 精确匹配、时间加权、BGE-2 重排。  

### 2.3 混合搜索与稠密检索  
稠密检索擅语义相似，稀疏检索如 BM25 擅精确词匹配。RRF 无需校准即可融合多路排名。实体或时间密集型查询常需二者互补。CADET 表明交叉编码器蒸馏可提升稠密检索，因此我们引入 BGE-2 作为最终精排，并显式加入时间相关性打分。  

### 2.4 嵌入表示  
Matryoshca 表示学习支持维度截断自适应权衡；BGE M3 提供多语言、多功能嵌入，配套交叉编码器精度更高。我们先用 256D 快速粗排，再用 768D 精排，最终由 BGE-2 交叉编码器重排。  

### 2.5 查询理解与注意力  
System 2 Attention 用 LLM 推理先过滤无关上下文；Rephrase and Respond 通过改写问题提升性能。我们的查询分析检测时间意图与历史关键词，触发时间加权与版本链遍历。  

### 2.6 认知科学基础  
我们的记忆分类法借鉴 Tulving 对记忆类型的经典区分……

Cognis：面向对话式 AI 智能体的上下文感知记忆系统

相似文章

Mem0：利用可扩展的长期记忆构建生产就绪的 AI 智能体

SaliMory：面向对话智能体的认知记忆编排框架

CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏

SuperLocalMemory V3.3: 活体大脑——面向零LLM智能体记忆系统的生物启发式遗忘、认知量化与多通道检索

rohitg00/agentmemory

提交意见反馈