基于局部注意力的检索:在LongMemEval、LoCoMo和代码搜索基准上达到SOTA结果
摘要
Attemory 是一个开源本地记忆检索引擎,它使用基于注意力的检索来访问 KV 缓存,而非传统的嵌入或 BM25 方法,在 LongMemEval、LoCoMo 和代码搜索基准测试中取得了最先进的成绩。
我为 AI 智能体构建了一个开源本地记忆检索引擎:Attemory。Attemory 采用不同的检索路径。它不使用嵌入、BM25 或图来检索,而是将记忆转化为可复用的 KV 缓存,并让本地模型通过直接关注这些记忆来进行检索。我构建它的原因是,检索通常需要推理。一个好的记忆系统需要遵循约束、连接实体、使用日期和上下文,并理解哪些证据能够真正回答用户的问题。传统的关键词/向量检索很有用,但通常缺乏这种推理路径。Attemory 利用模型的注意力路径进行检索,因此可以在 LLM 已经理解的相同上下文格式中判断相关性。基准测试结果显然是 **SOTA** 的:
- LongMemEval-S:约 40 个会话 / 115k token,**98.72% 的会话 Recall_any@5、92.77% 的会话 Recall_all@5、98.94% 的消息 Recall_all@50**
- LongMemEval-M:约 500 个会话 / 1.5M token / 5k 条消息,**94.89% 的会话 Recall_any@5、83.62% 的会话 Recall_all@5、92.55% 的消息 Recall_all@50**
- LoCoMo:10 个长对话 / 1540 个问答项,**94.52% 的准确率**(使用 GPT-4.1-mini 作为答案模型,GPT-4o-mini 作为评判器)
- Semble:63 个仓库 / 19 种语言 / 最大仓库约 5M token,**0.9055 的文件级 NDCG@10**
检索基准可在本地复现。检索路径无需解码:它使用部分预填充、KV 缓存复用和基于注意力的排序,因此搜索不需要逐 token 生成。目标是让基于 LLM 的检索在多百万 token 的工作流中变得实用。这仍是早期软件,我特别希望从构建本地智能体或长上下文记忆系统的人那里获得反馈:欢迎就方法、基准测试、打包或限制提出技术问题。
相似文章
在 LongMemEval-S 上对智能体记忆检索进行基准测试 — Recall@5 达 98%,R@23 实现 100% 召回,仅依赖本地嵌入模型 (all-MiniLM-L6-v2),无需 LLM 与 API Key
作者分享了用于智能体记忆的 Python 库 memweave 的基准测试结果,该库仅使用本地嵌入且无需调用 LLM,便在 LongMemEval-S 上实现了 98% 的 Recall@5。本文详细介绍了实现方法,并与 mempalace 进行了性能对比,突出了其在不同问题类型上稳定的检索表现。
T-Mem: 预见性记忆,而非归档式记忆
T-Mem 是一种新型长程对话记忆架构,能够同时支持描述性回忆和关联性回忆,涵盖查询与记忆共享表面特征的场景以及两者通过潜在语义弧相连的场景。该架构在 LoCoMo 和 LoCoMo-Plus 基准测试上达到了最先进水平。
Cognis:面向对话式 AI 智能体的上下文感知记忆系统
Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。
SuperLocalMemory V3.3: 活体大脑——面向零LLM智能体记忆系统的生物启发式遗忘、认知量化与多通道检索
SuperLocalMemory V3.3 引入了一种面向AI智能体的统一记忆与学习系统,具备生物启发式遗忘、多通道检索和P2P网状协调。该系统在LoCoMo基准测试上达到74.8%的成绩,并具有三流学习、生命周期管理和符合欧盟AI法案的特点。
MemoryOS —— 具备时序知识图谱的 AI 智能体记忆,实现 9ms 摄取与 78ms 检索
MemoryOS 是一款开源、可自托管的 AI Agent 记忆工具,它利用时序知识图谱技术,在 LongMemEval-s 基准测试中实现了 86.2% 的准确率,并以 78 毫秒的快速检索速度著称。