基于局部注意力的检索：在LongMemEval、LoCoMo和代码搜索基准上达到SOTA结果

Reddit r/AI_Agents 2026/06/16 08:35 工具

local-memory retrieval attention-based kv-cache open-source long-context ai-agents

摘要

Attemory 是一个开源本地记忆检索引擎，它使用基于注意力的检索来访问 KV 缓存，而非传统的嵌入或 BM25 方法，在 LongMemEval、LoCoMo 和代码搜索基准测试中取得了最先进的成绩。

我为 AI 智能体构建了一个开源本地记忆检索引擎：Attemory。Attemory 采用不同的检索路径。它不使用嵌入、BM25 或图来检索，而是将记忆转化为可复用的 KV 缓存，并让本地模型通过直接关注这些记忆来进行检索。我构建它的原因是，检索通常需要推理。一个好的记忆系统需要遵循约束、连接实体、使用日期和上下文，并理解哪些证据能够真正回答用户的问题。传统的关键词/向量检索很有用，但通常缺乏这种推理路径。Attemory 利用模型的注意力路径进行检索，因此可以在 LLM 已经理解的相同上下文格式中判断相关性。基准测试结果显然是 **SOTA** 的： - LongMemEval-S：约 40 个会话 / 115k token，**98.72% 的会话 Recall_any@5、92.77% 的会话 Recall_all@5、98.94% 的消息 Recall_all@50** - LongMemEval-M：约 500 个会话 / 1.5M token / 5k 条消息，**94.89% 的会话 Recall_any@5、83.62% 的会话 Recall_all@5、92.55% 的消息 Recall_all@50** - LoCoMo：10 个长对话 / 1540 个问答项，**94.52% 的准确率**（使用 GPT-4.1-mini 作为答案模型，GPT-4o-mini 作为评判器） - Semble：63 个仓库 / 19 种语言 / 最大仓库约 5M token，**0.9055 的文件级 NDCG@10** 检索基准可在本地复现。检索路径无需解码：它使用部分预填充、KV 缓存复用和基于注意力的排序，因此搜索不需要逐 token 生成。目标是让基于 LLM 的检索在多百万 token 的工作流中变得实用。这仍是早期软件，我特别希望从构建本地智能体或长上下文记忆系统的人那里获得反馈：欢迎就方法、基准测试、打包或限制提出技术问题。

查看原文

基于局部注意力的检索：在LongMemEval、LoCoMo和代码搜索基准上达到SOTA结果

相似文章

在 LongMemEval-S 上对智能体记忆检索进行基准测试 — Recall@5 达 98%，R@23 实现 100% 召回，仅依赖本地嵌入模型 (all-MiniLM-L6-v2)，无需 LLM 与 API Key

T-Mem: 预见性记忆，而非归档式记忆

Cognis：面向对话式 AI 智能体的上下文感知记忆系统

SuperLocalMemory V3.3: 活体大脑——面向零LLM智能体记忆系统的生物启发式遗忘、认知量化与多通道检索

MemoryOS —— 具备时序知识图谱的 AI 智能体记忆，实现 9ms 摄取与 78ms 检索

提交意见反馈