@hasantoxr: 我要用这个替换掉我给智能体搭建的所有记忆层。SureThing 在 LongMemEval 上刷新了 SOTA。88.0% …

X AI KOLs Timeline 2026/05/12 14:16 工具

ai-agents long-term-memory benchmark state-of-the-art agent-framework

摘要

SureThing 在 LongMemEval 基准测试中取得了最先进的结果，综合得分达到 88.0%，促使开发者用其替换现有 AI 智能体中的记忆层。

我要用这个替换掉我给智能体搭建的所有记忆层。SureThing 在 LongMemEval 上刷新了 SOTA。综合得分 88.0%。知识更新得分 91.0%。单会话偏好得分 76.7%。在所有真正重要的类别中均位列第一。随后，他们自己的 AI 走到屏幕前，开始自行解释这一切。没人要求它这么做。

查看原文

相似文章

X AI KOLs Timeline

Yohei Nakajima 在 ActiveGraph 上运行了 LongMemEval 基准测试，取得了 85.6% 的问答准确率和 86.2% 的回合上下文答案准确率，展示了基于事件的智能体系统在长期记忆方面的有效性。

Reddit r/AI_Agents

作者分享了用于智能体记忆的 Python 库 memweave 的基准测试结果，该库仅使用本地嵌入且无需调用 LLM，便在 LongMemEval-S 上实现了 98% 的 Recall@5。本文详细介绍了实现方法，并与 mempalace 进行了性能对比，突出了其在不同问题类型上稳定的检索表现。

Reddit r/AI_Agents

一个面向AI智能体的全新托管API记忆层，每次回答都返回一个证明树，包括双时态版本控制、审计追踪和哈希验证，在LongMemEval-S上达到80.2%准确率，并公开透明的基准测试结果。

Reddit r/AI_Agents

MemoryOS 是一款开源、可自托管的 AI Agent 记忆工具，它利用时序知识图谱技术，在 LongMemEval-s 基准测试中实现了 86.2% 的准确率，并以 78 毫秒的快速检索速度著称。

Papers with Code Trending

介绍SimpleMem，一种面向LLM智能体的高效记忆框架，利用语义无损压缩提升准确率并降低token消耗，F1分数提升26.4%，推理时token使用量减少高达30倍。