MEME:多实体与动态记忆评估
摘要
MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。
查看缓存全文
缓存时间: 2026/05/13 08:12
论文页面 - MEME:多实体与动态记忆评估
来源:https://huggingface.co/papers/2605.12477
摘要
MEME 基准测试在多实体和动态变化条件下评估记忆系统,揭示了尽管检索和提示技术取得了显著进步,依赖推理方面仍存在持续的挑战。
基于 LLM 的智能体 (https://huggingface.co/papers?q=LLM-based%20agents) 越来越多地在持久环境 (https://huggingface.co/papers?q=persistent%20environments) 中运行,需要在多次会话中存储、更新并基于信息进行推理。虽然之前的基准测试仅评估单实体更新,但 MEME 定义了跨越多实体和动态轴的全空间范围的六项任务,其中包括先前工作未评分的三项任务:级联 (https://huggingface.co/papers?q=Cascade) 和缺失 (https://huggingface.co/papers?q=Absence)(依赖推理 (https://huggingface.co/papers?q=dependency%20reasoning))以及删除 (https://huggingface.co/papers?q=Deletion)(移除后的状态)。我们在 100 个受控片段上评估了涵盖三种记忆范式 (https://huggingface.co/papers?q=memory%20paradigms) 的六种记忆系统 (https://huggingface.co/papers?q=memory%20systems),发现所有系统在默认配置下的依赖推理 (https://huggingface.co/papers?q=dependency%20reasoning) 性能均出现崩溃(级联 (https://huggingface.co/papers?q=Cascade):平均准确率 3%,缺失 (https://huggingface.co/papers?q=Absence):平均准确率 1%),尽管静态检索性能尚可。提示优化、更深度的检索、减少填充噪音以及更强大的 LLM 均未能缩小这一差距。只有使用文件作为基础且内部 LLM 为 Claude Opus 4.7 的智能体部分缩小了这一差距,但其成本约为基线的 ~70 倍,表明目前缩小差距依赖于大规模部署中不切实际的配置。代码和数据可在项目页面获取:https://seokwonjung-jay.github.io/meme-eval/.
查看 arXiv 页面 (https://arxiv.org/abs/2605.12477) 查看 PDF (https://arxiv.org/pdf/2605.12477) 项目页面 (https://seokwonjung-jay.github.io/meme-eval/) GitHub (https://github.com/SeokwonJung-Jay/MEME-public) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12477)
在您的智能体中获取此论文:
hf papers read 2605\.12477
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.12477 以从此页面建立链接.
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.12477 以从此页面建立链接.
引用此论文的空间 0
无空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2605.12477 以从此页面建立链接.
包含此论文的收藏集 0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接.
相似文章
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体
EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。
SubtleMemory:面向长期AI代理的细粒度关系记忆辨别基准
SubtleMemory是一个用于评估AI代理在长期交互中细粒度关系记忆辨别能力的基准,包含10个长历史中的1,522个实例。它揭示了当前记忆系统在保存和利用细微记忆关系方面的局限性。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。