MEME:多实体与动态记忆评估

Hugging Face Daily Papers 论文

摘要

MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。

基于大语言模型(LLM)的智能体越来越多地在持久化环境中运行,需要在多个会话中存储、更新并推理信息。尽管以往的基准测试仅评估单一实体的更新情况,MEME 定义了涵盖多实体和动态变化这两个维度的六个任务,其中包括以往研究未涉及的三项:Cascade 和 Absence(依赖关系推理)以及 Deletion(删除后的状态)。我们对涵盖三种记忆范式的六个记忆系统在 100 个受控场景下进行了评估,发现所有系统在默认配置下的依赖关系推理能力均严重不足(Cascade 的平均准确率仅为 3%,Absence 仅为 1%),尽管其静态检索表现尚可。提示词优化、更深度的检索、减少填充噪音以及使用更强大的 LLM 均未能缩小这一差距。只有当基于文件的智能体搭配 Claude Opus 4.7 作为其内部 LLM 时,才部分缩小了这一差距,但其成本约为基准配置的 70 倍,表明目前实现这一目标所依赖的配置在大规模应用时并不具备实际可行性。代码和数据可在项目页面获取:https://seokwonjung-jay.github.io/meme-eval/。
查看原文
查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - MEME:多实体与动态记忆评估

来源:https://huggingface.co/papers/2605.12477

摘要

MEME 基准测试在多实体和动态变化条件下评估记忆系统,揭示了尽管检索和提示技术取得了显著进步,依赖推理方面仍存在持续的挑战。

基于 LLM 的智能体 (https://huggingface.co/papers?q=LLM-based%20agents) 越来越多地在持久环境 (https://huggingface.co/papers?q=persistent%20environments) 中运行,需要在多次会话中存储、更新并基于信息进行推理。虽然之前的基准测试仅评估单实体更新,但 MEME 定义了跨越多实体和动态轴的全空间范围的六项任务,其中包括先前工作未评分的三项任务:级联 (https://huggingface.co/papers?q=Cascade) 和缺失 (https://huggingface.co/papers?q=Absence)(依赖推理 (https://huggingface.co/papers?q=dependency%20reasoning))以及删除 (https://huggingface.co/papers?q=Deletion)(移除后的状态)。我们在 100 个受控片段上评估了涵盖三种记忆范式 (https://huggingface.co/papers?q=memory%20paradigms) 的六种记忆系统 (https://huggingface.co/papers?q=memory%20systems),发现所有系统在默认配置下的依赖推理 (https://huggingface.co/papers?q=dependency%20reasoning) 性能均出现崩溃(级联 (https://huggingface.co/papers?q=Cascade):平均准确率 3%,缺失 (https://huggingface.co/papers?q=Absence):平均准确率 1%),尽管静态检索性能尚可。提示优化、更深度的检索、减少填充噪音以及更强大的 LLM 均未能缩小这一差距。只有使用文件作为基础且内部 LLM 为 Claude Opus 4.7 的智能体部分缩小了这一差距,但其成本约为基线的 ~70 倍,表明目前缩小差距依赖于大规模部署中不切实际的配置。代码和数据可在项目页面获取:https://seokwonjung-jay.github.io/meme-eval/.

查看 arXiv 页面 (https://arxiv.org/abs/2605.12477) 查看 PDF (https://arxiv.org/pdf/2605.12477) 项目页面 (https://seokwonjung-jay.github.io/meme-eval/) GitHub (https://github.com/SeokwonJung-Jay/MEME-public) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12477)

在您的智能体中获取此论文:

hf papers read 2605\.12477

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12477 以从此页面建立链接.

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12477 以从此页面建立链接.

引用此论文的空间 0

无空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2605.12477 以从此页面建立链接.

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接.

相似文章

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。

MemEye:面向多模态智能体记忆的视觉中心评估框架

Hugging Face Daily Papers

MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。

EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Hugging Face Daily Papers

EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。