M^3Eval:基于认知心理学的视频任务多模态记忆评估

Hugging Face Daily Papers 论文

摘要

M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。

随着多模态模型向长视频理解方向演进,记忆成为一项关键能力。尽管在视频数据集和基准开发方面付出了大量努力,现有工作主要聚焦于感知和推理,而未系统评估记忆:模型记住了什么、信息保真度如何、以及在干扰下记忆的鲁棒性如何。为填补这一空白,我们引入M^3Eval,这是第一个用于探查多模态模型中不同记忆维度的全面评估框架和基准。我们的设计基于认知心理学,通过精心构造的任务隔离记忆的关键方面。利用M^3Eval,我们跨代表性多模态模型进行了大量实验,揭示了一致的弱点和独特行为。我们发现,模型在处理并行视频流时难以维持分离的表征,表现出与人类记忆显著不同的干扰模式,在空间域中比时间域更可靠地定位记忆源,且符号记忆能力有限。总体而言,我们的基准为未来研究提供了宝贵资源,同时我们的发现凸显了记忆作为一项基础但尚未充分探索的能力,并为设计多模态模型中更有效的记忆机制提供了见解。我们的代码和数据集可在 https://pku-value-lab.github.io/m3eval-homepage 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - M^3Eval:基于认知心理学视频任务的多模态记忆评估

来源:https://huggingface.co/papers/2606.05008

摘要

多模态模型在记忆能力上表现出显著局限,尤其是在维持解耦表示和展现类似人类的干扰模式方面,这凸显了视频理解系统中改进记忆机制的必要性。

随着多模态模型(https://huggingface.co/papers?q=multi-modal%20models)向长视频理解(https://huggingface.co/papers?q=video%20understanding)发展,记忆(https://huggingface.co/papers?q=memory)成为一项关键能力。尽管在视频数据集和基准测试(https://huggingface.co/papers?q=benchmark)的开发上付出了大量努力,但现有工作主要关注感知与推理,并未系统评估记忆(https://huggingface.co/papers?q=memory):模型保留了什么、信息保存的保真度如何、以及在干扰下记忆(https://huggingface.co/papers?q=memory)的鲁棒性如何。为填补这一空白,我们提出 M^3Eval,这是首个用于探测多模态模型(https://huggingface.co/papers?q=multi-modal%20models)不同记忆维度的全面评估框架(https://huggingface.co/papers?q=evaluation%20framework)与基准测试(https://huggingface.co/papers?q=benchmark)。基于认知心理学(https://huggingface.co/papers?q=cognitive%20psychology),我们的设计包含精心构建的任务,用于隔离记忆(https://huggingface.co/papers?q=memory)的关键方面。利用 M^3Eval,我们对具有代表性的多模态模型(https://huggingface.co/papers?q=multi-modal%20models)进行了广泛实验,揭示了它们一致的弱点和独特的行为。我们发现模型在处理并行视频流时难以维持解耦表示(https://huggingface.co/papers?q=disentangled%20representations),呈现与人类记忆(https://huggingface.co/papers?q=memory)中观察到的模式差异显著的干扰模式(https://huggingface.co/papers?q=interference%20patterns),记忆(https://huggingface.co/papers?q=memory)在空间域(https://huggingface.co/papers?q=spatial%20domain)中的溯源比时间域(https://huggingface.co/papers?q=temporal%20domain)更可靠,并且符号记忆(https://huggingface.co/papers?q=symbolic%20memory)能力有限。总体而言,我们的基准测试(https://huggingface.co/papers?q=benchmark)为未来研究提供了宝贵资源,同时我们的发现突显了记忆(https://huggingface.co/papers?q=memory)作为一项基础但尚未充分探索的能力,并为设计多模态模型(https://huggingface.co/papers?q=multi-modal%20models)中更有效的记忆(https://huggingface.co/papers?q=memory)机制提供了见解。我们的代码和数据集可在 https://pku-value-lab.github.io/m3eval-homepage/ 获取。

查看 arXiv 页面(https://arxiv.org/abs/2606.05008)查看 PDF(https://arxiv.org/pdf/2606.05008)项目页面(https://pku-value-lab.github.io/m3eval-homepage/)GitHub3(https://github.com/PKU-VaLuE-Lab/m3eval)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05008)

在你的智能体中获取此论文:

hf papers read 2606.05008

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有链接此论文的模型

请在模型 README.md 中引用 arxiv.org/abs/2606.05008,以便从此页面链接。

引用此论文的数据集1

PKU-VaLuE-Lab/m3eval 约 1 小时前更新 • 705 • 1 (https://huggingface.co/datasets/PKU-VaLuE-Lab/m3eval)

引用此论文的 Spaces0

没有链接此论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2606.05008,以便从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

MemEye:面向多模态智能体记忆的视觉中心评估框架

Hugging Face Daily Papers

MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。

WorldMemArena:通过动作-世界交互评估多模态智能体记忆

Hugging Face Daily Papers

WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。

MEME:多实体与动态记忆评估

Hugging Face Daily Papers

MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。