M^3Eval:基于认知心理学的视频任务多模态记忆评估
摘要
M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - M^3Eval:基于认知心理学视频任务的多模态记忆评估
来源:https://huggingface.co/papers/2606.05008
摘要
多模态模型在记忆能力上表现出显著局限,尤其是在维持解耦表示和展现类似人类的干扰模式方面,这凸显了视频理解系统中改进记忆机制的必要性。
随着多模态模型(https://huggingface.co/papers?q=multi-modal%20models)向长视频理解(https://huggingface.co/papers?q=video%20understanding)发展,记忆(https://huggingface.co/papers?q=memory)成为一项关键能力。尽管在视频数据集和基准测试(https://huggingface.co/papers?q=benchmark)的开发上付出了大量努力,但现有工作主要关注感知与推理,并未系统评估记忆(https://huggingface.co/papers?q=memory):模型保留了什么、信息保存的保真度如何、以及在干扰下记忆(https://huggingface.co/papers?q=memory)的鲁棒性如何。为填补这一空白,我们提出 M^3Eval,这是首个用于探测多模态模型(https://huggingface.co/papers?q=multi-modal%20models)不同记忆维度的全面评估框架(https://huggingface.co/papers?q=evaluation%20framework)与基准测试(https://huggingface.co/papers?q=benchmark)。基于认知心理学(https://huggingface.co/papers?q=cognitive%20psychology),我们的设计包含精心构建的任务,用于隔离记忆(https://huggingface.co/papers?q=memory)的关键方面。利用 M^3Eval,我们对具有代表性的多模态模型(https://huggingface.co/papers?q=multi-modal%20models)进行了广泛实验,揭示了它们一致的弱点和独特的行为。我们发现模型在处理并行视频流时难以维持解耦表示(https://huggingface.co/papers?q=disentangled%20representations),呈现与人类记忆(https://huggingface.co/papers?q=memory)中观察到的模式差异显著的干扰模式(https://huggingface.co/papers?q=interference%20patterns),记忆(https://huggingface.co/papers?q=memory)在空间域(https://huggingface.co/papers?q=spatial%20domain)中的溯源比时间域(https://huggingface.co/papers?q=temporal%20domain)更可靠,并且符号记忆(https://huggingface.co/papers?q=symbolic%20memory)能力有限。总体而言,我们的基准测试(https://huggingface.co/papers?q=benchmark)为未来研究提供了宝贵资源,同时我们的发现突显了记忆(https://huggingface.co/papers?q=memory)作为一项基础但尚未充分探索的能力,并为设计多模态模型(https://huggingface.co/papers?q=multi-modal%20models)中更有效的记忆(https://huggingface.co/papers?q=memory)机制提供了见解。我们的代码和数据集可在 https://pku-value-lab.github.io/m3eval-homepage/ 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.05008)查看 PDF(https://arxiv.org/pdf/2606.05008)项目页面(https://pku-value-lab.github.io/m3eval-homepage/)GitHub3(https://github.com/PKU-VaLuE-Lab/m3eval)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05008)
在你的智能体中获取此论文:
hf papers read 2606.05008
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有链接此论文的模型
请在模型 README.md 中引用 arxiv.org/abs/2606.05008,以便从此页面链接。
引用此论文的数据集1
PKU-VaLuE-Lab/m3eval 约 1 小时前更新 • 705 • 1 (https://huggingface.co/datasets/PKU-VaLuE-Lab/m3eval)
引用此论文的 Spaces0
没有链接此论文的 Space
请在 Space README.md 中引用 arxiv.org/abs/2606.05008,以便从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
MEME:多实体与动态记忆评估
MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。
InternVideo3: 使用多模态上下文推理将基础模型智能体化
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。