MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
摘要
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - MemLens:大型视觉-语言模型中的多模态长期记忆基准测试
来源:https://huggingface.co/papers/2605.14906 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一项新的基准测试通过多轮对话评估视觉-语言模型的记忆能力,揭示了长上下文和记忆增强两种方法的局限性。
记忆对于大型视觉-语言模型(https://huggingface.co/papers?q=vision-language%20models)(LVLMs)处理冗长的多模态交互至关重要,目前有两种方法方向提供这一能力:长上下文 LVLMs(https://huggingface.co/papers?q=long-context%20LVLMs)和记忆增强型智能体(https://huggingface.co/papers?q=memory-augmented%20agents)。然而,现有的基准测试均未对这两种方法在真正需要多模态证据的问题上进行系统性比较。为弥补这一空白,我们提出了 MEMLENS,这是一个针对多模态多轮对话(https://huggingface.co/papers?q=multimodal%20multi-session%20conversations)中记忆能力的综合基准测试,包含 789 个问题,覆盖五种记忆能力(https://huggingface.co/papers?q=memory%20abilities)(信息提取、多轮推理(https://huggingface.co/papers?q=multi-session%20reasoning)、时序推理、知识更新和回答拒绝),在四种标准上下文长度(32K-256K token)下,采用跨模态 token 计数(https://huggingface.co/papers?q=cross-modal%20token-counting)方案进行测试。一项图像消融研究证实,解决 MEMLENS 需要视觉证据(https://huggingface.co/papers?q=visual%20evidence):移除证据图像后,两个前沿 LVLM 在 80.4% 的证据包含图像的问题上准确率降至 2% 以下。在评估了 27 个 LVLM 和 7 个记忆增强型智能体(https://huggingface.co/papers?q=memory-augmented%20agents)后,我们发现,长上下文 LVLMs(https://huggingface.co/papers?q=long-context%20LVLMs)通过直接视觉定位在短上下文中实现了高准确率,但会随着对话增长而下降;而记忆智能体长度稳定,但会在存储时压缩导致视觉保真度下降。多轮推理(https://huggingface.co/papers?q=Multi-session%20reasoning)将大多数系统的性能上限限制在 30% 以下,单一方法均无法独立解决该任务。这些结果催生了结合长上下文注意力与结构化多模态检索(https://huggingface.co/papers?q=structured%20multimodal%20retrieval)的混合架构。我们的代码可在 https://github.com/xrenaf/MEMLENS 获取。
查看 arXiv 页面(https://arxiv.org/abs/2605.14906)查看 PDF(https://arxiv.org/pdf/2605.14906)GitHub 0(https://github.com/xrenaf/MEMLENS)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14906)
引用此论文的模型 0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.14906 以在此页建立链接。
引用此论文的数据集 0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.14906 以在此页建立链接。
引用此论文的 Spaces 0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.14906 以在此页建立链接。
包含此论文的收藏集 0
暂无收藏集包含此论文
请将此论文添加到收藏(https://huggingface.co/new-collection)以在此页建立链接。
相似文章
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
LongMemEval-V2:评估长期智能体记忆,迈向经验丰富的同事
本文介绍了 LongMemEval-V2,这是一个用于评估 Web 智能体长期记忆系统的基准,同时提出了两种记忆方法:AgentRunbook-R 和 AgentRunbook-C。
Mem0:利用可扩展的长期记忆构建生产就绪的 AI 智能体
Mem0 引入了一种基于图表示的可扩展内存中心架构,旨在提升大语言模型(LLM)在长期对话中的连贯性,在显著降低延迟和 Token 成本的同时,性能优于现有的记忆系统。
δ-mem:大型语言模型的高效在线记忆机制
本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。