MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试

Hugging Face Daily Papers 论文

摘要

MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。

记忆对于大规模视觉-语言模型(LVLMs)处理长的多模态交互至关重要,有两种方法方向提供这种能力:长上下文LVLMs和记忆增强智能体。然而,现有的基准测试没有对真正需要多模态证据的问题进行系统性比较。为了填补这一空白,我们提出了MEMLENS,一个用于多模态多轮对话中记忆的全面基准测试,包含789个问题,涵盖五种记忆能力(信息提取、多轮推理、时间推理、知识更新和拒绝回答),并在跨模态标记计数方案下设置四种标准上下文长度(32K-256K tokens)。一项图像消融研究证实,解决MEMLENS需要视觉证据:移除证据图像后,两个前沿LVLMs在80.4%的问题(其证据包含图像)上的准确率降至2%以下。评估了27个LVLMs和7个记忆增强智能体后,我们发现长上下文LVLMs通过直接视觉定位实现了高短上下文准确率,但随着对话增长而下降,而记忆智能体在长度上稳定,但在存储时压缩下丧失了视觉保真度。多轮推理将大多数系统的性能上限限制在30%以下,且单独一种方法都无法完成任务。这些结果推动了结合长上下文注意力与结构化多模态检索的混合架构。我们的代码可在 https://github.com/xrenaf/MEMLENS 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - MemLens:大型视觉-语言模型中的多模态长期记忆基准测试

来源:https://huggingface.co/papers/2605.14906 作者:

摘要

一项新的基准测试通过多轮对话评估视觉-语言模型的记忆能力,揭示了长上下文和记忆增强两种方法的局限性。

记忆对于大型视觉-语言模型(https://huggingface.co/papers?q=vision-language%20models)(LVLMs)处理冗长的多模态交互至关重要,目前有两种方法方向提供这一能力:长上下文 LVLMs(https://huggingface.co/papers?q=long-context%20LVLMs)和记忆增强型智能体(https://huggingface.co/papers?q=memory-augmented%20agents)。然而,现有的基准测试均未对这两种方法在真正需要多模态证据的问题上进行系统性比较。为弥补这一空白,我们提出了 MEMLENS,这是一个针对多模态多轮对话(https://huggingface.co/papers?q=multimodal%20multi-session%20conversations)中记忆能力的综合基准测试,包含 789 个问题,覆盖五种记忆能力(https://huggingface.co/papers?q=memory%20abilities)(信息提取、多轮推理(https://huggingface.co/papers?q=multi-session%20reasoning)、时序推理、知识更新和回答拒绝),在四种标准上下文长度(32K-256K token)下,采用跨模态 token 计数(https://huggingface.co/papers?q=cross-modal%20token-counting)方案进行测试。一项图像消融研究证实,解决 MEMLENS 需要视觉证据(https://huggingface.co/papers?q=visual%20evidence):移除证据图像后,两个前沿 LVLM 在 80.4% 的证据包含图像的问题上准确率降至 2% 以下。在评估了 27 个 LVLM 和 7 个记忆增强型智能体(https://huggingface.co/papers?q=memory-augmented%20agents)后,我们发现,长上下文 LVLMs(https://huggingface.co/papers?q=long-context%20LVLMs)通过直接视觉定位在短上下文中实现了高准确率,但会随着对话增长而下降;而记忆智能体长度稳定,但会在存储时压缩导致视觉保真度下降。多轮推理(https://huggingface.co/papers?q=Multi-session%20reasoning)将大多数系统的性能上限限制在 30% 以下,单一方法均无法独立解决该任务。这些结果催生了结合长上下文注意力与结构化多模态检索(https://huggingface.co/papers?q=structured%20multimodal%20retrieval)的混合架构。我们的代码可在 https://github.com/xrenaf/MEMLENS 获取。

查看 arXiv 页面(https://arxiv.org/abs/2605.14906)查看 PDF(https://arxiv.org/pdf/2605.14906)GitHub 0(https://github.com/xrenaf/MEMLENS)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14906)

引用此论文的模型 0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.14906 以在此页建立链接。

引用此论文的数据集 0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.14906 以在此页建立链接。

引用此论文的 Spaces 0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.14906 以在此页建立链接。

包含此论文的收藏集 0

暂无收藏集包含此论文

请将此论文添加到收藏(https://huggingface.co/new-collection)以在此页建立链接。

相似文章

MemEye:面向多模态智能体记忆的视觉中心评估框架

Hugging Face Daily Papers

MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。

δ-mem:大型语言模型的高效在线记忆机制

Hugging Face Daily Papers

本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。