SMMBench:面向源分布的多模态智能体记忆基准测试
摘要
提出SMMBench,一个用于评估多模态智能体从独立来源(如对话、表格和文档)中检索、对齐和组合分散证据能力的基准。实验表明,当前系统在此类源分布记忆组合任务上仍存在困难。
arXiv:2605.15710v1 公告类型:新论文
摘要:现有的多模态记忆推理基准主要在预组装上下文中评估系统,但未能充分评估智能体是否能够利用分散在独立来源中的证据。我们认为,源分布记忆组合是多模态智能体记忆中的一个重要但未被充分研究的瓶颈,尤其是当相关证据分散在异构工件(如对话、个人资料、截图、表格、图像和文档)中时。为填补这一空白,我们提出了源分布多模态记忆基准(SMMBench),该基准衡量智能体是否能够从多个来源中检索、对齐和组合多模态证据,而非在单一整理后的上下文中进行推理。SMMBench评估四项核心能力:(1) 跨源多模态推理;(2) 冲突解决;(3) 偏好推理;(4) 基于记忆的动作预测。该基准包含1877个样本,基于264个来源。针对代表性记忆型和检索型基线的实验表明,当前系统在这些能力上仍面临困难,将源分布多模态记忆定位为多模态智能体一个重要的、仍未被充分评估的挑战。我们的数据可在 https://huggingface.co/datasets/HuacanChai/SMMBench 获取。
查看缓存全文
缓存时间: 2026/05/18 06:34
# SMMBench:面向源分布多模态智能体记忆的基准测试
**来源:** https://arxiv.org/html/2605.15710
胡灿柴¹,王玉凯¹,杨颖萱¹,彭丹²,宋元一¹,付志辉²,刘伟文¹,∗,林江浩¹,∗,王军²,∗,张伟楠¹
¹上海交通大学,中国;²OPPO,中国;
\{fatcat, wwliu, linjianghao, wnzhang\}@sjtu\.edu\.cn, wangjun7@oppo\.com
###### 摘要
现有面向多模态记忆推理的基准测试主要评估系统在预先整合的上下文中进行推理的能力,但未充分评估智能体能否使用分布在不同独立来源中的证据。我们认为,**源分布记忆合成**是多模态智能体记忆中一个重要但未被充分研究的瓶颈,特别是当相关证据分散在不同类型的异构数据(如对话、个人资料、截图、表格、图片和文档)中时。为了填补这一空白,我们提出了**源分布多模态记忆基准测试**(SMMBench),它评估的是智能体能否检索、对齐并整合分散在多个来源中的多模态证据,而非在一个单一的、精心组织的上下文中进行推理。SMMBench 评估四个核心能力:(1) 跨来源多模态推理;(2) 冲突解决;(3) 偏好推理;(4) 基于记忆的动作预测。该基准测试包含 **1,877** 个样本,基于 **264** 个来源构建。对代表性记忆风格和检索风格基线的实验表明,当前系统在这些能力上仍显吃力,这标志着源分布多模态记忆是多模态智能体领域一个重要且仍未被充分评估的挑战。我们的数据可在 https://huggingface.co/datasets/HuacanChai/SMMBench 获取。
## 1 引言
多模态智能体越来越多地被期望在生产力、桌面和企业环境中扮演持久助手的角色\[41 (https://arxiv.org/html/2605.15710#bib.bib60),21 (https://arxiv.org/html/2605.15710#bib.bib63),8 (https://arxiv.org/html/2605.15710#bib.bib61),38 (https://arxiv.org/html/2605.15710#bib.bib55)\],而大多数真实世界任务本质上都是**跨来源**的:回答问题或执行动作所需的信息通常是通过时间积累,分散在聊天记录、表格、文档和其他数据中,而非打包在一个单一的上下文中\[16 (https://arxiv.org/html/2605.15710#bib.bib62),35 (https://arxiv.org/html/2605.15710#bib.bib50),1 (https://arxiv.org/html/2605.15710#bib.bib54)\]。这种设置揭示了智能体记忆中的一个挑战:困难往往不在于阅读长的输入,而在于使用那些分散在**独立来源**中的证据——这些来源创建于不同时间、服务于不同目的,而非在一个为最终查询预先整合好的上下文中进行推理\[43 (https://arxiv.org/html/2605.15710#bib.bib64)\]。
我们认为,**源分布记忆合成**是多模态智能体记忆中一个未被充分评估的瓶颈。**源分布**意味着相关证据分散在多个独立产生的来源中,例如不同的群聊或私聊、个人资料、表格和文档,每个来源都有其自身的主要目的和局部上下文。这带来了与在单一精心组织的上下文中推理截然不同的挑战。首先,相关证据分布在多个来源中,**单独任何一个来源都不足以直接确定最终答案**。例如,如图1 (https://arxiv.org/html/2605.15710#S1.F1) 所示,智能体可能需要将部门聊天记录、会议地点表格和手机截图中的证据联系起来,从而推断出“John 将于 11 月 13 日飞往纽约参加 Meeting A”;没有一个来源直接陈述了这一答案。其次,必要的证据通常分布在目的和局部上下文各不相同的、独立产生的来源中。由于这些来源是独立创建的,而非为查询共同组织,**它们的局部上下文将部分线索分隔开来,使得连接它们变得更加困难**。这就形成了一个独特的记忆瓶颈:智能体必须识别来源,并跨越它们的上下文边界进行桥接,才能合成答案。第三,不同来源的信息可能相互冲突,**要求智能体更新证据并解决冲突**,通过推理它们不同的权威级别或时间状态。总的来说,**关键挑战不仅仅是记住孤立的事实,而是将分布的证据合成为答案或动作**。
先前的基准测试在多模态长上下文和记忆设置方面取得了重要进展,但大多数仍是在一个单一预先整合的上下文中评估推理能力。多模态长上下文基准测试,如 MILEBench\[26 (https://arxiv.org/html/2605.15710#bib.bib12)\] 和 Mementos\[31 (https://arxiv.org/html/2605.15710#bib.bib13)\],评估的是多模态大语言模型(MLLMs)在长文本-图像上下文或视觉流中的检索、比较和推理能力。Mem-Gallery\[2 (https://arxiv.org/html/2605.15710#bib.bib6)\] 则进一步转向在连贯的多模态交互轨迹上进行对话记忆评估。然而,这些基准测试主要评估的是在一个连贯的上下文或统一的检索语料库中使用证据的能力。因此,它们未能充分评估智能体记忆系统能否整合分布在不同独立来源中的多模态证据。
(图1 说明)
**图 1:** 在真实任务中,必要的证据通常分布在多个具有不同目的和局部上下文的来源中,同时可能包含重叠的实体。由于没有任何单一来源是充分的,智能体必须跨来源检索并整合碎片化的证据,这使得源分布记忆成为基于记忆的响应和动作的一个关键瓶颈。
为了评估这一差距,我们提出了 **源分布多模态记忆基准测试**(SMMBench),这是一个多模态智能体记忆基准测试,其中相关证据被有意地分布在多个独立产生的来源中,而不是作为一个预先整合的上下文提供。该基准测试涵盖了现实持久助手场景中出现的代表性数据类型,包括对话、个人资料、表格、图片和文档,并围绕四个核心能力组织评估:跨来源推理、冲突解决、偏好推理和基于记忆的动作预测。它提供了细粒度的证据标注,以及开卷和基于检索的两种评估设置,从而不仅能够分析终端任务的准确性,还能分析系统在不同访问条件下如何使用分布式记忆。总体而言,该基准测试包含 **1,877** 个评估样本,涵盖 **5** 种任务类型和 **264** 个来源。实验结果表明,即使是最强大的评估系统在这种设置下也表现不佳,这凸显了源分布记忆是多模态智能体领域一个重大且仍未被充分评估的挑战。
我们的贡献如下:
- **问题识别**。我们识别出 **源分布记忆合成** 是多模态智能体记忆中一个未被充分评估的瓶颈,其关键挑战在于整合跨独立产生来源的证据,而非在一个准备好的上下文中进行推理。
- **挑战刻画**。我们通过描述独立来源带来的独特挑战,包括源级不完整性、跨源上下文桥接以及在不同权威级别或时间状态下的冲突解决,阐明了源分布记忆与标准长上下文推理的区别。
- **基准构建**。我们提出了 **源分布多模态记忆基准测试**,该基准测试通过对话、个人资料、截图、表格、图片和文档等源对象将这一挑战操作化,并评估跨来源推理、冲突解决、偏好推理和基于记忆的动作预测能力。
- **实证发现**。我们提供了细粒度的证据标注,并在开卷和基于检索的设置下进行了评估实验。在 **1,877** 个样本、**5** 种任务类型和 **264** 个来源上的实验表明,当前的代表性方法距离有效还相去甚远。
**表 1:** 与代表性记忆基准测试的比较。
✓:满足;✗:不满足。
| 基准测试 | 多模态 | 证据模态 & 来源模态 | 多证据 | 独立来源 | 跨来源推理 | 冲突解决 | 偏好推理 | 动作预测 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| LongMemEval\[33\] | ✗ | 文本/对话 | ✓ | ✗ | ✗ | ✗ | ✓ | ✗ |
| MemoryAgentBench\[9\] | ✗ | 文本/对话/文档 | ✓ | ✗ | ✗ | ✓ | ✓ | ✗ |
| LoCCO\[11\] | ✗ | 文本 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| LoCoMo\[19\] | ✓ | 文本/图像 | ✓ | ✗ | ✓ | ✗ | ✓ | ✗ |
| Mementos\[31\] | ✓ | 图像 | ✓ | ✗ | ✓ | ✗ | ✗ | ✗ |
| MMDU\[18\] | ✓ | 文本/图像 | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ |
| MMRC\[36\] | ✓ | 文本/图像 | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ |
| MultiHaystack\[35\] | ✓ | 文档/图像/视频 | ✓ | ✗ | ✓ | ✗ | ✗ | ✗ |
| Mem-Gallery\[2\] | ✓ | 文本/图像 | ✓ | ✗ | ✓ | ✓ | ✗ | ✗ |
| **SMMBench** | ✓ | 文本/图像/文档/表格/对话 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- **多模态**:是否包含多模态输入;
- **证据模态 & 来源模态**:证据和来源的模态类型,T 为文本,I 为图像,D 为文档,Tab. 为表格,C 为对话;
- **多证据**:问题必须结合多个证据才能解决;
- **独立来源**:证据分布在异质且独立的来源中;
- 以下列展示了所评估的能力:**跨来源推理**、**冲突解决**、**偏好推理**、**动作预测**。
## 2 相关工作
### 2.1 多模态智能体记忆基准测试
近年来关于多模态智能体记忆的基准测试主要关注长输入上下文带来的性能瓶颈。MILEBench\[26 (https://arxiv.org/html/2605.15710#bib.bib12)\] 评估了多模态大语言模型的长上下文理解能力,而 Mementos\[31 (https://arxiv.org/html/2605.15710#bib.bib13)\] 则专注于长图像序列的推理。Mem-Gallery\[2 (https://arxiv.org/html/2605.15710#bib.bib6)\] 通过强调多轮会话中的记忆维护,更接近智能体记忆设置,但其对话轨迹在很大程度上仍然是连贯的,而非分布在独立产生的来源中。然而,这些基准测试对于评估 SMMBench 所针对的源分布设置仍然不足。它们主要假设一个 **连贯的上下文**,例如长对话、图像流或统一的交互历史。相比之下,SMMBench 评估的是系统能否识别并整合分散在 **独立产生的来源**(具有不同的目的和局部上下文)中的、对答案至关重要的证据。这种源级碎片化不能简化为普通的长上下文推理。
### 2.2 多模态智能体检索增强生成基准测试
多模态检索增强生成(RAG)基准测试同样在发展。M2RAG\[17 (https://arxiv.org/html/2605.15710#bib.bib52)\] 评估多模态大语言模型在开放域任务(如图像描述)中检索和使用多模态文档的效率。MultiHaystack\[35 (https://arxiv.org/html/2605.15710#bib.bib50)\] 则强调在噪声检索设置下的多模态证据。然而,大多数多模态 RAG 基准测试假设一个 **连贯的语料库检索** 设置,即证据从一个共享的仓库中检索,主要挑战是在规模或噪声下定位相关项目。因此,它们测试的是相关多模态证据的检索能力,而非跨具有独立上下文边界的来源进行整合的能力。相比之下,SMMBench 评估系统能否识别相关来源、从每个来源中恢复部分线索,并将它们整合成连贯的答案或可执行的动作。
## 3 SMMBench 基准测试
(图2 说明)
**图 2:** SMMBench 概览。
**上方:** 数据集构建流程。
**左下方:** 智能体与异质记忆源交互,其中对答案至关重要的证据分布在独立来源中。
**右下方:** 在构建的环境中,智能体从记忆中检索信息,并在多种任务类型上被评估,包括单跳/多跳问答、冲突解决、偏好推理和函数调用。
### 3.1 问题形式化
我们将 SMMBench 形式化为一个基于 **源分布** 多模态证据的记忆增强问答和动作预测基准测试。在 SMMBench 中,一个 **源** 是一个独立产生的记忆对象,具有自身的局部上下文集和组织边界,例如一个群聊或私聊、一个个人资料页面、一张图片、一个表格或一个文档,而不是通过分割更大的对象得到的人工检索块。形式上,每个评估样本包含一个源集合
\[
\mathcal{S}=\{S_1,S_2,\dots,S_m\},
\tag{1}
\]
其中每个源 \(S_i\) 由一个或多个承载证据的项目组成:
\[
S_i=\{o_{i,1},o_{i,2},\dots,o_{i,n_i}\},\quad o_{i,j}=\langle x_{i,j},s_i,\tau_{i,j}\rangle,
\tag{2}
\]
包含内容 \(x_{i,j}\)、共享的源标识 \(s_i\) 以及时间戳或局部时间位置 \(\tau_{i,j}\)。内容 \(x_{i,j}\) 可能包括文本、图像、表格、文档页面或其他多模态证据。一个样本被认为 **源分布** 仅当其对于答案至关重要的证据满足两个条件:(1) 所需证据来自至少两个不同的来源,并且 (2) 没有任何单一来源本身足以确定黄金标准答案。设 \(\mathcal{E}^*(q)\) 是问题 \(q\) 所需的最小证据集,并设 \(s(e)\) 表示证据项 \(e\) 的来源。我们要求
\[
|\{s(e) \mid e \in \mathcal{E}^*(q)\}| \geq 2.
\tag{3}
\]
因此,每个来源只提供部分信息,最终答案必须通过跨来源边界整合证据来获得,而不是通过阅读一个局部完整的来源。
给定源集合 \(\mathcal{S}\),智能体逐步观察这些来源中的项目,并维护一个外部记忆状态 \(M_t\)。对于对话来源,观察遵循其轮次顺序;对于非对话来源(如文档或图像),观察对应其关联的来源项目。我们将整个观察流表示为
\[
\mathcal{O}=\{o_1, o_2, \ldots, o_T\},
\tag{4}
\]
其中每个观察保留其源标识。随着每个观察到达,记忆通过记忆更新算子 \(\Phi\) 更新:
\[
M_{t+1} = \Phi(M_t, o_t).
\tag{5}
\]
在吸收所有源之后,智能体接收到一个问题 \(q\),从记忆中检索相关信息,并生成最终答案:
\[
M_{\mathrm{ret}} = R(M_T, q), \quad y = G(q, M_{\mathrm{ret}}).
\tag{6}
\]
在这种形式下,成功需要的不仅仅是回忆长输入中的孤立事实。一个成功的系统必须 (1) 在异质源对象上保持感知源信息的记忆,(2) 检索跨越正确源边界的证据,以及 (3) 将这些证据碎片整合或协调成连贯的最终答案或动作。因此,SMMBench 评估的是 **源分布记忆合成**,而不仅仅是长上下文多模态回忆。
### 3.2 基准测试构建
我们通过三个阶段构建 SMMBench:QA 准备、对话来源合成和感知源的证据插入。这个流程将精心挑选的多模态 QA 实例转化为记忆增强的评估样本,其答案关键证据分布在多个来源中。详细的构建过程请参考附录 B (https://arxiv.org/html/2605.15710#A2)。
#### QA 准备
从多样的公共数据中收集...相似文章
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
GroupMemBench:多轮对话中LLM代理记忆的基准测试
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
从多模态经验中学会学习
本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。
MTR-Suite:一个用于评估和合成对话检索基准的框架
介绍MTR-Suite,一个用于评估和合成对话检索基准的统一框架,具备基于LLM的审计器、用于成本效益对话生成的多智能体流水线,以及一个具有高区分度的基准。