DMV-Bench: 通过偶然线索注入诊断长周期多模态智能体的视觉记忆

arXiv cs.CL 2026/06/29 04:00 论文

multimodal-agents visual-memory benchmark incidental-cue dual-coding agent-memory

摘要

介绍DMV-Bench，一个用于评估多模态智能体视觉记忆的交互式基准测试，该测试利用产品图像中的偶然视觉线索，并提出了DualMem，一种双编码记忆架构，在各种链长度上优于纯文本和其他多模态基线。

arXiv:2606.27499v1 公告类型: cross 摘要: 关于智能体记忆的研究已经迅速成熟，但几乎完全集中在文本方面：现有的基准测试很少在交互环境中询问智能体何时真正需要记住它看到的内容，而不是它能够写下来的内容。我们引入了DMV-Bench（代码: https://github.com/yyyujintang/DMV-Bench），这是第一个针对多模态智能体视觉记忆的交互式基准测试。DMV-Bench基于一个包含1,000种产品变体的受控家居装饰电商目录构建，其中通过文本泄漏契约确保每个任务的区分信号仅存在于像素中。在一系列自主购物会话中，每个访问过的产品图像都携带一个独特的预渲染偶然线索，随后要求智能体回忆特定的线索产品并导航到其URL。受双编码理论的启发，我们提出了DualMem，一种并行维护视觉和语言编码的记忆架构。在DMV-Bench上，DualMem在Gemini 2.5 Flash和Qwen2.5-VL-7B上的每个链长度J∈{5,10,15,50}中都优于纯文本基线以及三个最新的多模态智能体记忆系统，其领先优势在记忆库大小和编码位置偏差的控制下仍然存在，并且采用了一种非对称的双编码机制，其中视觉端到端地承载线索，而语言通道则扮演较小的查询接地角色。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:26

# DMV-Bench：通过偶然线索注入诊断长程多模态智能体的视觉记忆  
来源：https://arxiv.org/html/2606.27499  
Yujin Tang Chenming Shang Ruize Xu Nikhil Singh  
达特茅斯学院  
\{yujin\.tang\.gr, nikhil\.singh\}@dartmouth\.edu  

###### 摘要  

智能体记忆研究已迅速成熟，但几乎完全集中在文本层面：现有基准很少在交互式环境中询问，智能体*何时*真正需要记住它*看到*的内容，而非它能写下的内容。我们提出 **DMV-Bench**¹ ——首个面向多模态智能体视觉记忆的交互式基准。DMV-Bench 构建于一个受控的家居电商目录之上，包含 1,000 个产品变体，其中通过文本泄漏约束（text-leakage contract）将每项任务的判别信号严格限制在像素中。在自主购物会话链中，每个访问过的产品图像都带有唯一、预渲染的*偶然线索*，之后智能体被要求回忆某个特定线索产品并导航至其 URL。受双编码理论启发，我们提出 **DualMem** 记忆架构，并行维护视觉编码和语言编码。在 DMV-Bench 上，针对 Gemini 2.5 Flash 和 Qwen2.5-VL-7B，DualMem 在每种链长度 J ∈ {5,10,15,50} 下均优于字幕基线和三种近期多模态智能体记忆系统，且领先优势在记忆库大小和编码位置偏倚控制下依然成立；同时我们探索了*非对称双编码*机制，其中视觉通道端到端承载线索，而语言通道则扮演较小的查询接地角色。

¹代码：https://github.com/yyyujintang/DMV-Bench

**DMV-Bench：通过偶然线索注入诊断长程多模态智能体的视觉记忆**  
Yujin Tang Chenming Shang Ruize Xu Nikhil Singh  
达特茅斯学院  
\{yujin\.tang\.gr, nikhil\.singh\}@dartmouth\.edu  

参见图注  
图 1：为何交互式视觉记忆至关重要。一位购物代理帮助用户布置房间，涉及跨*椅子*、*台灯*和*花瓶*类别的产品。当用户稍后返回并提及“那个带有闹钟的台灯”时，*纯文本*记忆仅存储了可命名的属性（蘑菇形、磨砂玻璃、奶油色灯罩），没有记录意外的闹钟线索，代理便陷入困境。而*视觉*记忆保留了线索，使代理能够定位到正确的台灯并完成请求。

## 1 引言  

人类从久远经历中回忆的大部分内容并非通过刻意复述恢复，而是借助一个线索：一个偶然的感知细节（如包装纸的颜色、帽子上的图案），当时并未被标记为重要，但后来却成为解锁整个情节的钥匙。这一现象已有理论支持；例如，编码特异性理论（Tulving and Thomson, 1973）认为，记忆的可提取程度取决于编码时存在的线索在提取时能否被重现；而偶然编码研究（Hyde and Jenkins, 1969; Craik and Lockhart, 1972）表明，这类线索无需有意记忆便会被常规记录下来。在人类中，这些线索不成比例地属于视觉范畴，而利用它们从部分线索到完整情节的海马体模式补全机制（Marr, 1971; Nakazawa et al., 2002）近来已开始启发用于语言模型智能体的记忆系统（Gutiérrez et al., 2024）。

多模态网络代理目前并不以此方式记忆。在执行任务过程中，代理可能浏览数百张产品图像，除非某个细节被标记为与当前子目标相关，否则它几乎没有理由对其进行编码。当某些内容被提交到记忆时，当前多数系统将其以文本形式写入（Packer et al., 2023; Zhong et al., 2024; Xu et al., 2025; Gutiérrez et al., 2024）。因此，如果用户稍后通过视觉细节（例如“那个有三角形黄铜底座的台灯”）回指某物，文本记忆可以确认见过一台灯，但可能无法说明是哪一个。

参见图注  
图 2：*(a) DMV-Bench。*每个访问过的产品都携带一个独特的偶然线索，嵌入在图像中，并通过 L2 泄漏约束禁止出现在任何文本通道中。*(b) DualMem 架构。*每个观测被双编码为视觉嵌入和语言嵌入，以四个通道存储在一个记忆库中；检索时，视觉和语言 top-k 分数通过可调权重 α 融合，之后视觉语言模型智能体发出动作。

同时，将所有像素*全部*前向传递既不可行也非必要。关键问题是*何时*：哪些任务真正需要智能体记住它*看到*的内容，而对于哪些任务，文本笔记同样有效？现有基准使得这个问题难以确定，因为它们通常结合了视觉和文本信号，而非分离各自的贡献。我们构建 DMV-Bench 来使这一问题可回答。

#### 通过偶然线索注入测试视觉回忆。  
DMV-Bench 将问题简化为一项任务和一种机制。智能体在逼真的商店前端运行一系列普通的比较购物会话。商店前端提供的每个产品都带有唯一、预渲染的视觉线索，例如在构建时嵌入产品图像中的特定颜色的小物体。智能体被告知在某个类别内进行比较购物，但未指示其注意或记住任何视觉细节；线索存在于每个访问过的产品上，但任务从未提及。在会话之间，其上下文对话被清除，因此只有其记忆架构承载任何前向信息；之后，仅用于评估的智能体被要求导航回特定的线索产品。由于线索存在于像素中而非任何文本通道，文本记忆只有在其描述器恰好描述了任务未明确指出的对象时才能作答。关注的轴是*回忆范围*：访问与探测之间跨越了多少个会话边界。扫描范围将单个准确率转化为*保留曲线*，直接读出视觉线索在给定记忆中存活的时间。

#### 为何现有基准无法回答此问题。  
当前基准的三个特性使得这一问题难以确定。它们混淆了文本回忆和视觉回忆：在 VisualWebArena（Koh et al., 2024）、WebArena（Zhou et al., 2024）以及大多数长视频问答（Fu et al., 2024; Li et al., 2024）中，智能体可以通过读取描述文字或替代文本来解决表面上视觉的任务。当确实需要视觉回忆时，判别细节通常是可以命名的（红色沙发 vs 蓝色沙发），因此文本记忆并未受到真正压力。而且，证据几乎总是*预先标记*且在短距离内被探测，使得一个*未标记*的细节能否在长程多会话视野中存活的问题基本未被测量。智能体记忆文献虽发展迅速，但集中在文本方面：例如 MemoryArena（He et al., 2026）严格测试了跨会话依赖，但其观测是文本形式的，且未询问*视觉*细节能否跨越会话边界。

总体而言，我们的贡献是：
1. 我们实现了 DMV-Bench，据我们所知，这是第一个面向*交互式、多会话、视觉*智能体记忆的基准：一个逼真的电商环境，包含经过校准的 1,000 个变体目录，其中每个访问过的产品图像都带有唯一、嵌入的偶然线索。
2. 我们为多会话智能体视觉记忆提出了“何时”问题，并引入*逐项偶然线索注入*作为使其可操作化的协议：智能体在每个会话中遇到线索，但没有任何指示要求其注意它们。
3. 我们提出了*回忆范围保留诊断*，它通过线索存活的会话边界数量来探测回忆，并在共享前缀展开树上高效评估。
4. 我们提出了 DualMem，一种受双编码启发的记忆架构，并行维护视觉和语言信号，并在检索和注入时进行融合；我们针对六种基线（包括三种近期多模态外部记忆系统）对其进行了审计。

## 2 相关工作  

#### 文本侧记忆系统。  
明确的读写/注入机制在纯文本智能体中已十分完善，从操作系统风格的层次结构和艾宾浩斯启发的遗忘（Packer et al., 2023; Zhong et al., 2024; Shinn et al., 2023）到自主记忆操作（Xu et al., 2025; Wang and Chen, 2025; Chhikara et al., 2025）以及海马体式检索（Gutiérrez et al., 2024）。近来的一条工作线将轨迹提炼为可重复使用的单元，智能体可随后进行组合：Agent Workflow Memory（Wang et al., 2024）从过去成功中归纳出程序形式的工作流，ReasoningBank（Ouyang et al., 2026）从成功和失败中提取策略级推理项。在这些系统中，记忆的单位是文本——一个句子、一个事实、一个图节点、一个工作流、一个推理步骤——因此诊断失败归结为文本检索质量的问题。DMV-Bench 针对该假设失效的情景：记忆的单位变为视觉。

#### 视觉侧记忆系统。  
一旦观测变为图像，设计空间便扩大了。*模型内*多模态记忆将存储绑定到固定视觉编码器：基于描述文本的实体图（M3-Agent (Long et al., 2025)、MA-LMM (He et al., 2024)、EgoLife/EgoRAG (Yang et al., 2025)），通过 Q-Former 的连续令牌记忆（CoMEM (Wu et al., 2025b; Li et al., 2023)），以及离散-连续混合体（HSE-Mem (Zhu et al., 2026)）；这些与宿主模型绑定，不能作为即插即用模块转移。我们相反聚焦于*外部*多模态记忆，任何智能体均可查询：WorldMM (Yeo et al., 2026) 跨并行情节、语义和视觉模块自适应检索；M2A (Feng et al., 2026) 将原始消息存储与语义抽象存储结合，由配对的聊天和记忆管理代理路由；MMA (Lu et al., 2026) 根据来源可信度、时间衰减和冲突感知共识对检索项重新加权；MemVerse (Liu et al., 2025) 维护一个层次化多模态知识图谱，并定期将其蒸馏回宿主模型。这四者是我们直接与 DualMem 进行基准比较的对比集。两种浪潮中的评估都是端到端的，很少直接测量视觉条目在多会话视野中实际存活的时间——这正是 DMV-Bench 沿其范围轴测量的量。

#### 智能体记忆基准。  
在文本侧，LoCoMo (Maharana et al., 2024)、LongMemEval (Wu et al., 2025a) 和 MemoryAgentBench (Hu et al., 2026) 评估长期对话记忆；MemoryArena (He et al., 2026) 使多会话智能体维度明确化，但其观测仍是文本形式，且未测试*视觉*细节能否跨越会话边界。在视觉侧，FindingDory (Yadav et al., 2025) 强调具身长轨迹智能体，EMemBench (Li et al., 2026) 探测视觉语言模型的情景记忆，而同期工作 MemEye (Guo et al., 2026) 在多个证据粒度级别评估以视觉为中心的多模态智能体记忆；然而，MemEye 是一个静态问答基准，而非智能体在其中行动并根据其行为得分的交互式环境。逼真的网络智能体环境（Zhou et al., 2024; Koh et al., 2024）提供了交互式设置，但它们未将智能体的视觉记忆作为独立测量项分离出来；特别是在 VisualWebArena 中，屏幕截图是观测，但并无探测长程视觉保留的项。DMV-Bench 占据了这些基准所缺失的交集（表 1）：一个交互式网络环境，其评估沿受控的范围轴隔离了长程*视觉*保留。

表 1：与 DMV-Bench 同时期的智能体记忆基准。据我们所知，DMV-Bench 是首个专门为*交互式、多会话、视觉*智能体记忆设计的基准：先前的记忆基准要么是问答风格，要么是移动屏幕截图的图形用户界面交互式，要么是混合网络与推理。没有一个探测智能体在实时环境中偶然看到的*视觉*线索的多会话保留。对于 DMV-Bench，“# Tasks”单元格中的“46,265/18,588”报告了在 *Gemini 2.5 Flash* /*Qwen2.5-VL-7B* 上的回忆探测任务数量。

## 3 DMV-Bench  

DMV-Bench 是一个用于多模态智能体长程视觉记忆的诊断性基准。

### 3.1 受控的电商环境  

该基准存在于一个逼真的现代家具商店前端，包含主页、类别网格、产品详情页、面包屑导航、评分和“相关商品”轮播。十个产品类别（沙发、灯具、地毯、靠垫、椅子、边桌、花瓶、书架、墙饰、花盆）以十种室内设计风格（现代、极简、世纪中期现代、斯堪的纳维亚、工业、复古、乡村、波西米亚、装饰艺术、日式侘寂）呈现，每个系列包含十个变体，形成 10 × 10 × 10 = 1,000 个变体的目录，每个变体通过冻结的 `urlHash` 绑定到商店前端。四个导航级别的商店前端截图见附录 A。

#### 变体生成。  
对于每个变体，我们首先合成一个自然语言提示，命名产品类别和系列风格。对于带有线索的变体，提示还从双射线索词汇中命名一个唯一的*颜色-物体*对，因此每个线索全局唯一。Nano-Banana（Google DeepMind, 2025）渲染基础工作室照片，然后执行线索覆盖编辑，确保线索在不同类别和风格间渲染一致。一个视觉语言模型作为评判员过滤产品类别漂移的生成内容。

#### L2 泄漏约束。  
每项任务的主要信号是**线索**：一个仅存在于一个产品图像像素中的彩色小物体。L2 泄漏约束将此信号排除在语言之外：

DMV-Bench: 通过偶然线索注入诊断长周期多模态智能体的视觉记忆

相似文章

MemEye：面向多模态智能体记忆的视觉中心评估框架

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

SMMBench：面向源分布的多模态智能体记忆基准测试

从多模态经验中学会学习

WorldMemArena：通过动作-世界交互评估多模态智能体记忆

提交意见反馈