MementoGUI:学习智能体多模态记忆控制以支持长时域GUI代理

Hugging Face Daily Papers 论文

摘要

MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉与文本表示提升了长期任务的性能。

最近的 GUI 代理在视觉定位和动作预测方面取得了显著进展,但在需要跨多个界面转换维持任务状态的长期任务中仍然脆弱。现有代理通常依赖原始历史回放或纯文本记忆,这要么会用冗余截图淹没模型,要么会丢弃未来决策所需的局部化视觉证据。为应对这些限制,我们提出了 MementoGUI,一个插件式智能体记忆框架,为基于 MLLM 的 GUI 代理配备了 MementoCore——一个用于在线记忆选择、压缩和检索的学习型控制器。MementoGUI 不将交互历史视为固定上下文,而是将长时域 GUI 控制形式化为一个在线记忆控制问题:工作记忆通过文本摘要和 ROI 级视觉证据选择性保留任务相关的界面事件,而情景记忆通过学习到的相关性选择检索可复用的过往轨迹。MementoCore 将记忆控制模块化为专门的算子,用于步骤处理、记忆压缩、情景写入和情景选择,从而无需微调 GUI 代理主干即可实现插件式记忆增强。我们进一步开发了一个可扩展的数据清洗流水线,将计算机使用轨迹转换为记忆控制器训练数据,引入了 MementoGUI-Bench 用于评估 GUI 代理的长期决策能力,并设计了基于 MLLM 的指标用于语义动作匹配、任务进度和记忆一致性。在 GUI-Odyssey、MM-Mind2Web 和 MementoGUI-Bench 上的实验表明,MementoGUI 一致性地优于无历史、历史回放和纯文本记忆基线,而更大的 MementoCore 骨干进一步增强了记忆增强型 GUI 控制。
查看原文
查看缓存全文

缓存时间: 2026/05/19 14:32

论文页面 - MementoGUI: 为长时域GUI智能体学习智能多模态记忆控制

来源: https://huggingface.co/papers/2605.18652

摘要

MementoGUI 为GUI智能体提供了一个记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉和文本表示来提升长时域任务性能。

近期,GUI智能体(https://huggingface.co/papers?q=GUI%20agents)在视觉定位(https://huggingface.co/papers?q=visual%20grounding)和动作预测(https://huggingface.co/papers?q=action%20prediction)方面取得了显著进展,但在需要跨多次界面转换维护任务状态的长时域任务中仍显脆弱。现有智能体通常依赖原始历史重放或纯文本记忆,这要么用冗余截图淹没模型,要么丢弃对未来决策至关重要的局部视觉证据。为解决这些局限,我们提出了 MementoGUI——一个即插即用的智能记忆框架,为基于MLLM的(https://huggingface.co/papers?q=MLLM-based)GUI智能体(https://huggingface.co/papers?q=GUI%20agents)配备 MementoCore(https://huggingface.co/papers?q=MementoCore),这是一个用于在线记忆选择(https://huggingface.co/papers?q=memory%20selection)、压缩和检索的学习控制器。MementoGUI 不将交互历史视为固定上下文,而是将长时域GUI控制表述为一个在线记忆控制问题(https://huggingface.co/papers?q=memory-control%20problem):工作记忆(https://huggingface.co/papers?q=working%20memory)通过文本摘要和ROI级视觉证据选择性保留与任务相关的界面事件,而情景记忆(https://huggingface.co/papers?q=episodic%20memory)则通过学习的相关性选择检索可复用的过往轨迹。MementoCore(https://huggingface.co/papers?q=MementoCore)将记忆控制模块化为专用算子,用于步骤处理、记忆压缩(https://huggingface.co/papers?q=memory%20compression)、情景写入和情景选择,从而实现无需微调GUI智能体骨干网络的即插即用式记忆增强。我们进一步开发了一个可扩展的数据整理流水线,将计算机使用轨迹转换为记忆控制器训练数据,引入了用于评估GUI智能体(https://huggingface.co/papers?q=GUI%20agents)中长时域决策的 MementoGUI-Bench,并设计了基于MLLM的(https://huggingface.co/papers?q=MLLM-based)指标,用于语义动作匹配(https://huggingface.co/papers?q=semantic%20action%20matching)、任务进度(https://huggingface.co/papers?q=task%20progress)和记忆一致性(https://huggingface.co/papers?q=memory%20consistency)。在 GUI-Odyssey、MM-Mind2Web 和 MementoGUI-Bench 上的实验表明,MementoGUI 持续优于无历史、历史重放和纯文本记忆基线,且更大的 MementoCore(https://huggingface.co/papers?q=MementoCore)骨干网络进一步增强了记忆增强型GUI控制。

查看arXiv页面(https://arxiv.org/abs/2605.18652)查看PDF(https://arxiv.org/pdf/2605.18652)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18652)

在您的智能体中获取此论文:

hf papers read 2605.18652

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18652,以便从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18652,以便从此页面链接。

引用此论文的Space0

无Space链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18652,以便从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加至一个收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。

MemEye:面向多模态智能体记忆的视觉中心评估框架

Hugging Face Daily Papers

MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。

rohitg00/agentmemory

GitHub Trending (daily)

agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。

WorldMemArena:通过动作-世界交互评估多模态智能体记忆

Hugging Face Daily Papers

WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。