MementoGUI：学习智能体多模态记忆控制以支持长时域GUI代理

Hugging Face Daily Papers 2026/05/18 00:00 论文

gui-agents memory-control multimodal long-horizon visual-grounding action-prediction mllm

摘要

MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架，该框架使用学习到的控制器进行选择性记忆管理与检索，通过压缩的视觉与文本表示提升了长期任务的性能。

最近的 GUI 代理在视觉定位和动作预测方面取得了显著进展，但在需要跨多个界面转换维持任务状态的长期任务中仍然脆弱。现有代理通常依赖原始历史回放或纯文本记忆，这要么会用冗余截图淹没模型，要么会丢弃未来决策所需的局部化视觉证据。为应对这些限制，我们提出了 MementoGUI，一个插件式智能体记忆框架，为基于 MLLM 的 GUI 代理配备了 MementoCore——一个用于在线记忆选择、压缩和检索的学习型控制器。MementoGUI 不将交互历史视为固定上下文，而是将长时域 GUI 控制形式化为一个在线记忆控制问题：工作记忆通过文本摘要和 ROI 级视觉证据选择性保留任务相关的界面事件，而情景记忆通过学习到的相关性选择检索可复用的过往轨迹。MementoCore 将记忆控制模块化为专门的算子，用于步骤处理、记忆压缩、情景写入和情景选择，从而无需微调 GUI 代理主干即可实现插件式记忆增强。我们进一步开发了一个可扩展的数据清洗流水线，将计算机使用轨迹转换为记忆控制器训练数据，引入了 MementoGUI-Bench 用于评估 GUI 代理的长期决策能力，并设计了基于 MLLM 的指标用于语义动作匹配、任务进度和记忆一致性。在 GUI-Odyssey、MM-Mind2Web 和 MementoGUI-Bench 上的实验表明，MementoGUI 一致性地优于无历史、历史回放和纯文本记忆基线，而更大的 MementoCore 骨干进一步增强了记忆增强型 GUI 控制。

查看原文

查看缓存全文

缓存时间: 2026/05/19 14:32

论文页面 - MementoGUI: 为长时域GUI智能体学习智能多模态记忆控制

来源: https://huggingface.co/papers/2605.18652

摘要

MementoGUI 为GUI智能体提供了一个记忆框架，该框架使用学习到的控制器进行选择性记忆管理与检索，通过压缩的视觉和文本表示来提升长时域任务性能。

近期，GUI智能体（https://huggingface.co/papers?q=GUI%20agents）在视觉定位（https://huggingface.co/papers?q=visual%20grounding）和动作预测（https://huggingface.co/papers?q=action%20prediction）方面取得了显著进展，但在需要跨多次界面转换维护任务状态的长时域任务中仍显脆弱。现有智能体通常依赖原始历史重放或纯文本记忆，这要么用冗余截图淹没模型，要么丢弃对未来决策至关重要的局部视觉证据。为解决这些局限，我们提出了 MementoGUI——一个即插即用的智能记忆框架，为基于MLLM的（https://huggingface.co/papers?q=MLLM-based）GUI智能体（https://huggingface.co/papers?q=GUI%20agents）配备 MementoCore（https://huggingface.co/papers?q=MementoCore），这是一个用于在线记忆选择（https://huggingface.co/papers?q=memory%20selection）、压缩和检索的学习控制器。MementoGUI 不将交互历史视为固定上下文，而是将长时域GUI控制表述为一个在线记忆控制问题（https://huggingface.co/papers?q=memory-control%20problem）：工作记忆（https://huggingface.co/papers?q=working%20memory）通过文本摘要和ROI级视觉证据选择性保留与任务相关的界面事件，而情景记忆（https://huggingface.co/papers?q=episodic%20memory）则通过学习的相关性选择检索可复用的过往轨迹。MementoCore（https://huggingface.co/papers?q=MementoCore）将记忆控制模块化为专用算子，用于步骤处理、记忆压缩（https://huggingface.co/papers?q=memory%20compression）、情景写入和情景选择，从而实现无需微调GUI智能体骨干网络的即插即用式记忆增强。我们进一步开发了一个可扩展的数据整理流水线，将计算机使用轨迹转换为记忆控制器训练数据，引入了用于评估GUI智能体（https://huggingface.co/papers?q=GUI%20agents）中长时域决策的 MementoGUI-Bench，并设计了基于MLLM的（https://huggingface.co/papers?q=MLLM-based）指标，用于语义动作匹配（https://huggingface.co/papers?q=semantic%20action%20matching）、任务进度（https://huggingface.co/papers?q=task%20progress）和记忆一致性（https://huggingface.co/papers?q=memory%20consistency）。在 GUI-Odyssey、MM-Mind2Web 和 MementoGUI-Bench 上的实验表明，MementoGUI 持续优于无历史、历史重放和纯文本记忆基线，且更大的 MementoCore（https://huggingface.co/papers?q=MementoCore）骨干网络进一步增强了记忆增强型GUI控制。

查看arXiv页面（https://arxiv.org/abs/2605.18652）查看PDF（https://arxiv.org/pdf/2605.18652）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18652）

在您的智能体中获取此论文：

hf papers read 2605.18652

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18652，以便从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18652，以便从此页面链接。

引用此论文的Space0

无Space链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18652，以便从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加至一个收藏集（https://huggingface.co/new-collection）以从此页面链接。

MementoGUI：学习智能体多模态记忆控制以支持长时域GUI代理

论文页面 - MementoGUI: 为长时域GUI智能体学习智能多模态记忆控制

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

从多模态经验中学会学习

MemGUI-Agent：一种具有主动上下文管理的端到端长周期移动GUI智能体

MemEye：面向多模态智能体记忆的视觉中心评估框架

在长期用户交互中个性化具身多模态大语言模型智能体

rohitg00/agentmemory

提交意见反馈