MemGUI-Agent:一种具有主动上下文管理的端到端长周期移动GUI智能体

Hugging Face Daily Papers 论文

摘要

MemGUI-Agent 引入了针对长周期移动GUI任务的主动上下文管理,利用上下文即动作(ConAct)来维护关键信息。它包含 MemGUI-3K 数据集,并使用一个 80 亿参数的模型在 MemGUI-Bench 和 MobileWorld 基准测试上达到了最先进的性能。

基于多模态大语言模型的移动GUI智能体在短周期任务上取得了显著进展,但在需要跨多个步骤和应用切换保留中间事实的长周期任务上仍然不可靠。我们将这一局限归因于 ReAct 风格的提示方法,该方法被动地累积每一步的记录,导致提示膨胀以及关键跨应用信息的稀释。为解决这一问题,我们提出了 MemGUI-Agent,一种具有主动上下文管理的端到端长周期移动GUI智能体。MemGUI-Agent 基于上下文即动作(ConAct)构建,将上下文管理视为与选择UI动作相同的策略发出的第一类动作。ConAct 不是被动地追加历史记录,而是维护三个结构化的上下文字段:折叠的动作历史、折叠的UI状态和最近的步骤记录,从而在保持上下文紧凑的同时保留关键的UI事实。为了使主动上下文管理在不同模型规模下可学习,我们构建了 MemGUI-3K,一个包含 2,956 条轨迹的数据集,配有完整的 ConAct 标注,用于监督训练和离线分析。在 MemGUI-3K 上训练一个 8B模型,得到了 MemGUI-8B-SFT,这是一个在 MemGUI-Bench 上取得最佳公开数据8B性能并泛化到分布外 MobileWorld 基准的8B MemGUI-Agent。代码、数据和训练好的模型将在 https://memgui-agent.github.io/ 发布。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:47

论文主页 - MemGUI-Agent: 一种具备主动上下文管理的端到端长时移动GUI智能体

来源: https://huggingface.co/papers/2606.19926

摘要

MemGUI-Agent 通过主动上下文管理应对长时移动 GUI 任务的局限性,采用“上下文即动作“(Context-as-Action, ConAct)策略,在长序列中维持关键信息。

基于 MLLM 的移动 GUI 智能体(https://huggingface.co/papers?q=MLLM-based%20mobile%20GUI%20agents)在短时任务上取得了显著进展,但在需要跨多步骤和跨应用切换时保留中间事实的长时任务中仍不可靠。我们将此局限性归因于 ReAct 风格提示(https://huggingface.co/papers?q=ReAct-style%20prompting),其被动地累积每步记录,导致提示膨胀并稀释关键的跨应用事实。为解决这一问题,我们提出了 MemGUI-Agent,一种具备主动上下文管理的端到端长时移动 GUI 智能体(https://huggingface.co/papers?q=end-to-end%20long-horizon%20mobile%20GUI%20agent)。MemGUI-Agent 基于“上下文即动作“(ConAct)(https://huggingface.co/papers?q=Context-as-Action%20(ConAct)),后者将上下文管理(https://huggingface.co/papers?q=context%20management)视为与选择 UI 动作采用同一策略发出的第一类动作。与被动追加历史记录不同,ConAct 维护三个结构化上下文字段(https://huggingface.co/papers?q=structured%20context%20fields):折叠的动作历史(https://huggingface.co/papers?q=folded%20action%20history)、折叠的 UI 状态(https://huggingface.co/papers?q=folded%20UI%20state)和近期步骤记录(https://huggingface.co/papers?q=recent%20step%20record),在保留关键 UI 事实的同时使上下文保持紧凑。为使主动上下文管理在不同模型规模上均可学习,我们构建了 MemGUI-3K(https://huggingface.co/papers?q=MemGUI-3K),一个包含 2,956 条轨迹且具有完整 ConAct 标注的数据集,用于监督训练(https://huggingface.co/papers?q=supervised%20training)和离线分析(https://huggingface.co/papers?q=offline%20analysis)。在 MemGUI-3K(https://huggingface.co/papers?q=MemGUI-3K)上训练一个 8B 模型,得到 MemGUI-8B-SFT,这是一个 8B 的 MemGUI-Agent,其在 MemGUI-Bench(https://huggingface.co/papers?q=MemGUI-Bench)上实现了最佳开放数据 8B 性能,并能泛化至分布外的 MobileWorld 基准测试(https://huggingface.co/papers?q=MobileWorld%20benchmark)。代码、数据和训练好的模型将在 https://memgui-agent.github.io/ 发布。

查看 arXiv 页面(https://arxiv.org/abs/2606.19926) 查看 PDF(https://arxiv.org/pdf/2606.19926) 项目页面(https://memgui-agent.github.io/) GitHub1(https://github.com/kwai/MemGUI-Agent) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19926)

引用本论文的模型1

lgy0404/MemGUI-8B-SFT 图像-文本-转-文本 • 9B • 5天前更新 • 50(https://huggingface.co/lgy0404/MemGUI-8B-SFT)

引用本论文的数据集1

lgy0404/MemGUI-3K 查看器 • 5天前更新 • 2.96k • 702(https://huggingface.co/datasets/lgy0404/MemGUI-3K)

引用本论文的Space0

没有关联的Space

在 Space 的 README.md 中引用 arxiv.org/abs/2606.19926 即可从此页面链接。

包含本论文的合集1

相似文章

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

MIRAGE:具备隐式推理与生成式世界模型的移动智能体

arXiv cs.AI

MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。