MemGUI-Agent:一种具有主动上下文管理的端到端长周期移动GUI智能体
摘要
MemGUI-Agent 引入了针对长周期移动GUI任务的主动上下文管理,利用上下文即动作(ConAct)来维护关键信息。它包含 MemGUI-3K 数据集,并使用一个 80 亿参数的模型在 MemGUI-Bench 和 MobileWorld 基准测试上达到了最先进的性能。
查看缓存全文
缓存时间: 2026/06/24 05:47
论文主页 - MemGUI-Agent: 一种具备主动上下文管理的端到端长时移动GUI智能体
来源: https://huggingface.co/papers/2606.19926
摘要
MemGUI-Agent 通过主动上下文管理应对长时移动 GUI 任务的局限性,采用“上下文即动作“(Context-as-Action, ConAct)策略,在长序列中维持关键信息。
基于 MLLM 的移动 GUI 智能体(https://huggingface.co/papers?q=MLLM-based%20mobile%20GUI%20agents)在短时任务上取得了显著进展,但在需要跨多步骤和跨应用切换时保留中间事实的长时任务中仍不可靠。我们将此局限性归因于 ReAct 风格提示(https://huggingface.co/papers?q=ReAct-style%20prompting),其被动地累积每步记录,导致提示膨胀并稀释关键的跨应用事实。为解决这一问题,我们提出了 MemGUI-Agent,一种具备主动上下文管理的端到端长时移动 GUI 智能体(https://huggingface.co/papers?q=end-to-end%20long-horizon%20mobile%20GUI%20agent)。MemGUI-Agent 基于“上下文即动作“(ConAct)(https://huggingface.co/papers?q=Context-as-Action%20(ConAct)),后者将上下文管理(https://huggingface.co/papers?q=context%20management)视为与选择 UI 动作采用同一策略发出的第一类动作。与被动追加历史记录不同,ConAct 维护三个结构化上下文字段(https://huggingface.co/papers?q=structured%20context%20fields):折叠的动作历史(https://huggingface.co/papers?q=folded%20action%20history)、折叠的 UI 状态(https://huggingface.co/papers?q=folded%20UI%20state)和近期步骤记录(https://huggingface.co/papers?q=recent%20step%20record),在保留关键 UI 事实的同时使上下文保持紧凑。为使主动上下文管理在不同模型规模上均可学习,我们构建了 MemGUI-3K(https://huggingface.co/papers?q=MemGUI-3K),一个包含 2,956 条轨迹且具有完整 ConAct 标注的数据集,用于监督训练(https://huggingface.co/papers?q=supervised%20training)和离线分析(https://huggingface.co/papers?q=offline%20analysis)。在 MemGUI-3K(https://huggingface.co/papers?q=MemGUI-3K)上训练一个 8B 模型,得到 MemGUI-8B-SFT,这是一个 8B 的 MemGUI-Agent,其在 MemGUI-Bench(https://huggingface.co/papers?q=MemGUI-Bench)上实现了最佳开放数据 8B 性能,并能泛化至分布外的 MobileWorld 基准测试(https://huggingface.co/papers?q=MobileWorld%20benchmark)。代码、数据和训练好的模型将在 https://memgui-agent.github.io/ 发布。
查看 arXiv 页面(https://arxiv.org/abs/2606.19926) 查看 PDF(https://arxiv.org/pdf/2606.19926) 项目页面(https://memgui-agent.github.io/) GitHub1(https://github.com/kwai/MemGUI-Agent) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19926)
引用本论文的模型1
lgy0404/MemGUI-8B-SFT 图像-文本-转-文本 • 9B • 5天前更新 • 50(https://huggingface.co/lgy0404/MemGUI-8B-SFT)
引用本论文的数据集1
lgy0404/MemGUI-3K 查看器 • 5天前更新 • 2.96k • 702(https://huggingface.co/datasets/lgy0404/MemGUI-3K)
引用本论文的Space0
没有关联的Space
在 Space 的 README.md 中引用 arxiv.org/abs/2606.19926 即可从此页面链接。
包含本论文的合集1
相似文章
MementoGUI:学习智能体多模态记忆控制以支持长时域GUI代理
MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉与文本表示提升了长期任务的性能。
MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台
MobileGym是一个基于浏览器的移动GUI代理研究仿真平台,具有确定性状态评估和可扩展的并行执行功能。它包含一个包含416个任务的基准测试,并展示了在Qwen3-VL-4B上使用GRPO带来的提升。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。
MIRAGE:具备隐式推理与生成式世界模型的移动智能体
MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。