MobileForge:基于分层反馈引导策略优化的免标注移动GUI智能体适配
摘要
MobileForge提出了一种针对移动GUI智能体的免标注适配系统,该系统利用真实应用交互和分层反馈引导的策略优化来提升性能,在AndroidWorld上使用开放数据取得了接近最优的结果。
查看缓存全文
缓存时间: 2026/06/24 05:47
论文页面 - MobileForge: 基于层次化反馈引导策略优化的免标注移动GUI智能体适配
Source: https://huggingface.co/papers/2606.19930
Abstract
MobileForge通过结合真实应用交互锚定与层次化反馈引导策略优化,实现了移动GUI智能体的高效免标注适配。
基于MLLM的移动GUI智能体(https://huggingface.co/papers?q=MLLM-based%20mobile%20GUI%20agents)在UI理解和动作执行方面取得了显著进展,但将其适配到真实目标应用仍成本高昂,因为移动应用数量庞大、更新频繁,且难以通过人工编写的任务、演示或奖励标签覆盖。现有的免标注GUI学习(https://huggingface.co/papers?q=annotation-free%20GUI%20learning)减少了人工监督,但缺乏一个统一的基础来连接目标应用探索、课程挖掘、轨迹执行和反馈,而策略优化通常依赖于孤立的轨迹和粗粒度的奖励,难以转化为可靠的改进信号。我们提出MobileForge,一个面向移动GUI智能体的免标注适配系统。MobileForge包含MobileGym(https://huggingface.co/papers?q=MobileGym)(将任务生成和轨迹评估锚定在真实移动应用交互中)和层次化反馈引导策略优化(HiFPO)(https://huggingface.co/papers?q=Hierarchical%20Feedback-Guided%20Policy%20Optimization),后者将轨迹结果、步骤级过程反馈和纠正提示转化为提示上下文化的步骤级GRPO更新(https://huggingface.co/papers?q=GRPO%20updates)。仅使用自动生成的免标注适配数据,MobileForge将Qwen3-VL-8B在AndroidWorld上的Pass@3(https://huggingface.co/papers?q=Pass%403)提升至67.2%,接近使用私有数据的GUI专用模型GUI-Owl-1.5-8B的69.0%。经MobileForge适配的ForgeOwl-8B进一步在AndroidWorld上达到77.6%的Pass@3(https://huggingface.co/papers?q=Pass%403),并在域外MobileWorld GUI-only分集上达到41.0%的成功率,成为我们评估中最强的开放数据移动GUI智能体。代码、数据和训练模型将在https://mobile-forge.github.io/发布。
查看arXiv页面(https://arxiv.org/abs/2606.19930) 查看PDF(https://arxiv.org/pdf/2606.19930) 项目页面(https://mobile-forge.github.io/) GitHub1(https://github.com/kwai/MobileForge) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19930)
在您的智能体中获取此论文:
hf papers read 2606.19930
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型的README.md中引用 arxiv.org/abs/2606.19930 即可从此页面链接。
引用此论文的数据集4
lgy0404/mobileforge-exploration-trajectories(https://huggingface.co/datasets/lgy0404/mobileforge-exploration-trajectories)
lgy0404/mobileforge-benchmark-results 约23小时前更新 • 2(https://huggingface.co/datasets/lgy0404/mobileforge-benchmark-results)
lgy0404/mobileforge-generated-tasks(https://huggingface.co/datasets/lgy0404/mobileforge-generated-tasks)
lgy0404/mobileforge-training-data 约19小时前更新(https://huggingface.co/datasets/lgy0404/mobileforge-training-data)
引用此论文的Space0
没有Space关联此论文
在Space的README.md中引用 arxiv.org/abs/2606.19930 即可从此页面链接。
包含此论文的收藏2
相似文章
HarnessForge: 联合执行框架与策略演化用于自适应智能体系统
HarnessForge 提出一种用于演化LLM智能体系统的元自适应框架,通过联合优化执行框架与推理策略,在五个基准测试上对Qwen3骨干模型实现持续改进。
MobileExplorer: 通过在线探索加速移动GUI智能体的设备端推理
MobileExplorer是一个新框架,通过在模型推理期间对UI元素进行轻量级并行探索,加速移动GUI智能体的设备端推理,将推理步骤和延迟降低23%,同时保持或提高任务成功率。
MIRAGE:具备隐式推理与生成式世界模型的移动智能体
MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。
MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台
MobileGym是一个基于浏览器的移动GUI代理研究仿真平台,具有确定性状态评估和可扩展的并行执行功能。它包含一个包含416个任务的基准测试,并展示了在Qwen3-VL-4B上使用GRPO带来的提升。
MemGUI-Agent:一种具有主动上下文管理的端到端长周期移动GUI智能体
MemGUI-Agent 引入了针对长周期移动GUI任务的主动上下文管理,利用上下文即动作(ConAct)来维护关键信息。它包含 MemGUI-3K 数据集,并使用一个 80 亿参数的模型在 MemGUI-Bench 和 MobileWorld 基准测试上达到了最先进的性能。