MobileForge:基于分层反馈引导策略优化的免标注移动GUI智能体适配

Hugging Face Daily Papers 论文

摘要

MobileForge提出了一种针对移动GUI智能体的免标注适配系统,该系统利用真实应用交互和分层反馈引导的策略优化来提升性能,在AndroidWorld上使用开放数据取得了接近最优的结果。

基于MLLM的移动GUI智能体在UI理解和动作执行方面取得了显著进展,但将它们适配到真实目标应用仍然成本高昂,因为移动应用数量众多、频繁更新,且难以通过人工编写的任务、演示或奖励标签来覆盖。现有的免标注GUI学习减少了人工监督,但缺乏一个统一的框架来连接目标应用探索、课程挖掘、轨迹执行和反馈,同时策略优化通常依赖于孤立的轨迹和粗粒度的奖励,难以转化为可靠的改进信号。我们提出了MobileForge,一个用于移动GUI智能体的免标注适配系统。MobileForge包括MobileGym(将任务生成和轨迹评估基于真实移动应用交互)和分层反馈引导策略优化(HiFPO),该优化将轨迹结果、步骤级过程反馈和修正提示转化为提示上下文化的步骤级GRPO更新。仅使用自动生成的免标注适配数据,MobileForge将Qwen3-VL-8B在AndroidWorld上的Pass@3提升至67.2%,接近封闭数据的GUI专用模型GUI-Owl-1.5-8B的69.0%。经过MobileForge适配的ForgeOwl-8B进一步在AndroidWorld上达到77.6%的Pass@3,在领域外MobileWorld GUI-only拆分上达到41.0%的成功率,在我们的评估中建立了最强的开放数据移动GUI智能体。代码、数据和训练好的模型将在https://mobile-forge.github.io/发布。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:47

论文页面 - MobileForge: 基于层次化反馈引导策略优化的免标注移动GUI智能体适配

Source: https://huggingface.co/papers/2606.19930

Abstract

MobileForge通过结合真实应用交互锚定与层次化反馈引导策略优化,实现了移动GUI智能体的高效免标注适配。

基于MLLM的移动GUI智能体(https://huggingface.co/papers?q=MLLM-based%20mobile%20GUI%20agents)在UI理解和动作执行方面取得了显著进展,但将其适配到真实目标应用仍成本高昂,因为移动应用数量庞大、更新频繁,且难以通过人工编写的任务、演示或奖励标签覆盖。现有的免标注GUI学习(https://huggingface.co/papers?q=annotation-free%20GUI%20learning)减少了人工监督,但缺乏一个统一的基础来连接目标应用探索、课程挖掘、轨迹执行和反馈,而策略优化通常依赖于孤立的轨迹和粗粒度的奖励,难以转化为可靠的改进信号。我们提出MobileForge,一个面向移动GUI智能体的免标注适配系统。MobileForge包含MobileGym(https://huggingface.co/papers?q=MobileGym)(将任务生成和轨迹评估锚定在真实移动应用交互中)和层次化反馈引导策略优化(HiFPO)(https://huggingface.co/papers?q=Hierarchical%20Feedback-Guided%20Policy%20Optimization),后者将轨迹结果、步骤级过程反馈和纠正提示转化为提示上下文化的步骤级GRPO更新(https://huggingface.co/papers?q=GRPO%20updates)。仅使用自动生成的免标注适配数据,MobileForge将Qwen3-VL-8B在AndroidWorld上的Pass@3(https://huggingface.co/papers?q=Pass%403)提升至67.2%,接近使用私有数据的GUI专用模型GUI-Owl-1.5-8B的69.0%。经MobileForge适配的ForgeOwl-8B进一步在AndroidWorld上达到77.6%的Pass@3(https://huggingface.co/papers?q=Pass%403),并在域外MobileWorld GUI-only分集上达到41.0%的成功率,成为我们评估中最强的开放数据移动GUI智能体。代码、数据和训练模型将在https://mobile-forge.github.io/发布。

查看arXiv页面(https://arxiv.org/abs/2606.19930) 查看PDF(https://arxiv.org/pdf/2606.19930) 项目页面(https://mobile-forge.github.io/) GitHub1(https://github.com/kwai/MobileForge) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19930)

在您的智能体中获取此论文:

hf papers read 2606.19930

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型的README.md中引用 arxiv.org/abs/2606.19930 即可从此页面链接。

引用此论文的数据集4

lgy0404/mobileforge-exploration-trajectories(https://huggingface.co/datasets/lgy0404/mobileforge-exploration-trajectories)

lgy0404/mobileforge-benchmark-results 约23小时前更新 • 2(https://huggingface.co/datasets/lgy0404/mobileforge-benchmark-results)

lgy0404/mobileforge-generated-tasks(https://huggingface.co/datasets/lgy0404/mobileforge-generated-tasks)

lgy0404/mobileforge-training-data 约19小时前更新(https://huggingface.co/datasets/lgy0404/mobileforge-training-data)

引用此论文的Space0

没有Space关联此论文

在Space的README.md中引用 arxiv.org/abs/2606.19930 即可从此页面链接。

包含此论文的收藏2

相似文章

MIRAGE:具备隐式推理与生成式世界模型的移动智能体

arXiv cs.AI

MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。