MobileForge：基于分层反馈引导策略优化的免标注移动GUI智能体适配

Hugging Face Daily Papers 2026/06/18 00:00 论文

摘要

MobileForge提出了一种针对移动GUI智能体的免标注适配系统，该系统利用真实应用交互和分层反馈引导的策略优化来提升性能，在AndroidWorld上使用开放数据取得了接近最优的结果。

基于MLLM的移动GUI智能体在UI理解和动作执行方面取得了显著进展，但将它们适配到真实目标应用仍然成本高昂，因为移动应用数量众多、频繁更新，且难以通过人工编写的任务、演示或奖励标签来覆盖。现有的免标注GUI学习减少了人工监督，但缺乏一个统一的框架来连接目标应用探索、课程挖掘、轨迹执行和反馈，同时策略优化通常依赖于孤立的轨迹和粗粒度的奖励，难以转化为可靠的改进信号。我们提出了MobileForge，一个用于移动GUI智能体的免标注适配系统。MobileForge包括MobileGym（将任务生成和轨迹评估基于真实移动应用交互）和分层反馈引导策略优化（HiFPO），该优化将轨迹结果、步骤级过程反馈和修正提示转化为提示上下文化的步骤级GRPO更新。仅使用自动生成的免标注适配数据，MobileForge将Qwen3-VL-8B在AndroidWorld上的Pass@3提升至67.2%，接近封闭数据的GUI专用模型GUI-Owl-1.5-8B的69.0%。经过MobileForge适配的ForgeOwl-8B进一步在AndroidWorld上达到77.6%的Pass@3，在领域外MobileWorld GUI-only拆分上达到41.0%的成功率，在我们的评估中建立了最强的开放数据移动GUI智能体。代码、数据和训练好的模型将在https://mobile-forge.github.io/发布。

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:47

论文页面 - MobileForge: 基于层次化反馈引导策略优化的免标注移动GUI智能体适配

Source: https://huggingface.co/papers/2606.19930

Abstract

MobileForge通过结合真实应用交互锚定与层次化反馈引导策略优化，实现了移动GUI智能体的高效免标注适配。

基于MLLM的移动GUI智能体（https://huggingface.co/papers?q=MLLM-based%20mobile%20GUI%20agents）在UI理解和动作执行方面取得了显著进展，但将其适配到真实目标应用仍成本高昂，因为移动应用数量庞大、更新频繁，且难以通过人工编写的任务、演示或奖励标签覆盖。现有的免标注GUI学习（https://huggingface.co/papers?q=annotation-free%20GUI%20learning）减少了人工监督，但缺乏一个统一的基础来连接目标应用探索、课程挖掘、轨迹执行和反馈，而策略优化通常依赖于孤立的轨迹和粗粒度的奖励，难以转化为可靠的改进信号。我们提出MobileForge，一个面向移动GUI智能体的免标注适配系统。MobileForge包含MobileGym（https://huggingface.co/papers?q=MobileGym）（将任务生成和轨迹评估锚定在真实移动应用交互中）和层次化反馈引导策略优化（HiFPO）（https://huggingface.co/papers?q=Hierarchical%20Feedback-Guided%20Policy%20Optimization），后者将轨迹结果、步骤级过程反馈和纠正提示转化为提示上下文化的步骤级GRPO更新（https://huggingface.co/papers?q=GRPO%20updates）。仅使用自动生成的免标注适配数据，MobileForge将Qwen3-VL-8B在AndroidWorld上的Pass@3（https://huggingface.co/papers?q=Pass%403）提升至67.2%，接近使用私有数据的GUI专用模型GUI-Owl-1.5-8B的69.0%。经MobileForge适配的ForgeOwl-8B进一步在AndroidWorld上达到77.6%的Pass@3（https://huggingface.co/papers?q=Pass%403），并在域外MobileWorld GUI-only分集上达到41.0%的成功率，成为我们评估中最强的开放数据移动GUI智能体。代码、数据和训练模型将在https://mobile-forge.github.io/发布。

查看arXiv页面（https://arxiv.org/abs/2606.19930）查看PDF（https://arxiv.org/pdf/2606.19930）项目页面（https://mobile-forge.github.io/） GitHub1（https://github.com/kwai/MobileForge）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.19930）

在您的智能体中获取此论文：

hf papers read 2606.19930

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型的README.md中引用 arxiv.org/abs/2606.19930 即可从此页面链接。

引用此论文的数据集4

lgy0404/mobileforge-exploration-trajectories（https://huggingface.co/datasets/lgy0404/mobileforge-exploration-trajectories）

lgy0404/mobileforge-benchmark-results 约23小时前更新 • 2（https://huggingface.co/datasets/lgy0404/mobileforge-benchmark-results）

lgy0404/mobileforge-generated-tasks（https://huggingface.co/datasets/lgy0404/mobileforge-generated-tasks）

lgy0404/mobileforge-training-data 约19小时前更新（https://huggingface.co/datasets/lgy0404/mobileforge-training-data）

引用此论文的Space0

没有Space关联此论文

在Space的README.md中引用 arxiv.org/abs/2606.19930 即可从此页面链接。

MobileForge：基于分层反馈引导策略优化的免标注移动GUI智能体适配

论文页面 - MobileForge: 基于层次化反馈引导策略优化的免标注移动GUI智能体适配

Abstract

引用此论文的模型0

引用此论文的数据集4

lgy0404/mobileforge-exploration-trajectories（https://huggingface.co/datasets/lgy0404/mobileforge-exploration-trajectories）

lgy0404/mobileforge-benchmark-results 约23小时前更新 • 2（https://huggingface.co/datasets/lgy0404/mobileforge-benchmark-results）

lgy0404/mobileforge-generated-tasks（https://huggingface.co/datasets/lgy0404/mobileforge-generated-tasks）

lgy0404/mobileforge-training-data 约19小时前更新（https://huggingface.co/datasets/lgy0404/mobileforge-training-data）

引用此论文的Space0

包含此论文的收藏2

相似文章

HarnessForge: 联合执行框架与策略演化用于自适应智能体系统

MobileExplorer: 通过在线探索加速移动GUI智能体的设备端推理

MIRAGE：具备隐式推理与生成式世界模型的移动智能体

MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台

MemGUI-Agent：一种具有主动上下文管理的端到端长周期移动GUI智能体

提交意见反馈