PhoneWorld: 扩展手机使用代理环境
摘要
PhoneWorld是一个管道,将真实的GUI轨迹转化为可控的移动环境,从而实现手机使用基准的可扩展创建。它涵盖16个领域的34个应用,并展示了使用其监督数据可以提升多个评估基准的性能。
查看缓存全文
缓存时间: 2026/05/29 07:01
论文页面 - PhoneWorld: 规模化构建手机操作智能体环境
来源: https://huggingface.co/papers/2605.29486 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
PhoneWorld 是一个流水线,可将真实的 GUI 轨迹和截图转化为可控的移动端环境、可执行任务和自动化验证器,从而实现手机操作基准测试的规模化创建。
手机操作智能体的核心瓶颈在于,要大规模构建可控、可复现、覆盖真实移动行为的环境非常困难。现有的移动端智能体基准测试在评估方面取得了重要进展,但它们本身并未提供一种可扩展的方式来构建大量新的手机操作环境。我们提出 PhoneWorld,这是一个可复用的流水线,能将真实的 GUI 轨迹和截图转化为可控的手机操作环境、可执行任务、自动验证器以及训练 rollout。PhoneWorld 并非逐个手工构建移动端基准测试,而是利用真实轨迹来恢复哪些屏幕是重要的、屏幕之间如何连接、哪些交互必须改变环境状态,以及哪些用户目标可以实现自动验证。基于这些信号,它构建了可运行的模拟 Android 应用,这些应用由只读的应用内容和可变状态支持,然后从相同的环境中派生出可执行任务、基于规则的验证器和训练 rollout。在当前实例中,PhoneWorld 覆盖了 16 个领域的 34 个应用,涵盖了搜索、浏览、购物、预订、媒体和社交互动等常见消费者移动行为。在固定的训练预算下,用来自辅助 AndroidWorld 语料库的 10K 步替换基于 AndroidWorld 的基线中的内容,并辅以广泛的 PhoneWorld 监督,可以同时提升所有四个评估基准:HYMobileBench 提升 17.7 分,AndroidControl 提升 6.0 分,AndroidWorld 提升 14.7 分,PhoneWorld 提升 52.5 分。然后我们研究了另外两个扩展性问题:增加 PhoneWorld 监督的量会显著提升 PhoneWorld 的表现;而在固定的 PhoneWorld 预算下,扩大应用覆盖范围能带来更大的收益。总体而言,PhoneWorld 将焦点从逐个构建移动端基准测试转向了规模化供应手机操作环境本身。
查看 arXiv 页面 (https://arxiv.org/abs/2605.29486) 查看 PDF (https://arxiv.org/pdf/2605.29486) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29486)
在你的智能体中获取这篇论文:
hf papers read 2605\.29486
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.29486,以便从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.29486,以便从此页面链接。
引用此论文的 Space0
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.29486,以便从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中,以便从此页面链接。
相似文章
MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台
MobileGym是一个基于浏览器的移动GUI代理研究仿真平台,具有确定性状态评估和可扩展的并行执行功能。它包含一个包含416个任务的基准测试,并展示了在Qwen3-VL-4B上使用GRPO带来的提升。
SimuWoB: 模拟真实世界移动应用以实现快速且逼真的GUI智能体基准测试
SimuWoB是一个合成基准测试,包含120个具有挑战性的移动GUI智能体任务,使用高保真虚拟环境并自动生成奖励。实验表明,当前智能体的平均成功率仅为27.92%,在长时程任务上降至17.82%,表明在复杂场景中存在显著弱点。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
给 AI 配备真机比另一个浏览器代理更有趣
OpenGUI 被突出展示为一个新颖的 AI 代理平台,它利用实际的 Android 设备执行任务,相较于传统的基于浏览器的代理,提供了更真实的界面。