训练面向代理式手机使用的开放模型

Hugging Face Daily Papers 论文

摘要

PhoneBuddy 结合真实应用和模拟应用环境来训练面向代理式手机使用的开放模型,通过混合强化学习在真实手机上实现了 45.33% 的任务成功率,表明模拟应用训练是对真实应用训练的补充。

手机正成为通用代理的重要执行界面,但训练开放模型以实现可靠的手机使用仍然困难,因为部署时关键的环境——运行真实应用的真实设备——速度慢、有状态、有副作用,且难以重置或验证,而可扩展的模拟环境仅近似真实行为。我们提出 PhoneBuddy,这是一种面向代理式手机使用的训练方法和开放模型系列,它结合了真实应用环境和模拟应用环境 PhoneWorld,PhoneWorld 从真实 GUI 使用结构中重建可运行的模拟应用。PhoneBuddy 首先从两个环境收集的轨迹构建共享的监督微调阶段,然后比较真实应用强化学习与跨两个环境的混合强化学习。在涵盖应用、迷你应用和跨应用工作流的真实手机上的150项任务人工评估中,任务成功率从监督微调后的36.67%提升至真实应用强化学习后的40.67%和混合强化学习后的45.33%。在 AndroidWorld 上,同样的进展从60.3%升至77.2%再升至83.2%。这些结果表明,模拟应用训练并不是真实应用强化学习的替代品,而是可扩展、可重置和自动检查交互的补充来源。增益在应用和迷你应用任务上最为显著,而长跨度的跨应用工作流仍然是一个重要的开放挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - 训练面向手机智能体使用的开放模型

来源:https://huggingface.co/papers/2606.23049 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

PhoneBuddy 结合真实与模拟应用环境,提升面向手机使用的开放模型训练,通过混合强化学习方法展现出更高的任务成功率。

手机正成为通用型智能体的重要执行界面,但训练可靠的开放模型 (https://huggingface.co/papers?q=open%20models) 用于手机操作仍然困难,因为部署时真正重要的环境——运行真实应用的实体设备——速度慢、有状态、会造成副作用、且难以重置或验证,而可扩展的模拟环境只能近似真实行为。我们提出 PhoneBuddy,一种面向手机智能体使用的训练方案和开放模型系列,它结合了真实应用环境 (https://huggingface.co/papers?q=real-app%20environment) 与模拟应用环境 (https://huggingface.co/papers?q=mock-app%20environment) PhoneWorld (https://huggingface.co/papers?q=PhoneWorld),后者从真实 GUI 使用结构重建可运行的模拟应用。PhoneBuddy 首先从两个环境中收集的轨迹构建共享的监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 阶段,然后将真实应用强化学习与跨两个环境的混合强化学习进行比较。在涉及应用、迷你应用和跨应用工作流的真实手机 150 项任务人工评估中,任务成功率 (https://huggingface.co/papers?q=task%20success%20rate) 从监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 后的 36.67% 提升至真实应用强化学习后的 40.67% 和混合强化学习后的 45.33%。在 AndroidWorld (https://huggingface.co/papers?q=AndroidWorld) 上,同样的进展从 60.3% 升至 77.2% 再到 83.2%。这些结果表明,模拟应用训练并非真实应用强化学习的替代品,而是一种互补的可扩展、可重置且自动检查的交互来源。增益在应用和迷你应用任务上最为显著,而长周期的跨应用工作流仍然是一个重要的开放挑战。

查看 arXiv 页面 (https://arxiv.org/abs/2606.23049)查看 PDF (https://arxiv.org/pdf/2606.23049)项目页面 (https://phonebuddyai.github.io/)GitHub4 (https://github.com/PhoneBuddyAI/phonebuddy)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23049)

在你的智能体中获取此论文:

hf papers read 2606\.23049

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.23049 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.23049 以从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.23049 以从此页面链接。

包含此论文的收藏0

无收藏包含此论文

请将此论文添加至收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

PhoneWorld: 扩展手机使用代理环境

Hugging Face Daily Papers

PhoneWorld是一个管道,将真实的GUI轨迹转化为可控的移动环境,从而实现手机使用基准的可扩展创建。它涵盖16个领域的34个应用,并展示了使用其监督数据可以提升多个评估基准的性能。

AI代理应使用真实应用。

Reddit r/openclaw

OpenGUI是一种工具,允许AI代理通过读取屏幕和自然交互直接操作真实Android应用,而非依赖API或脚本。