训练面向代理式手机使用的开放模型
摘要
PhoneBuddy 结合真实应用和模拟应用环境来训练面向代理式手机使用的开放模型,通过混合强化学习在真实手机上实现了 45.33% 的任务成功率,表明模拟应用训练是对真实应用训练的补充。
查看缓存全文
缓存时间: 2026/06/23 05:40
论文页面 - 训练面向手机智能体使用的开放模型
来源:https://huggingface.co/papers/2606.23049 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
PhoneBuddy 结合真实与模拟应用环境,提升面向手机使用的开放模型训练,通过混合强化学习方法展现出更高的任务成功率。
手机正成为通用型智能体的重要执行界面,但训练可靠的开放模型 (https://huggingface.co/papers?q=open%20models) 用于手机操作仍然困难,因为部署时真正重要的环境——运行真实应用的实体设备——速度慢、有状态、会造成副作用、且难以重置或验证,而可扩展的模拟环境只能近似真实行为。我们提出 PhoneBuddy,一种面向手机智能体使用的训练方案和开放模型系列,它结合了真实应用环境 (https://huggingface.co/papers?q=real-app%20environment) 与模拟应用环境 (https://huggingface.co/papers?q=mock-app%20environment) PhoneWorld (https://huggingface.co/papers?q=PhoneWorld),后者从真实 GUI 使用结构重建可运行的模拟应用。PhoneBuddy 首先从两个环境中收集的轨迹构建共享的监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 阶段,然后将真实应用强化学习与跨两个环境的混合强化学习进行比较。在涉及应用、迷你应用和跨应用工作流的真实手机 150 项任务人工评估中,任务成功率 (https://huggingface.co/papers?q=task%20success%20rate) 从监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 后的 36.67% 提升至真实应用强化学习后的 40.67% 和混合强化学习后的 45.33%。在 AndroidWorld (https://huggingface.co/papers?q=AndroidWorld) 上,同样的进展从 60.3% 升至 77.2% 再到 83.2%。这些结果表明,模拟应用训练并非真实应用强化学习的替代品,而是一种互补的可扩展、可重置且自动检查的交互来源。增益在应用和迷你应用任务上最为显著,而长周期的跨应用工作流仍然是一个重要的开放挑战。
查看 arXiv 页面 (https://arxiv.org/abs/2606.23049)查看 PDF (https://arxiv.org/pdf/2606.23049)项目页面 (https://phonebuddyai.github.io/)GitHub4 (https://github.com/PhoneBuddyAI/phonebuddy)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23049)
在你的智能体中获取此论文:
hf papers read 2606\.23049
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.23049 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.23049 以从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.23049 以从此页面链接。
包含此论文的收藏0
无收藏包含此论文
请将此论文添加至收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
PhoneHarness:通过混合 GUI、CLI 和工具操作驾驭手机使用代理
PhoneHarness 是一个混合操作基准测试和执行框架,用于评估手机使用代理在可验证移动工作流上的表现,通过确定性操作路由和可审计执行跟踪实现了 75% 的通过率,比现有方法高出 12.9 个百分点。
PhoneWorld: 扩展手机使用代理环境
PhoneWorld是一个管道,将真实的GUI轨迹转化为可控的移动环境,从而实现手机使用基准的可扩展创建。它涵盖16个领域的34个应用,并展示了使用其监督数据可以提升多个评估基准的性能。
给 AI 配备真机比另一个浏览器代理更有趣
OpenGUI 被突出展示为一个新颖的 AI 代理平台,它利用实际的 Android 设备执行任务,相较于传统的基于浏览器的代理,提供了更真实的界面。
@ttunguz:我一直在用最先进的模型训练我电脑上的小模型如何像我一样工作。结果:一个人...
使用大型AI模型训练较小的本地模型,作者构建了一个管理邮件、日历、交易、博客和研究的个人助手。
AI代理应使用真实应用。
OpenGUI是一种工具,允许AI代理通过读取屏幕和自然交互直接操作真实Android应用,而非依赖API或脚本。