iOSWorld:个性化智能手机代理的基准测试
摘要
介绍了iOSWorld,一个交互式原生iOS模拟器基准测试,具有跨26个应用的持久用户身份,旨在通过133个难度递增的任务评估个性化移动代理的能力。
查看缓存全文
缓存时间: 2026/06/18 15:58
论文页面 - iOSWorld:个人智能手机代理的基准测试
来源:https://huggingface.co/papers/2606.09764
摘要
iOSWorld 被介绍为首个交互式原生 iOS 模拟器基准测试,具备跨多个应用的持久用户身份,用于评估个性化移动代理能力。
一个有用的手机代理需要具备个人智能。它应该能基于用户在设备上的身份、历史记录和偏好进行推理,而不仅仅是在无个性的沙盒中执行孤立的指令。现有的移动代理基准测试(https://huggingface.co/papers?q=mobile%20agent%20benchmarks)缺乏这种个性化能力。我们推出了 iOSWorld,这是首个围绕持久用户身份(https://huggingface.co/papers?q=persistent%20user%20identity)构建的交互式原生 iOS 模拟器(https://huggingface.co/papers?q=iOS%20simulator)基准测试,涵盖 26 个全新构建的 iOS 应用。这些应用包含相互关联的数据,如交易、消息、旅行记录、社交关系和金融活动。iOSWorld 包含 133 个任务,分为三个难度递增的类别:单应用任务(27 个)测试单个应用,多应用任务(60 个)跨 2 到 8 个应用,记忆与个性化任务(46 个)要求代理从个人数据中推断模式。我们在纯视觉(https://huggingface.co/papers?q=vision-only)和特权视觉+XML(https://huggingface.co/papers?q=vision%2BXML)两种设置下评估了前沿和开源的计算机使用模型(https://huggingface.co/papers?q=computer-use%20models)。最佳配置整体达到 52%,但多应用任务仅 37%。特权视觉+XML(https://huggingface.co/papers?q=vision%2BXML)访问使前沿模型性能提升最多 26 个百分点,而较小模型并未从附加的可访问性树(https://huggingface.co/papers?q=accessibility-tree)输入中受益。我们将 iOSWorld 作为开源基准测试发布,包含所有应用、种子数据、任务、评分标准和评估代码。
查看 arXiv 页面(https://arxiv.org/abs/2606.09764)查看 PDF(https://arxiv.org/pdf/2606.09764)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09764)
在你的代理中获取此论文:
hf papers read 2606.09764
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。
包含此论文的收藏集1
相似文章
SimuWoB: 模拟真实世界移动应用以实现快速且逼真的GUI智能体基准测试
SimuWoB是一个合成基准测试,包含120个具有挑战性的移动GUI智能体任务,使用高保真虚拟环境并自动生成奖励。实验表明,当前智能体的平均成功率仅为27.92%,在长时程任务上降至17.82%,表明在复杂场景中存在显著弱点。
PhoneWorld: 扩展手机使用代理环境
PhoneWorld是一个管道,将真实的GUI轨迹转化为可控的移动环境,从而实现手机使用基准的可扩展创建。它涵盖16个领域的34个应用,并展示了使用其监督数据可以提升多个评估基准的性能。
我把我的真iPhone交给了我的智能体..
一位开发者创建了一种方法,让AI智能体通过API控制真实iPhone,实现起草iMessage、运行iOS快捷指令和移动应用测试等任务。他们提供了70部手机供实验使用。
MacArena:在在线macOS环境中对计算机使用代理进行基准测试
介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。