iOSWorld:个性化智能手机代理的基准测试

Hugging Face Daily Papers 论文

摘要

介绍了iOSWorld,一个交互式原生iOS模拟器基准测试,具有跨26个应用的持久用户身份,旨在通过133个难度递增的任务评估个性化移动代理的能力。

一个有用的手机代理需要具备个性化智能。它应该能够基于设备上用户的身份、历史记录和偏好进行推理,而不仅仅是在非个性化的沙箱中遵循孤立的指令。现有的移动代理基准测试缺乏这种个性化。我们介绍了iOSWorld,这是第一个围绕持久用户身份构建的交互式原生iOS模拟器基准测试,涵盖26个新构建的iOS应用。这些应用包含关联数据,例如交易、消息、旅行记录、社交关系和财务活动。iOSWorld包含133个任务,分为三个难度递增的类别:单应用任务(27个)测试单个应用,多应用任务(60个)涉及2到8个应用,记忆与个性化任务(46个)要求代理从个人数据中推断模式。我们评估了前沿和开源的计算机使用模型,包括仅视觉和有特权的视觉+XML设置。最佳配置整体达到了52%,但在多应用任务上仅为37%。有特权的视觉+XML访问使前沿模型提升了最多26个百分点,而较小的模型并未从添加的无障碍树输入中受益。我们将iOSWorld作为开源基准测试发布,包含所有应用、种子数据、任务、评分标准和评估代码。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:58

论文页面 - iOSWorld:个人智能手机代理的基准测试

来源:https://huggingface.co/papers/2606.09764

摘要

iOSWorld 被介绍为首个交互式原生 iOS 模拟器基准测试,具备跨多个应用的持久用户身份,用于评估个性化移动代理能力。

一个有用的手机代理需要具备个人智能。它应该能基于用户在设备上的身份、历史记录和偏好进行推理,而不仅仅是在无个性的沙盒中执行孤立的指令。现有的移动代理基准测试(https://huggingface.co/papers?q=mobile%20agent%20benchmarks)缺乏这种个性化能力。我们推出了 iOSWorld,这是首个围绕持久用户身份(https://huggingface.co/papers?q=persistent%20user%20identity)构建的交互式原生 iOS 模拟器(https://huggingface.co/papers?q=iOS%20simulator)基准测试,涵盖 26 个全新构建的 iOS 应用。这些应用包含相互关联的数据,如交易、消息、旅行记录、社交关系和金融活动。iOSWorld 包含 133 个任务,分为三个难度递增的类别:单应用任务(27 个)测试单个应用,多应用任务(60 个)跨 2 到 8 个应用,记忆与个性化任务(46 个)要求代理从个人数据中推断模式。我们在纯视觉(https://huggingface.co/papers?q=vision-only)和特权视觉+XML(https://huggingface.co/papers?q=vision%2BXML)两种设置下评估了前沿和开源的计算机使用模型(https://huggingface.co/papers?q=computer-use%20models)。最佳配置整体达到 52%,但多应用任务仅 37%。特权视觉+XML(https://huggingface.co/papers?q=vision%2BXML)访问使前沿模型性能提升最多 26 个百分点,而较小模型并未从附加的可访问性树(https://huggingface.co/papers?q=accessibility-tree)输入中受益。我们将 iOSWorld 作为开源基准测试发布,包含所有应用、种子数据、任务、评分标准和评估代码。

查看 arXiv 页面(https://arxiv.org/abs/2606.09764)查看 PDF(https://arxiv.org/pdf/2606.09764)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09764)

在你的代理中获取此论文:

hf papers read 2606.09764

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。

包含此论文的收藏集1

相似文章

PhoneWorld: 扩展手机使用代理环境

Hugging Face Daily Papers

PhoneWorld是一个管道,将真实的GUI轨迹转化为可控的移动环境,从而实现手机使用基准的可扩展创建。它涵盖16个领域的34个应用,并展示了使用其监督数据可以提升多个评估基准的性能。

我把我的真iPhone交给了我的智能体..

Reddit r/openclaw

一位开发者创建了一种方法,让AI智能体通过API控制真实iPhone,实现起草iMessage、运行iOS快捷指令和移动应用测试等任务。他们提供了70部手机供实验使用。