iOSWorld：个性化智能手机代理的基准测试

Hugging Face Daily Papers 2026/06/08 00:00 论文

benchmark mobile-agents personalization ios-simulator evaluation computer-use-models

摘要

介绍了iOSWorld，一个交互式原生iOS模拟器基准测试，具有跨26个应用的持久用户身份，旨在通过133个难度递增的任务评估个性化移动代理的能力。

一个有用的手机代理需要具备个性化智能。它应该能够基于设备上用户的身份、历史记录和偏好进行推理，而不仅仅是在非个性化的沙箱中遵循孤立的指令。现有的移动代理基准测试缺乏这种个性化。我们介绍了iOSWorld，这是第一个围绕持久用户身份构建的交互式原生iOS模拟器基准测试，涵盖26个新构建的iOS应用。这些应用包含关联数据，例如交易、消息、旅行记录、社交关系和财务活动。iOSWorld包含133个任务，分为三个难度递增的类别：单应用任务（27个）测试单个应用，多应用任务（60个）涉及2到8个应用，记忆与个性化任务（46个）要求代理从个人数据中推断模式。我们评估了前沿和开源的计算机使用模型，包括仅视觉和有特权的视觉+XML设置。最佳配置整体达到了52%，但在多应用任务上仅为37%。有特权的视觉+XML访问使前沿模型提升了最多26个百分点，而较小的模型并未从添加的无障碍树输入中受益。我们将iOSWorld作为开源基准测试发布，包含所有应用、种子数据、任务、评分标准和评估代码。

查看原文

查看缓存全文

缓存时间: 2026/06/18 15:58

论文页面 - iOSWorld：个人智能手机代理的基准测试

来源：https://huggingface.co/papers/2606.09764

摘要

iOSWorld 被介绍为首个交互式原生 iOS 模拟器基准测试，具备跨多个应用的持久用户身份，用于评估个性化移动代理能力。

一个有用的手机代理需要具备个人智能。它应该能基于用户在设备上的身份、历史记录和偏好进行推理，而不仅仅是在无个性的沙盒中执行孤立的指令。现有的移动代理基准测试（https://huggingface.co/papers?q=mobile%20agent%20benchmarks）缺乏这种个性化能力。我们推出了 iOSWorld，这是首个围绕持久用户身份（https://huggingface.co/papers?q=persistent%20user%20identity）构建的交互式原生 iOS 模拟器（https://huggingface.co/papers?q=iOS%20simulator）基准测试，涵盖 26 个全新构建的 iOS 应用。这些应用包含相互关联的数据，如交易、消息、旅行记录、社交关系和金融活动。iOSWorld 包含 133 个任务，分为三个难度递增的类别：单应用任务（27 个）测试单个应用，多应用任务（60 个）跨 2 到 8 个应用，记忆与个性化任务（46 个）要求代理从个人数据中推断模式。我们在纯视觉（https://huggingface.co/papers?q=vision-only）和特权视觉+XML（https://huggingface.co/papers?q=vision%2BXML）两种设置下评估了前沿和开源的计算机使用模型（https://huggingface.co/papers?q=computer-use%20models）。最佳配置整体达到 52%，但多应用任务仅 37%。特权视觉+XML（https://huggingface.co/papers?q=vision%2BXML）访问使前沿模型性能提升最多 26 个百分点，而较小模型并未从附加的可访问性树（https://huggingface.co/papers?q=accessibility-tree）输入中受益。我们将 iOSWorld 作为开源基准测试发布，包含所有应用、种子数据、任务、评分标准和评估代码。

查看 arXiv 页面（https://arxiv.org/abs/2606.09764）查看 PDF（https://arxiv.org/pdf/2606.09764）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.09764）

在你的代理中获取此论文：

hf papers read 2606.09764

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09764 即可从此页面链接。

iOSWorld：个性化智能手机代理的基准测试

论文页面 - iOSWorld：个人智能手机代理的基准测试

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集1

相似文章

SimuWoB: 模拟真实世界移动应用以实现快速且逼真的GUI智能体基准测试

PhoneWorld: 扩展手机使用代理环境

我把我的真iPhone交给了我的智能体..

MacArena：在在线macOS环境中对计算机使用代理进行基准测试

OmniGUI：在全方位模态智能手机环境中对GUI智能体进行基准测试

提交意见反馈