Agent S2：一种面向计算机使用智能体的组合式通才-专才框架

Papers with Code Trending 2025/04/01 15:40 论文

摘要

Agent S2 是一种新型的计算机使用智能体组合式框架，通过采用混合定位（Mixture-of-Grounding）与主动分层规划（Proactive Hierarchical Planning）技术，在多个基准测试中达到了最先进的性能。

计算机使用智能体通过直接与计算机和移动设备上的图形用户界面（GUI）交互来自动化数字任务，有望通过完成开放域的用户查询来显著提升人类生产力。然而，现有的智能体仍面临重大挑战：GUI 元素定位不精确、长时程任务规划困难，以及依赖单一通才模型处理多样化认知任务所带来的性能瓶颈。为此，我们提出了 Agent S2，一种新颖的组合式框架，将认知职责分配至多个通才和专才模型。我们提出了一种创新的混合定位技术以实现精确的 GUI 定位，并引入了主动分层规划机制，在多个时间尺度上动态优化行动计划以应对不断变化的观测结果。评估结果表明，Agent S2 在三个知名的计算机使用基准测试中均创下了新的最优（SOTA）性能。具体而言，Agent S2 在 OSWorld 的 15 步和 50 步评估中分别比 Claude Computer Use 和 UI-TARS 等领先基线智能体提升了 18.9% 和 32.7% 的相对性能。此外，Agent S2 还能有效泛化到其他操作系统和应用程序，在 WindowsAgentArena 上相对之前最优方法提升了 52.8%，在 AndroidWorld 上相对提升了 16.52%。代码已开源：https://github.com/simular-ai/Agent-S

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:02

论文页面 - Agent S2: 面向计算机使用智能体的组合式通才-专家框架

来源：https://huggingface.co/papers/2504.00906

摘要

Agent S2 是一种组合式框架，采用混合定位（Mixture-of-Grounding）与主动分层规划（Proactive Hierarchical Planning）技术，在多种基准测试和操作系统中实现了计算机使用自动化的最先进水平。

计算机使用智能体通过直接与计算机和移动设备上的图形用户界面（GUI）交互来自动化数字任务，在完成开放式用户查询方面具有显著提升人类生产力的潜力。然而，当前的智能体面临重大挑战：GUI 元素定位不精确、长程任务规划困难，以及依赖单一通才模型处理多样化认知任务所带来的性能瓶颈。为此，我们引入了 Agent S2，一种新颖的组合式框架，将认知职责分配给多个通才和专家模型。我们提出了一种新颖的混合定位技术以实现精确的 GUI 定位，并引入了主动分层规划，在多个时间尺度上动态优化行动计划以应对不断变化的观察结果。评估表明，Agent S2 在三个主流计算机使用基准测试上建立了新的最先进水平（SOTA）。具体而言，Agent S2 在 OSWorld 15 步和 50 步评估中相比 Claude Computer Use 和 UI-TARS 等领先基线智能体分别实现了 18.9% 和 32.7% 的相对提升。此外，Agent S2 能有效泛化到其他操作系统和应用程序，在 WindowsAgentArena 上相对超越此前最佳方法 52.8%，在 AndroidWorld 上相对超越 16.52%。代码见 https://github.com/simular-ai/Agent-S。

查看 arXiv 页面查看 PDF 项目页面 GitHub 11.2k 添加到收藏

在您的智能体中获取这篇论文：

hf papers read 2504.00906

还没有最新版 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2504.00906 即可从此页面链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2504.00906 即可从此页面链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2504.00906 即可从此页面链接。

包含该论文的收藏 12

浏览包含该论文的 12 个收藏

相似文章

PresentAgent-2: 迈向通用多模态演示代理

Hugging Face Daily Papers

PresentAgent-2 是一个智能体框架，通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容，根据用户查询生成演示视频。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

Agent S2：一种面向计算机使用智能体的组合式通才-专才框架

论文页面 - Agent S2: 面向计算机使用智能体的组合式通才-专家框架

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 12

相似文章

PresentAgent-2: 迈向通用多模态演示代理

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

AgentOS

@svpino：这种架构模式将会淘汰单模型工具：你发送一个提示，智能体将其分解为多个子任…

AgentCo-op: 基于检索的可互操作多智能体工作流合成框架

提交意见反馈