Agent S2:一种面向计算机使用智能体的组合式通才-专才框架
摘要
Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。
查看缓存全文
缓存时间: 2026/05/08 09:02
论文页面 - Agent S2: 面向计算机使用智能体的组合式通才-专家框架
来源:https://huggingface.co/papers/2504.00906
摘要
Agent S2 是一种组合式框架,采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多种基准测试和操作系统中实现了计算机使用自动化的最先进水平。
计算机使用智能体通过直接与计算机和移动设备上的图形用户界面(GUI)交互来自动化数字任务,在完成开放式用户查询方面具有显著提升人类生产力的潜力。然而,当前的智能体面临重大挑战:GUI 元素定位不精确、长程任务规划困难,以及依赖单一通才模型处理多样化认知任务所带来的性能瓶颈。为此,我们引入了 Agent S2,一种新颖的组合式框架,将认知职责分配给多个通才和专家模型。我们提出了一种新颖的混合定位技术以实现精确的 GUI 定位,并引入了主动分层规划,在多个时间尺度上动态优化行动计划以应对不断变化的观察结果。评估表明,Agent S2 在三个主流计算机使用基准测试上建立了新的最先进水平(SOTA)。具体而言,Agent S2 在 OSWorld 15 步和 50 步评估中相比 Claude Computer Use 和 UI-TARS 等领先基线智能体分别实现了 18.9% 和 32.7% 的相对提升。此外,Agent S2 能有效泛化到其他操作系统和应用程序,在 WindowsAgentArena 上相对超越此前最佳方法 52.8%,在 AndroidWorld 上相对超越 16.52%。代码见 https://github.com/simular-ai/Agent-S。
查看 arXiv 页面 查看 PDF 项目页面 GitHub 11.2k 添加到收藏
在您的智能体中获取这篇论文:
hf papers read 2504.00906
还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2504.00906 即可从此页面链接。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2504.00906 即可从此页面链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2504.00906 即可从此页面链接。
包含该论文的收藏 12
相似文章
PresentAgent-2: 迈向通用多模态演示代理
PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
AgentOS
AgentOS 提供了一个统一控制层,用于管理 AI 代理、任务和工作空间。
@svpino:这种架构模式将会淘汰单模型工具:你发送一个提示,智能体将其分解为多个子任…
Higgsfield AI 推出了 Supercomputer,一个云原生的自学习 AI 智能体,能够将任务分解为子任务,并将每个子任务分配给最适合的模型(例如,推理任务交给 Opus,视频任务交给 Seedance,图像任务交给 GPT),并配备三层记忆机制,实现跨会话的上下文持久化。
AgentCo-op: 基于检索的可互操作多智能体工作流合成框架
AgentCo-op 是一个基于检索的合成框架,用于从可复用的技能、工具和外部智能体组合可互操作的多智能体工作流。它使用类型化工件传递和有界自引导局部修复,在多个基准测试上取得了优异结果,并能在开放世界的基因组学任务中实现协作发现。