多智能体计算机使用
摘要
本文提出了一种多智能体计算机使用 (MACU) 系统,该系统使用管理者模型将任务分解为有向无环图,供子智能体并行执行。在多个基准测试上,它相比单智能体基线有一致的改进,并展现出更好的测试时扩展能力。
查看缓存全文
缓存时间: 2026/06/02 15:37
论文页面 - 多智能体计算机使用
来源:https://huggingface.co/papers/2606.01533
摘要
多智能体计算机使用系统通过有向无环图实现并行执行和动态任务分解,在复杂任务上优于单智能体方法。
当前的计算机使用智能体(https://huggingface.co/papers?q=Computer%20use%20agents)(CUA)主要部署为单串行智能体。这种设置对于需要任务分解(https://huggingface.co/papers?q=task%20decomposition)、并行执行(https://huggingface.co/papers?q=parallel%20execution)以及根据新信息持续重新规划的复杂长时任务来说并非最优。在本文中,我们认为应转向评估和构建多智能体计算机使用(MACU)系统。这类系统强调规划与并行执行(https://huggingface.co/papers?q=parallel%20execution),缓解了单智能体CUA的诸多缺点。我们提出一个通用多智能体设置:管理器模型将计算机使用任务分解为有向无环图(https://huggingface.co/papers?q=directed%20acyclic%20graph)(DAG),编码子智能体间的相关依赖与目标。在每次迭代中,管理器将并行的CUA子智能体派遣到DAG就绪前沿上的节点,并随着子智能体反馈新发现而持续修订DAG(添加、取消或重写节点)。该设计将计算机使用的部分可观察环境作为首要挑战:下游智能体可能无法重新观察到的信息通过管理器和DAG结构得以保留并向前传递。我们证明MACU在桌面(OSWorld)和网页导航(Online-Mind2Web、WebTailBench、Odysseys)基准测试上,相比强单智能体基线持续提升3.4%-25.5%,展现出更优的测试时扩展性,并能解决单智能体CUA陷入困境的复杂长时任务。在长时网页导航基准Odysseys上,MACU将平均任务完成墙钟时间提升约1.5倍,证明了其在加速传统缓慢CUA流程方面的有效性。我们的发现强调,多智能体协调(https://huggingface.co/papers?q=agent%20coordination)是将计算机使用智能体(https://huggingface.co/papers?q=computer%20use%20agents)扩展到更长时间、更高效工作的一个有前景的维度。我们已在 https://jykoh.com/multi-agent-computer-use/ 发布所有代码和交互式可视化。
查看 arXiv 页面(https://arxiv.org/abs/2606.01533) | 查看 PDF(https://arxiv.org/pdf/2606.01533) | 项目页面(https://jykoh.com/multi-agent-computer-use/) | 添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2606.01533)
引用此论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.01533 以将其链接到此页面。
引用此论文的数据集 0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.01533 以将其链接到此页面。
引用此论文的 Spaces 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.01533 以将其链接到此页面。
包含此论文的集合 1
相似文章
递归多智能体系统
本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
跨整个组织的简单多智能体架构。让一切保持循环。
本文描述了一个大规模运行的多智能体架构,使用LangGraph、CrewAI和Harbor来处理目标智能体、任务协调以及带有追踪的安全访问。
我们如何构建多智能体研究系统
Anthropic 详细介绍了其全新多智能体研究系统背后的架构与工程原则,重点阐述了采用 Claude Opus 4 和 Sonnet 4 的并行子智能体如何在复杂研究任务中显著优于单智能体方案。
保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。