多智能体计算机使用

Hugging Face Daily Papers 2026/06/01 00:00 论文

multi-agent computer-use task-decomposition parallel-execution web-navigation benchmark

摘要

本文提出了一种多智能体计算机使用 (MACU) 系统，该系统使用管理者模型将任务分解为有向无环图，供子智能体并行执行。在多个基准测试上，它相比单智能体基线有一致的改进，并展现出更好的测试时扩展能力。

当今的计算机使用智能体 (CUA) 主要部署为单序列智能体。这种设置对于复杂的长周期任务来说并非最优，而这类任务受益于任务分解、并行执行以及基于新信息的一致重规划。在本文中，我们认为应该转而评估和构建多智能体计算机使用 (MACU) 系统。这些系统强调规划和并行执行，缓解了单智能体 CUA 的许多不足。我们提出了一种通用的多智能体设置，其中管理者模型将计算机使用任务分解为有向无环图 (DAG)，为子智能体编码相关依赖关系和目标。在每次迭代中，管理者分发并行的 CUA 子智能体，执行 DAG 就绪前沿上的节点，并随着子智能体带来新发现而持续修订 DAG（添加、取消或重写节点）。该设计将计算机使用的部分可观察环境视为一等挑战：下游智能体可能无法重新观察到的信息通过管理者和 DAG 结构予以保留并向前传递。我们证明，在桌面 (OSWorld) 和网页导航 (Online-Mind2Web, WebTailBench, Odysseys) 基准测试上，MACU 一致地优于强大的单智能体基线 3.4-25.5%，展现出更有利的测试时扩展，并解决了单智能体 CUA 卡住的复杂长周期任务。在长周期网页导航基准测试 Odysseys 上，MACU 将平均任务完成时间（墙钟时间）提升了约 1.5 倍，展示了其在加速传统缓慢的 CUA 流程方面的有效性。我们的发现强调，多智能体协调是一个有前景的方向，可以让计算机使用智能体更长时间、更高效地工作。我们在 https://jykoh.com/multi-agent-computer-use 发布了所有代码和交互式可视化。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - 多智能体计算机使用

来源：https://huggingface.co/papers/2606.01533

摘要

多智能体计算机使用系统通过有向无环图实现并行执行和动态任务分解，在复杂任务上优于单智能体方法。

当前的计算机使用智能体（https://huggingface.co/papers?q=Computer%20use%20agents）（CUA）主要部署为单串行智能体。这种设置对于需要任务分解（https://huggingface.co/papers?q=task%20decomposition）、并行执行（https://huggingface.co/papers?q=parallel%20execution）以及根据新信息持续重新规划的复杂长时任务来说并非最优。在本文中，我们认为应转向评估和构建多智能体计算机使用（MACU）系统。这类系统强调规划与并行执行（https://huggingface.co/papers?q=parallel%20execution），缓解了单智能体CUA的诸多缺点。我们提出一个通用多智能体设置：管理器模型将计算机使用任务分解为有向无环图（https://huggingface.co/papers?q=directed%20acyclic%20graph）（DAG），编码子智能体间的相关依赖与目标。在每次迭代中，管理器将并行的CUA子智能体派遣到DAG就绪前沿上的节点，并随着子智能体反馈新发现而持续修订DAG（添加、取消或重写节点）。该设计将计算机使用的部分可观察环境作为首要挑战：下游智能体可能无法重新观察到的信息通过管理器和DAG结构得以保留并向前传递。我们证明MACU在桌面（OSWorld）和网页导航（Online-Mind2Web、WebTailBench、Odysseys）基准测试上，相比强单智能体基线持续提升3.4%-25.5%，展现出更优的测试时扩展性，并能解决单智能体CUA陷入困境的复杂长时任务。在长时网页导航基准Odysseys上，MACU将平均任务完成墙钟时间提升约1.5倍，证明了其在加速传统缓慢CUA流程方面的有效性。我们的发现强调，多智能体协调（https://huggingface.co/papers?q=agent%20coordination）是将计算机使用智能体（https://huggingface.co/papers?q=computer%20use%20agents）扩展到更长时间、更高效工作的一个有前景的维度。我们已在 https://jykoh.com/multi-agent-computer-use/ 发布所有代码和交互式可视化。

查看 arXiv 页面（https://arxiv.org/abs/2606.01533） | 查看 PDF（https://arxiv.org/pdf/2606.01533） | 项目页面（https://jykoh.com/multi-agent-computer-use/） | 添加到集合（https://huggingface.co/login?next=%2Fpapers%2F2606.01533）

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.01533 以将其链接到此页面。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.01533 以将其链接到此页面。

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.01533 以将其链接到此页面。

多智能体计算机使用

论文页面 - 多智能体计算机使用

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 1

相似文章

递归多智能体系统

TMAS：通过多智能体协同扩展测试时计算

跨整个组织的简单多智能体架构。让一切保持循环。

我们如何构建多智能体研究系统

保障计算机使用代理的安全：面向部署落地可靠性的统一架构-生命周期框架

提交意见反馈