ClawArena-Team: 在语言模型代理中基准测试子代理编排和动态工作流

arXiv cs.AI 论文

摘要

介绍了ClawArena-Team,这是一个基准测试,用于衡量单个语言模型作为领导者,通过动态工作流创建、委托和编排子代理的管理能力。实验表明,权限授予是一个瓶颈,成本与管理质量脱钩,大多数模型在性能上聚集,而编排行为则差异很大。

arXiv:2606.31174v1 公告类型:新 摘要:生产级大型语言模型(LLM)代理越来越多地被部署为管理者,而非孤立的解决问题者:主模型创建专门的子代理,委派工作,并通过动态工作流编排它们的并行、异步返回。一个模型能否真正运行这样一个团队在很大程度上未被测量:现有基准测试评估的是策略自身的任务解决能力或固定多代理系统的涌现行为,但没有一个能分离出作为领导者的单个LLM的管理能力。我们介绍了ClawArena-Team,这是一个包含41个多轮次、多模态、多目录场景的基准测试,涵盖258个评估轮次和72个阶段性更新,用于衡量这种管理能力。主代理被刻意限制:它原生只能感知文本,直接访问工作空间的一部分。它控制一个固定的、本地服务的子代理池,因此分数差异反映的是管理技能,而非原始能力。所有评分基于执行,没有LLM评判:总分数——子代理管理分数(SMS)——将任务正确性乘以最小权限和模态路由因子。在十二个专有、社区托管和自托管模型上,实验表明管理瓶颈是权限授予而非感知(没有模型超过50%的工作空间权限精度);成本与管理质量脱钩(API成本跨度超过100倍,而总分跨度不到4倍,最便宜的开源模型位于帕累托前沿);大多数排行榜分数集中在9.9分的范围内,而编排行为相差一个数量级以上。代码和数据将发布。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:37

# ClawArena-Team:在语言模型智能体中基准测试子智能体编排与动态工作流  
来源:https://arxiv.org/html/2606.31174  

Kaiwen Xiong¹, Haonian Ji¹, Shi Qiu¹, Zeyu Zheng², Cihang Xie³, Xinyu Ye¹, Huaxiu Yao¹  

¹UNC-Chapel Hill  
²加州大学伯克利分校  
³加州大学圣克鲁兹分校  

###### 摘要  
生产级大型语言模型(LLM)智能体越来越多地被部署为*管理者*:主模型创建专门的子智能体、分配任务,并通过动态工作流编排它们的并行、异步返回结果。然而,一个模型能否真正运行这样一个团队,在很大程度上尚未被衡量。现有基准要么评估策略自身的任务解决能力,要么评估固定多智能体系统的涌现行为,但没有一个能独立衡量作为领导者的单个LLM的管理能力。我们引入了**ClawArena-Team**,这是一个包含41个多轮次、多模态、多目录场景的基准,涵盖258个评估轮次和72个阶段性更新,用于衡量这种管理能力。主智能体被刻意约束:它原生仅能感知文本,并且只能直接访问部分工作空间。它指挥一个*固定*的、本地服务的子智能体池,因此得分差异反映的是管理技能,而非原始能力。所有评分均基于执行结果,不使用LLM评判者:总体得分——子智能体管理得分(Sms)——将任务正确性乘以一个最小权限与模态路由因子。在十二个专有模型、社区托管模型和自托管模型上的实验表明,管理瓶颈在于*权限授予*而非感知(没有模型的工作空间权限精确度超过50%);成本与管理质量是*解耦的*(API成本跨度超过100倍,而总体得分跨度不到4倍,最便宜的开放模型位于帕累托前沿);多数排行榜得分聚集在9.9分区间内,而编排行为的差异超过一个数量级。代码和数据将发布。  

参考图注  
图1:ClawArena-Team 概览。一个纯文本主智能体(“指挥者”)为多轮次任务在一个不断演变的工作空间中创建、授权并调度一个*固定*的本地llm/vlm/omni子智能体池,采用基于执行的评分(无LLM评判者)。  

## 1 引言  
生产级LM智能体越来越多地被部署为*管理者*,而非孤立的解题者:单个主模型创建专门的子智能体、向其分配任务,并通过动态、可编程的工作流编排它们的并行和异步返回结果(Anthropic, 2026a (https://arxiv.org/html/2606.31174#bib.bib21); c (https://arxiv.org/html/2606.31174#bib.bib22))。然而,一个模型能否真正运行这样的团队,在很大程度上尚未被衡量。管理是一种结构化技能,包含三个耦合要求。管理者必须根据模态和能力将每个任务片段路由给正确的专家,因此一个基于图像的问题应交给视觉工作者,而不是由无法看到图像的纯文本来尝试(*模态路由*)。管理者必须仅授予每个子智能体所需的工具和工作空间路径,因此过度授权不会扩大行为不当工作者的波及范围或膨胀上下文(*最小权限授权*)。管理者必须并发地、后台地或作为持续会话调度子智能体,并将其返回结果整合为正确的可交付成果,而非仅仅中继(*动态编排*)。一个路由正确但过度授权的管理者,或者授予权限严格但无法并发调度的管理者,仍然会产生不安全、昂贵或错误的结果。  

现有基准测试了这一设置的碎片,但未测试完整的管理能力。单智能体基准评估策略自身的推理、工具使用和策略合规性(Jimenezet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib1); Mialonet al., 2023 (https://arxiv.org/html/2606.31174#bib.bib2); Liuet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib3); Yaoet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib4); Xieet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib5); Levyet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib6))。多智能体框架提供编排机制,但作为具有预定义角色或同伴对话的系统进行验证,而非作为单一管理者的基准(Wuet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib10); Liet al., 2023 (https://arxiv.org/html/2606.31174#bib.bib11); Honget al., 2024 (https://arxiv.org/html/2606.31174#bib.bib12))。权限与最小权限工具将过度授权形式化为一个外部强制层,而(通常是单一的)工具调用智能体并不被信任自行执行,而非作为智能体的一项可衡量能力(Shiet al., 2025 (https://arxiv.org/html/2606.31174#bib.bib24); Zhuet al., 2025a (https://arxiv.org/html/2606.31174#bib.bib25))。综合来看,现有基准要么固定团队并评分其涌现行为(Zhuet al., 2025b (https://arxiv.org/html/2606.31174#bib.bib17)),要么在预先给定的工作流集上评分管理者(Masterset al., 2025 (https://arxiv.org/html/2606.31174#bib.bib16)),这留下了单个LM能否从头创建、授权并编排自己团队的问题未解。  

我们引入了**ClawArena-Team**(ClawArena系列中的工作流编排变体),这是一个隔离了作为主智能体的单个LM的子智能体管理能力的基准(图1 (https://arxiv.org/html/2606.31174#S0.F1))。ClawArena-Team将该设置框架化为委托-代理问题(§3.2 (https://arxiv.org/html/2606.31174#S3.SS2)):主智能体(委托人)必须通过创建、授权、调度和整合子智能体(代理人)来完成其自身无法单独完成的多个轮次任务。三个设计选择使得分反映管理而非原始能力:主智能体原生仅感知文本,并且只能通过子智能体访问部分工作空间,因此委托是强制性的;子智能体池保持*固定*并由本地服务,因此每个管理者指挥相同的工人,只有管理者在运行间变化;所有评分均基于执行结果,不使用LLM评判者。该基准包含41个多模态、多目录场景,涵盖258个评估轮次,包含72个阶段性更新,这些更新会改变后续答案,并有一个复合子智能体管理得分(Sms),将任务正确性乘以最小权限和模态路由管理因子。  

总之,我们的主要贡献是**ClawArena-Team**,一个受控比较基准框架,通过固定的本地服务子智能体池、细粒度的每子智能体管理指标以及基于执行的评分(无LLM评判者),隔离了单个LM主智能体的子智能体管理能力。在包含41个场景的基准上,对十二个专有模型、社区托管模型和自托管主智能体模型的评估表明,管理瓶颈在于权限授予而非感知(没有模型的工作空间权限精确度超过50%),成本与管理质量是解耦的(API成本跨度超过100倍,而Sms跨度不到4倍,最便宜的开放模型位于帕累托前沿),并且排行榜得分聚集在9.9分区间内,而编排行为的差异超过一个数量级(有能力模型之间的子智能体禁止访问率相差约12倍)。  

## 2 相关工作  

#### 智能体基准。  
单智能体基准如SWE-bench(Jimenezet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib1))、GAIA(Mialonet al., 2023 (https://arxiv.org/html/2606.31174#bib.bib2))、AgentBench(Liuet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib3))、\(\tau\)-bench(Yaoet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib4))、OSWorld(Xieet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib5))、AgentBoard(Maet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib7))、ToolLLM(Qinet al., 2023 (https://arxiv.org/html/2606.31174#bib.bib8))和WebArena(Zhouet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib9))评估单个策略的推理、工具使用和多轮交互;ST-WebAgentBench(Levyet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib6))增加了安全性和策略合规性,但评估单元仍然是单个智能体。多智能体框架如AutoGen(Wuet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib10))、CAMEL(Liet al., 2023 (https://arxiv.org/html/2606.31174#bib.bib11))、MetaGPT(Honget al., 2024 (https://arxiv.org/html/2606.31174#bib.bib12))、OpenAI Swarm(OpenAI, 2024 (https://arxiv.org/html/2606.31174#bib.bib13))、AgentOrchestra(Zhanget al., 2025 (https://arxiv.org/html/2606.31174#bib.bib14))和DynTaskMAS(Yuet al., 2025a (https://arxiv.org/html/2606.31174#bib.bib15))提供编排机制,但作为具有预定义角色或同伴对话的系统进行验证,而非运行时单一管理者控制。这两类都没有引入主智能体/子智能体关系,使得单个LM可以因其团队管理能力而获得评分。  

#### 智能体即管理者与最接近的先例。  
管理者智能体挑战(Masterset al., 2025 (https://arxiv.org/html/2606.31174#bib.bib16))是唯一真正评估管理者在运行时编排团队的工作(MA-Gym模拟器,GPT-5管理者,图编辑操作)。它与ClawArena-Team在三个方面不同:其工作流是*预先给定*的任务依赖图,管理者对其进行编辑而非从头创建;它分派到*预先存在*的人工智能和模拟人类工作者池,而非在运行时创建子智能体;其五个指标(偏好、约束、目标、利益相关者、运行时)涵盖多目标优化,但不包括最小权限授权、基于模态的专家选择或异步与后台调度。MultiAgentBench(Zhuet al., 2025b (https://arxiv.org/html/2606.31174#bib.bib17))评估在多智能体*系统*中在固定、预定义拓扑下的涌现协作与竞争,而非单个管理者的委托能力。Collaborative Gym(Shaoet al., 2026 (https://arxiv.org/html/2606.31174#bib.bib18))和TheAgentCompany(Xuet al., 2026 (https://arxiv.org/html/2606.31174#bib.bib19))针对人机协作和现实工作场所任务,而对多智能体失效模式的分析(Cemriet al., 2026 (https://arxiv.org/html/2606.31174#bib.bib20))则推动更好的编排评估。我们将ClawArena-Team定位于这些工作的对立面:通过固定团队并仅变化管理者,使得得分差异隔离管理技能而非工作者的底层能力。  

#### 孤立的管理原语。  
ClawArena-Team评分的两个管理维度已在管理背景之外被研究。Progent(Shiet al., 2025 (https://arxiv.org/html/2606.31174#bib.bib24))、MiniScope(Zhuet al., 2025a (https://arxiv.org/html/2606.31174#bib.bib25))以及Jiet al. (2026b (https://arxiv.org/html/2606.31174#bib.bib26))的强制访问控制框架形式化了过度授权和多智能体混淆代理人风险,但将最小权限视为一个外部强制层(通常是单一的)工具调用智能体并不被信任自行执行,而非作为智能体的一项可衡量能力。LM路由器如RouterBench(Huet al., 2024 (https://arxiv.org/html/2606.31174#bib.bib29))和RouteLLM(Onget al., 2025 (https://arxiv.org/html/2606.31174#bib.bib30))根据能力或成本层级而非模态路由查询;MEXA(Yuet al., 2025b (https://arxiv.org/html/2606.31174#bib.bib28))仅作为内部步骤选择模态任务专家,并通过最终任务准确性评分;MLLM-Tool(Wanget al., 2025 (https://arxiv.org/html/2606.31174#bib.bib27))在API粒度而非模态专家子智能体粒度上评分模态感知选择。没有一个将每决策路由到专家子智能体或自我授予的最小权限作为一等、执行检查的管理维度进行评分,也没有一个将这些维度统一在一个单一管理者之下,这正是ClawArena-Team填补的空白(表1 (https://arxiv.org/html/2606.31174#S2.T1))。  

表1:ClawArena-Team与代表性智能体基准在其隔离的六个管理维度(加上基于执行的评分)上的对比。✓:已测量/一等的;◐:部分或间接的(例如固定池、给定工作流、外部强制层或仅作为内部步骤处理的模态);✗:缺失。没有先前的基准评分一个*单一*LM作为管理者,在运行时创建子智能体、按模态路由、授予最小权限、异步调度并编写动态工作流,且采用基于执行的评分;ClawArena-Team是首个同时包含所有这些维度的基准。  

## 3 ClawArena-Team 基准  

### 3.1 概述  
ClawArena-Team是一个用于子智能体管理的受控比较基准:每个管理者指挥相同的固定、本地服务子智能体池,因此得分差异反映管理质量而非工作者质量。该池通过本地vLLM提供三个模型键,其中llm和vlm由gemma-4-31b-it支持,omni由gemma-4-e4b-it支持。该基准包含41个场景,涵盖法律、医学、工程、商业和科学,总计258个多轮评估轮次。每个场景是一个工作空间任务,其中主智能体完成一系列用户任务,并且在某些轮次之间,工作空间会接收*阶段性更新*(新文件或替换文件),从而改变后续答案。工作空间很大(170.5 MiB;28.9M tokens,71.9%的工作空间内容和27.9%的更新),并且异构(文本、代码、办公文档、图像、音频、视频),分布在至少八个顶级目录中,其中一些是诱饵。这样的场景对主智能体MM的“管理”所要求的,接下来形式化为MM的能力表面。  

### 3.2 能力表面  
我们将子智能体管理形式化为一个在信息和能力不对称下的委托-代理问题:主智能体MM(委托人)面临一个多轮任务,其信息和模态超出了它直接能够消费的范围,并且必须通过管理一个从相同池中实例化的子智能体集合\(\{a_i\}\)(代理人)来完成它。MM的能力表面分解为六个具体操作:  

* **创建**。MM使用系统提示、模型键、工具子集以及工作空间路径白名单(其自身的一部分)创建一个子智能体。  
* **模态路由**。由于MM原生仅感知文本,图像和视频必须路由到vlm子智能体,音频路由到omni。  
* **最小权限授权**。工具和路径授予应与子智能体实际所需匹配;过度授权是浪费且不安全的。  
* **调度**。子智能体可以以前台或后台方式运行,作为新会话或继续(恢复)会话,并且可以并行运行;后台任务在完成时通知MM。  
* **动态工作流**。一个可编程工作流工具允许MM在运行时在相同池上编写多子智能体编排(并行和流水线阶段)。  
* **整合**。MM必须将子智能体的返回结果融合为正确的可交付成果,而非仅仅中继;只有整合后的答案被评分,因此即使正确子智能体报告的忠实中继也可能失败。  

每个场景如何强制这些操作被实际执行(而非绕过),是下一小节的主题。  

### 3.3 任务、阶段性更新与设计标准  
一个场景提供 (i) 一个工作空间,(ii) 一系列用户问题,以及 (iii) 地面真值检查。在258个轮次中,有44个轮次(17.1%)之前有阶段性更新(72个更新组,255个文件);后面的轮次依赖于前面子智能体的输出,要求持续的管理。

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。