DecisionBench:面向长周期智能体工作流中涌现式委托的基准测试

arXiv cs.AI 论文

摘要

DecisionBench 提出了一个标准化基准,用于评估长周期多智能体工作流中的涌现式委托,提供了包含任务套件、同行模型和多维度指标的底层架构,以隔离编排能力。

arXiv:2605.19099v1 公告类型: 新 摘要: 我们提出 DecisionBench,一个用于长周期智能体工作流中涌现式委托的基准测试基础设施。该基础设施固定了任务套件(GAIA、tau-bench、BFCL multi-turn)、同行模型池(11个模型,7个供应商系列)、委托接口(call_model 加上可选的 read_profile 通道)、确定性技能注释层以及多维度指标套件,涵盖质量、成本、延迟、委托率、路由保真度在前k项、供应商自偏好以及反事实委托上限。该基础设施对同行信息的生成或传递方式无关,因此学习型路由器、更丰富的同行记忆、自适应概要构建以及多步委托均可对其进行评估。我们通过对完整池(n=23,375个任务实例)进行五条件参考扫描来表征该基础设施。三个基准层面的发现浮现:(i)四种意识条件下的平均最终任务质量在统计上无显著差异(|beta| <= 0.010, p >= 0.21),因此仅凭质量评估将丢失编排信号;(ii)在平均质量近乎相等的情况下,不同条件下的路由保真度在前1项的范围为7.5%至29.5%,其中传递通道(按需工具 vs. 预加载描述)主导了描述内容;(iii)反事实上限表明,在每个套件上,完美委托比实测性能高出15至31个百分点,为未来的编排方法留下了巨大的未实现空间。我们发布了该基础设施、注释层、参考干预套件、分析流程以及220个按条件运行的归档文件。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:27

# DecisionBench:面向长期自主工作流中涌现式委托的基准测试

来源:https://arxiv.org/html/2605.19099

高宇轩[1,2∗†](# "Equal contribution (alphabetical order)")  Megan Wang[1,3∗†](# "Equal contribution (alphabetical order)")  余怡玲[1,2∗†](# "Equal contribution (alphabetical order)")  马子健[4](#)  曲傲[5](#)

1OpenMesh AI 2宾夕法尼亚大学 3哥伦比亚大学 4斯坦福大学 5麻省理工学院

*∗同等贡献(按字母顺序排列)*

代码与数据:https://huggingface.co/decisionbench

######  摘要

我们提出 **DecisionBench**,一个用于评估长期自主工作流中涌现式委托行为的基准测试平台。该平台固定了以下组件:任务套件(GAIA、τ-bench、BFCL multi-turn)、同伴模型池(11个模型,来自7个供应商系列)、委托接口(`call_model` 加上可选的 `read_profile` 通道)、一个确定性的技能标注层,以及一个涵盖质量、成本、延迟、委托率、路由保真度@k、供应商自偏好和反事实委托上限的多维度度量套件。该平台对于同伴信息的生成或传递方式保持中立,因此学习型路由器、更丰富的同伴记忆、自适应画像构建以及多步委托均可在此平台上进行评估。我们通过在全模型池上(n=23,375个任务实例)进行五条件参考扫描来刻画该平台的特征。研究发现了三个基准层面的现象:(i) 在四种感知条件下,任务最终质量在统计上无显著差异(|β|≤0.010, p≥0.21),因此仅基于质量的评估会忽略编排信号;(ii) 在平均质量近似相等的情况下,路由保真度@1在不同条件下从7.5%到29.5%不等,其中传递通道(按需工具 vs. 预加载描述)的影响远大于描述内容本身;(iii) 一个反事实上限表明,在每一个任务套件上,完美委托的表现比实测性能高出15–31个百分点,这表明未来的编排方法存在巨大的未开发空间。我们公开发布了该平台、标注层、参考干预套件、分析流程以及220个各条件运行存档。

## 1 引言

大语言模型(LLM)代理越来越多地被部署到需要持续数分钟至数小时工具使用的任务中 [49, 44],其主导成本正从每令牌质量转向那些本可由更小或具有不同专长的同伴模型完成子任务的计算消耗 [24, 6, 13]。因此,将子任务路由给同伴而非本地解决成为帕累托前沿的移动因素,与原始模型能力同等重要。如今部署代理系统的实践者必须决定是否委托、委托给谁,以及(如果存在的话)向编排者告知关于同伴的哪些信息。这些决策通常凭借直觉做出,因为没有基准能够单独衡量这些行为。

现有的代理基准衡量的是单个代理在固定任务上的能力——如 GAIA [23]、τ-bench [47]、BFCL [29] 及其他(§2)。多代理系统工作 [43, 11] 通常使用手动编码的角色分配,而非涌现式委托。成本感知路由基准 [24, 13] 将路由视为一种学习到的外部策略,而非编排者自身必须展现的行为。SkillsBench [17] 衡量的是附着于单个代理的技能脚手架。这些方法都无法直接衡量代理在解决长期任务过程中是否能够在同伴模型之间进行良好的委托,也无法揭示哪些过程级指标能够反映这些委托决策是如何做出的。

我们提出 **DecisionBench**,一个用于评估长期自主工作流中涌现式委托的基准测试平台。该平台固定了以下组件:(1) 任务套件(GAIA、τ-bench、BFCL multi-turn,包含确定性的阶段1/阶段2划分);(2) 同伴模型池(11个模型,来自7个供应商系列,冻结到某个日期);(3) 委托接口(`call_model` 工具,可选配 `read_profile` 通道用于同伴信息干预);(4) 标注层(一个冻结的7技能分类法和一个确定性的步骤标注器,作为评估机制发布,而非我们提出的方法);以及 (5) 度量套件,涵盖任务最终质量、成本、延迟、委托率、路由保真度@k、供应商自偏好以及反事实委托上限。该平台对于同伴信息的生成或传递方式保持中立;任何能够产生学习型路由器、更丰富的同伴记忆、自适应画像构建或多步委托的方法均可在此平台上进行评估。

为了展示 DecisionBench 如何评估同伴感知干预,我们在已发布的标注层上实例化了四个参考条件,以无信息基线作为对照:(blind) 仅有 `call_model`,无同伴描述;(aware-c1/c2/c3) 预加载以三种不同方式构建的同伴描述——一个精心策划的评分标准、来自阶段1轨迹的确定性统计、或双外部池 LLM 评委摘要——并暴露 `read_profile`;以及 (aware-tool-only) 与感知变体相同的工具,但抑制了预加载描述,这是一个单变量消融实验,用于分离传递通道与描述内容的影响。这些参考干预措施并非基准定义的一部分;它们是我们用于展示该平台并为未来方法提供比较基线的基准。

#### 主要发现。通过对11模型池进行5条件参考扫描(11×3×5=165个单元,n=23,375个任务),出现了三个基准层面的模式。(1) *任务最终质量在不同感知条件下基本持平*(在混合效应拟合中 |β|≤0.010, p≥0.21),因此仅基于质量的评估会完全忽略编排信号。(2) *委托保真度清晰变化*:按需工具访问(aware-tool-only)使路由精确率@1相比 blind 提高了一倍以上(14.2%→29.5%),同时质量持平且平均成本更低;预加载变体仅捕获了不到一半的提升(C2 20.8%, C3 15.5%; C1 7.5%,低于 blind)。保真度与质量之间的分离本身就是衡量过程级指标(而非仅结果)的方法论回报。(3) 一个反事实委托上限表明,完美单步委托在每个套件上的表现比实测性能高出15–31个百分点,这表明未来的编排方法存在巨大的未开发空间。我们还记录了委托行为中跨供应商的自偏好,其发生概率为1.5–3.7倍于随机水平。

#### 贡献。(1) **DecisionBench 基准**,用于长期自主工作流中涌现式委托:固定的任务套件、同伴模型池、委托接口、标注层(冻结的7技能分类法加确定性步骤标注器)以及多维度度量套件(质量、成本、延迟、委托率、保真度@k、供应商自偏好、反事实上限)。(2) **参考干预套件**,用于基准上的同伴感知:三种画像卡片内容变体(精心策划的评分标准、确定性统计、双外部池 LLM 评委摘要)以及一个传递通道消融(aware-tool-only),用于分离信息内容与传递机制。这些是 DecisionBench 上的基线,而非基准定义的一部分。(3) **使用参考套件对平台进行经验性刻画**:任务最终质量在不同感知条件下统计上持平,传递通道的影响远大于描述内容,且完美委托上限比每个套件上的实测性能高出15–31个百分点——这些模式仅通过基准所检测的过程级指标才可见。(4) **记录了委托行为中的跨供应商自偏好**,这是编排工具层面的类比,对应于 LLM 作为评委时的偏见 [52, 27, 41, 31]。

参见图注

图1: DecisionBench 概览。
*左侧(平台,§3)。*基准固定了任务套件(GAIA、τ-bench、BFCL multi-turn)、同伴模型池(11个模型,7个供应商系列)、委托接口(`call_model` 加可选 `read_profile` 通道)、标注层(冻结的7技能分类法和确定性步骤标注器;附录C)以及度量套件(质量、成本、延迟、委托率、保真度@k、自偏好、反事实上限)。
*右侧(参考干预,§4)。*为了展示该平台,阶段1划分上的同伴轨迹被渲染成三种画像卡片变体(C1评分标准、C2确定性统计、C3双LLM评委);每种都被用作感知条件下的预加载描述。一个传递通道消融(aware-tool-only)暴露 `read_profile` 但不预加载任何描述,从而分离传递与内容。这五个条件为未来编排方法提供了比较基线,但并非基准定义的一部分。

## 2 相关工作

#### 代理基准。GAIA [23] 引入了一个通用助手基准,针对单次评估的局限性;τ-bench [47] 测试了领域策略下的多轮状态跟踪 [16, 1];SWE-Bench [14] 和 SWE-Bench Pro [32] 覆盖仓库级编码;BFCL [29] 和 ToolLLM [30] 衡量函数调用正确性;WebArena [53]、Mind2Web [7] 和 WebShop [46] 覆盖网络环境;ALFWorld [37] 和 OSWorld [45] 覆盖具身/桌面操作系统设置;AgentBench [19] 聚合了许多;MLE-bench [5] 和 Cybench [50] 针对机器学习工程和网络安全。我们使用 GAIA、τ-bench 和 BFCL 作为异构质量探针,覆盖开放式检索、对话和结构化工具调用。

#### 技能感知代理设计。SkillsBench [17] 衡量技能脚手架对代理配置(如 Claude Code 和 Codex CLI)的贡献;相关研究通过链式推理 [42, 48, 40, 15]、自我反馈 [36, 22]、开放式探索 [38, 28]、宪法式行为塑造 [2, 26] 和长上下文处理 [3, 12] 来扩展单代理能力。DecisionBench 不同之处在于:(1) 测试原始模型 API 而非产品配置;(2) 将“技能知识”视为呈现给可能进行委托的另一个代理的同伴能力,从而让我们衡量结构化的同伴知识是否能改善跨模型委托——这是单个代理技能脚手架无法解决的问题。

#### 成本感知编排与路由。RouteLLM [24] 和 FrugalGPT [6] 将路由视为学习到的外部策略;HybridLLM [8]、AutoMix [21]、EcoAssistant [51] 和 RouterBench [13] 扩展了这一策略路线,而混合与代理社会公式 [39, 9, 35] 则通过手动编码的协调来分配工作。DecisionBench 衡量的是无外部策略、无硬编码角色的涌现式编排——这是任何路由器训练之前的基线。

#### 用于轨迹分析的 LLM 作为评委。LLM 评判 [52, 18] 现在已成为人工评估的标准替代方案,已有文献记录了其自偏好 [27]、位置 [41] 和长度 [31] 偏见。DecisionBench 的 C3 画像变体将此技术用于轨迹分析(§4.2);我们通过使用两个来自代理池外部系列的评委并并列展示两个判断结果(而非取平均值)来减轻自偏好。

## 3 DecisionBench:基准平台

DecisionBench 是一个用于衡量长期自主工作流中涌现式委托的固定平台。它包含任务套件(§3.1)、同伴模型池(§3.2)、委托接口(§3.3)、标注层(§3.4,作为评估机制使用,而非提出的编排方法)以及度量套件(§3.5)。该平台对于同伴信息的生成、总结或传递方式保持中立;我们在 §4 中用于刻画其特性的参考干预措施只是它所允许的众多方法中的一种。

### 3.1 任务套件与划分

DecisionBench 从三个已建立的基准中提取长期自主代理任务,通过确定性的20/80分层采样(种子=10)划分为阶段1(画像)划分和阶段2(评估)划分:
- **GAIA** [23]:通用工具使用 QA,精确匹配评分;按级别分层,验证集中有32/133个任务(因为公开测试集排行榜已不可用,见§8);
- **τ-bench** [47]:工具-代理-用户对话,pass@k;按子领域分层为航空/零售分片;
- **BFCL v4 multi-turn** [29]:函数调用,每轮调用的 AST 匹配(见§8);按任务家族分层。

阶段1划分是任何画像的基础。

相似文章

Agentick:用于通用序贯决策智能体的统一基准

arXiv cs.AI

本文介绍了 Agentick,这是一个用于评估涵盖强化学习(RL)、大型语言模型(LLM)和视觉语言模型(VLM)范式的通用序贯决策智能体的统一基准测试。该基准提供了 37 个程序化生成的任务,并揭示目前尚无单一方法占据主导地位,突显了智能体自主性方面仍有巨大的提升空间。

JobBench:让智能体工作与人类意愿对齐

arXiv cs.AI

JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。