ClawForge:为命令行智能体生成可执行的交互式基准测试

arXiv cs.AI 论文

摘要

ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。

arXiv:2605.14133v1 公告类型:新 摘要:交互式智能体基准测试在可扩展构建与真实工作流评估之间存在张力。手工编写的任务扩展和修订成本高昂,而静态提示评估无法捕捉到只有当智能体在持久状态上操作时才会出现的失败。现有的交互式基准测试显著推进了智能体评估,但大多数任务从干净状态初始化,并未系统性地测试智能体如何处理预先存在的部分、过时或冲突的工件。我们提出 **ClawForge**,一个基于生成器的基准测试框架,用于在状态冲突下执行命令行工作流。该框架将场景模板、实例化槽位、初始化状态、参考轨迹和验证器编译为可复现的任务规范,并通过归一化的最终状态和可观察的副作用(而非精确的轨迹匹配)逐步评估智能体在持久工作流表面上的表现。我们以此框架实例化为 ClawForge-Bench(17个场景,6种能力类别)。对七个前沿模型的评估结果显示,最佳模型仅达到 45.3% 的严格准确率,所有模型的错误状态替换率均低于 17%,而最宽的模型差距(17% 到 90%)由智能体是否在行动前检查现有状态所驱动。部分得分和步骤效率分析进一步揭示,许多失败属于接近完成的闭合而非早期崩溃,并且模型在状态冲突下表现出不同性质的失败风格。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:21

# 为命令行智能体生成可执行交互式基准测试

来源:https://arxiv.org/html/2605.14133

彭霞 郝年基 熊凯文 曾凯德 刘佳琦 吴方 钟吉柯 郑泽宇 谢慈航 姚华秀

###### 摘要

交互式智能体基准测试在可扩展构建与真实工作流评估之间存在矛盾。手工编写任务成本高昂且难以扩展和修订,而静态提示评估无法捕捉智能体在持久化状态下操作时才出现的失败。现有交互式基准测试显著推动了智能体评估,但大多数任务从干净状态初始化,并未系统测试智能体如何处理预先存在的部分、过期或冲突工件。我们提出 ClawForge,一个基于生成器的可执行命令行工作流基准框架,专注于状态冲突场景。该框架将场景模板、经填充的槽位、初始状态、参考轨迹和验证器编译为可重现的任务规范,并通过归一化结束状态和可观测副作用(而非精确轨迹匹配)对智能体在持久化工作流表面上的每一步进行评估。我们将该框架实例化为 ClawForge-Bench(17 个场景,6 个能力类别)。在七个前沿模型上的评估结果表明,最佳模型仅达到 45.3% 的严格准确率,所有模型的错误状态替换率均低于 17%,而最大的模型差异(17% 到 90%)取决于智能体在行动前是否检查现有状态。部分分数和步骤效率分析进一步揭示,许多失败是接近命中的闭合失败而非早期崩溃,且模型在状态冲突下表现出不同性质的失败模式。

代码和数据:https://github.com/aiming-lab/ClawForge

## 1 引言

随着大型语言模型(LLM)智能体(Yao et al., 2022 (https://arxiv.org/html/2605.14133#bib.bib40); Shinn et al., 2023 (https://arxiv.org/html/2605.14133#bib.bib107))从一次性提示转向持久化软件工作流,基准测试的构建本身成为瓶颈。一个真实的工作流任务不仅仅是附带答案的指令:它需要初始化状态、有效和无效的预存在工件、预期副作用以及可执行的验证逻辑。这些要素还必须可重现且可审计,因为状态的微小变化可能将一个看似等价的任务转变为不同的决策问题。因此,手工编写的交互式任务难以扩展,一旦出现覆盖或公平性问题也难以修订(Zheng et al., 2023 (https://arxiv.org/html/2605.14133#bib.bib12); Chang et al., 2024 (https://arxiv.org/html/2605.14133#bib.bib13))。这个问题对于命令行智能体尤为突出(OpenClaw, 2026 (https://arxiv.org/html/2605.14133#bib.bib30); Merrill et al., 2026 (https://arxiv.org/html/2605.14133#bib.bib8); Research, 2026 (https://arxiv.org/html/2605.14133#bib.bib9))。真实工作流要求智能体在决定添加、保留、修复或替换状态之前,先检查任务板、收件箱线程、日历、文件、运行时配置、天气状态和消息界面。许多失败只在执行后才显现:智能体可能创建重复任务、未解决过期状态、在互相矛盾的证据下选择错误分支,或在最终副作用产生前停止。

现有交互式基准测试已显著推进了智能体评估(Qin et al., 2023 (https://arxiv.org/html/2605.14133#bib.bib14); Liu et al., 2023 (https://arxiv.org/html/2605.14133#bib.bib18); Zhou et al., 2023 (https://arxiv.org/html/2605.14133#bib.bib20)),但大多数任务从干净状态初始化,并未系统测试智能体如何处理预先存在的部分、过期或冲突工件(Ye et al., 2026 (https://arxiv.org/html/2605.14133#bib.bib7); Ji et al., 2026 (https://arxiv.org/html/2605.14133#bib.bib11); Li et al., 2026a (https://arxiv.org/html/2605.14133#bib.bib10))。这意味着工作流能力的核心部分仍未测量:正确性取决于实时环境的最终状态,而不仅仅是合理的文本答案或命令序列。

参照图注

图 1:ClawForge-Bench 基准测试覆盖范围。内圈:6 个主要能力类别。外圈:每个类别中的 17 个场景族。

为应对这些挑战,我们提出 ClawForge,一个基于生成器的可执行状态冲突工作流基准框架。ClawForge 将场景模板、经填充的变量、种子化环境状态、参考轨迹、验证器和元数据编译为可执行的任务规范,这些规范可以重新生成、审计并系统扩展。执行环境随后通过 CLI 风格的接口逐步评估智能体,评分依据归一化工作流状态和可观测副作用,而非精确的命令模仿。因此,自动生成不仅是产生更多任务的可扩展方式,也是维护交互式基准测试中可重现性、可扩展性和评估一致性的机制。我们将该框架实例化为 **ClawForge-Bench**,包含 17 个场景,分为六个能力类别(图 1 (https://arxiv.org/html/2605.14133#S1.F1)),这些场景从部分、过期或冲突的工作流状态开始,针对真实的失败模式,包括重复感知完成、过期状态修复、错误状态替换、多源分支解决和完整工作流闭合。

总之,我们的主要贡献是 ClawForge,一个基于生成器的基准框架,通过自动化任务构建、有状态执行和结果优先的评估,在状态冲突工作流下评估命令行智能体。在 ClawForge-Bench(17 个场景,6 个能力类别)上,对七个前沿模型的评估表明,该基准测试远未饱和:最佳模型仅达到 45.3% 的严格准确率,所有模型的错误状态替换率低于 17%,而中断工作流恢复类别展现出最大的模型差距(17%–90%),这主要取决于智能体在行动前是否检查现有状态。部分分数和步骤效率分析进一步揭示,许多失败源自接近命中的工作流闭合而非早期崩溃,且模型在状态冲突下表现出不同性质的失败行为。

## 2 任务生成与执行

ClawForge 是一个基于生成器的基准系统,而非提示集合。核心设计原则是,每个生成的任务都是一个可执行规范:指令、初始化状态、参考轨迹、验证器和元数据被一起生成,然后通过相同的有状态运行时进行评估。本节描述任务如何生成(§2.1 (https://arxiv.org/html/2605.14133#S2.SS1))和执行(§2.2 (https://arxiv.org/html/2605.14133#S2.SS2));第 3 节 (https://arxiv.org/html/2605.14133#S3) 定义评估协议。

### 2.1 自动化基准生成

每个任务由一个场景模板和已填充的槽位(如城市、时区、收件人、主题、截止日期或日历开始时间)生成。这实现了表面多样性,同时确保每个生成的任务都能映射回已知的场景,并能由相同的验证器评估。如图 2 (https://arxiv.org/html/2605.14133#S2.F2) 所示,生成流水线分阶段进行:首先用具体的槽值填充场景模板,然后选择状态模式(模拟或真实)并据此实例化初始环境状态,随后进行指令渲染。流水线接着通过针对初始化状态执行预期工作流来合成参考命令 \(C^\star\),生成检查所需状态转换和副作用的验证器,并导出结构化元数据(场景族、主要能力、提示风格)。最终输出是一个完整的可执行任务对象。

参照图注

图 2:自动化基准生成流水线。场景模板通过槽位填充、状态初始化、指令渲染、参考命令合成和验证器生成,被编译为可执行的任务规范 \(\tau = (x, S_0, C^\star, \mathcal{E}, m)\)。

一个生成的任务是一个包含五个耦合组件的可执行规范:

\[\tau = (x, S_0, C^\star, \mathcal{E}, m), \tag{1}\]

其中 \(x\) 是指令,\(S_0\) 是初始化状态,\(C^\star\) 是参考命令轨迹,\(\mathcal{E}\) 是可执行检查,\(m\) 是结构化元数据。每个 \(\tau\) 从一个场景族 \(\sigma\)、一个经填充的槽分配 \(z\) 和一个提示策略 \(p\) 实例化。关键设计选择是,所有五个组件都从相同的场景规范一起生成,因此基准对象是一个可执行的工作流任务,而非一个提示加上离线答案键。

由于生成器由场景族参数化,不同的场景可以编码根本不同的决策结构,而不仅仅是表面措辞的变化。有些是间隙完成型任务,有些要求明确修复或替换过期状态,另一些则要求在多个信息源之间进行分支选择。这种结构多样性使基准测试能够区分状态冲突、闭合效率和多源决策失败,而不仅仅是测量表面指令遵循能力(第 4 节 (https://arxiv.org/html/2605.14133#S4))。

生成后,每个任务通过接下来描述的交互相环境执行。

### 2.2 交互相环境

生成的任务在一个有状态环境中执行,而非作为静态提示评分。ClawForge 在任务、日历、电子邮件、消息、文件、运行时配置、天气和重复检查等工作流表面上暴露一个 CLI 风格接口。一个回合从自然语言指令开始。每一步,智能体发出一个命令,环境执行它,下一个观测值从产生的输出和更新后的状态构建。这个执行与评估循环总结在图 3 (https://arxiv.org/html/2605.14133#S2.F3) 中,该图明确表明执行和结果优先评分发生在一个耦合的回合内,而非单独的离线阶段。

该循环故意是有状态的:许多失败只在执行后才显现。智能体可能重新创建一个已存在的对象、未触及过时状态、更新错误的实体,或在最终副作用产生前停止。因此,ClawForge 在展开和评估中都将执行状态作为第一类对象处理(实现细节见附录 B.1 (https://arxiv.org/html/2605.14133#A2.SS1))。

参照图注

图 3:交互式执行与评估循环。智能体逐步发出命令;环境执行它们,记录状态变化和效果轨迹,并将所有内容合并为归一化评估状态 \(\hat{S}\),用于结果优先评分。

## 3 评估协议

算法 1 ClawForge 回合展开

1: 加载任务 \(T\) 并将基础状态 \(S_0\) 复制到隔离的状态目录  
2: 应用任务特定的状态覆盖  
3: 初始化路由后端 \(B\) 和评估器 \(E\)  
4: 初始化观测 \(o_0 \leftarrow\) 指令、配置、网关状态、命令提示  
5: **for** \(t = 1, \dots, H\) **do**  
6:     **if** 智能体请求停止或发出 DONE **then**  
7:         **break**  
8:     **end if**  
9:     智能体发出一个命令 \(a_t\)  
10:    通过路由后端 \(B\) 执行 \(a_t\)  
11:    记录 stdout/stderr、退出代码、命令元数据和推断的效果  
12:    构建下一个观测 \(o_t\)  
13:    **if** \(a_t \in \{\texttt{done}, \texttt{exit}, \texttt{quit}\}\) 或 \(t = H\) 或触发展开停止规则 **then**  
14:         **break**  
15:    **end if**  
16: **end for**  
17: 从命令历史、效果、最新输出、配置和合并的后端状态构建归一化评估状态 \(\hat{S}\)  
18: 返回最终结果 \(E(\hat{S}, T)\)

ClawForge 按功能评估任务,而非比较表面形式的轨迹。评估器对归一化执行状态和显式效果轨迹进行操作,因此多个轨迹只要产生所需的状态转换和可观测副作用即可通过。由于任务与其验证器一起生成,评估始终与产生任务的相同场景语义挂钩。这种结果优先的设计使我们能够区分早期崩溃和结构性的接近命中,例如保留错误对象、遗漏一个最终副作用,或在部分正确修复后停止。

### 3.1 回合展开

每个回合从一个包含指令、初始化状态、参考轨迹、可执行检查和结构化元数据的生成任务实例化。重置时,环境具体化任务状态,应用任何任务特定的状态覆盖,初始化所选后端,并构建评估器。智能体接收一次指令,然后在后续每一步恰好发出一个命令。环境执行该命令,记录改变状态的效果,并返回下一个观测值。算法 1 (https://arxiv.org/html/2605.14133#alg1) 总结了这一交互。

当展开结束时,环境从命令历史、累积的效果轨迹、最新进程输出和合并的后端状态构建归一化状态 \(\hat{S}\)。评估器随后对 \(\hat{S}\) 应用任务定义的检查,而不是与一个精确的命令序列进行比较。默认协议使用 multimode,该模式将命令路由到其对应的工作流表面,并带有可配置的最大步骤限制(其他运行时细节见附录 B.1 (https://arxiv.org/html/2605.14133#A2.SS1))。

### 3.2 评分

我们报告两个互补指标。设 \(\mathcal{D}\) 为评估集。

- **严格完全通过准确率** 统计每个任务的所有必需检查均通过的占比:

\[
\mathrm{Acc}(\mathcal{D}) = \frac{1}{|\mathcal{D}|} \sum_{\tau \in \mathcal{D}} \mathbf{1}[\tau \text{ 通过所有必需检查}]. \tag{2}
\]

- **部分分数** 衡量每个工作流正确完成了多少。如果一次展开有检查 \(\{c_i\}_{i=1}^n\),每个检查有分数 \(s_i \in [0,1]\) 和权重 \(w_i > 0\),则每个任务的分数为:

\[
\mathrm{Score}(\hat{S}) = \frac{\sum_{i=1}^n w_i s_i}{\sum_{i=1}^n w_i}, \tag{3}
\]

我们报告在 \(\mathcal{D}\) 上的平均值。这两个指标使用相同的评估器但以不同方式汇总:严格准确率奖励完整闭合,而部分分数将接近命中失败与早期崩溃区分开。当智能体由外部服务商提供时,ClawForge 也会记录服务商侧失败和受影响的额外记录。

## 4 实验

我们在 ClawForge-Bench(17 个场景,362 个任务,两种提示风格)上评估七个前沿模型。我们的实验旨在回答以下问题:(1) 该基准测试在强模型上是否具有挑战性和区分度?(2) 哪些能力类别暴露了最大的能力差距?(3) 模型在步骤效率上是否存在差异,额外的交互是否会转化为更好的闭合?(4) 部分分数分析能否将接近命中失败与早期停止区分开?

### 4.1 实验设置

所有实验遵循第 3 节 (https://arxiv.org/html/2605.14133#S3) 中的协议,使用 multimode、完整交互历史,以及 25 步预算。我们评估七个前沿模型:Kimi-K2.5 (Team et al., 2026 (https://arxiv.org/html/2605.14133#bib.bib32))、GPT-5.2 (OpenAI, 2025a (https://arxiv.

相似文章

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。