STAGE-Claw:面向真实场景的自动化基于状态的智能体基准测试

arXiv cs.AI 论文

摘要

本文介绍了STAGE-Claw,一个用于在基于状态的计算环境中构建和评估真实个人智能体场景的自动化框架,实现了对由大语言模型驱动的智能体的可扩展、基于状态的评估。

arXiv:2606.10394v1 公告类型:新提交 摘要:大语言模型越来越多地被用于驱动日常应用中的个人智能体,但评估这些智能体仍面临挑战。现有基准测试仍依赖沙盒工件、静态任务设计和粗粒度评分,这阻碍了可扩展性,并限制了向可靠个人智能体评估的进展。本文介绍了STAGE-Claw,一个用于在基于状态的个人计算环境中构建和评估真实个人智能体场景的自动化框架。给定一个任务提示,STAGE-Claw会自动创建并验证一个真实的基准测试任务,包括其环境、任务提示、真实答案及相关验证程序。随后,智能体在真实操作环境中进行评估,其性能通过最终系统状态的正确性来衡量,而不仅仅是文本响应。利用STAGE-Claw,本文构建了一个包含40个具有挑战性的真实场景智能体任务的基准测试,评估了11个前沿模型,并分析了它们的任务得分、成本、工具调用可靠性以及常见失败模式。总体而言,STAGE-Claw提供了一种可扩展、基于状态的方法来评估真实用户场景中的智能体。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:15

# 面向真实场景的自动化基于状态的智能体基准测试  
来源:https://arxiv.org/html/2606.10394  
梁思睿1,3,4,6,于博涵1,2,4,6*,王培宇1,3,4,郭世光6,胡文星6,曹鹏飞1,3,赵健4,5,刘操6,曾克6,蔡勋梁6,刘康1,3  
1 中国科学院自动化研究所复杂系统认知与决策智能重点实验室  
2 中国科学院大学先进交叉科学学院  
3 中国科学院,北京,中国,中国科学院大学  
4 中关村学院  
5 中关村人工智能研究院  
6 美团  
\{liangsirui2024, yubohan2025\}@ia\.ac\.cn, kliu@nlpr\.ia\.ac\.cn  

###### 摘要  

大型语言模型日益被用于驱动日常应用中的个人智能体,但评估这些智能体仍然是一个挑战。现有基准测试仍依赖沙盒化的人工制品、静态任务设计和粗粒度评分,这些阻碍了可扩展性,并限制了向可靠个人智能体评估的进展。本文介绍STAGE-Claw,一个自动化框架,用于在基于状态的个人计算环境中构建和评估真实个人智能体场景。给定一个任务提示词,STAGE-Claw自动创建并验证一个真实的基准任务,包括其环境、任务提示、真实答案及相关的验证程序。智能体随后在真实运行环境中被评估,其性能主要通过最终系统状态的正确性来衡量,而不仅仅是文本响应。利用STAGE-Claw,本文创建了一个包含40个挑战性真实场景智能体任务的基准测试,评估了11个前沿模型,并分析了它们的任务得分、成本、工具调用可靠性及常见失败模式。总的来说,STAGE-Claw提供了一种可扩展的、基于状态的方式来评估真实用户场景中的智能体。代码可在此处获取(https://github.com/LiangThree/STAGE-Claw.git)。

---

STAGE-Claw:面向真实场景的自动化基于状态的智能体基准测试  

梁思睿1,3,4,6*,于博涵1,2,4,6*,王培宇1,3,4,郭世光6,胡文星6,曹鹏飞1,3,赵健4,5,刘操6,曾克6,蔡勋梁6,刘康1,3†  
1 中国科学院自动化研究所复杂系统认知与决策智能重点实验室  
2 中国科学院大学先进交叉科学学院  
3 中国科学院,北京,中国,中国科学院大学  
4 中关村学院  
5 中关村人工智能研究院  
6 美团  
\{liangsirui2024, yubohan2025\}@ia\.ac\.cn, kliu@nlpr\.ia\.ac\.cn  

*注:共同第一作者,对本文贡献相等。  
†注:通讯作者。  

---

**图1:STAGE-Claw的工作流程。**  
1) 基准编写:探索任务提示词并生成任务。  
2) 基准验证:检查任务正确性、难度和可复现性,必要时进行修改。  
3) 智能体执行:目标智能体在环境中尝试完成任务。  
4) 基于状态的评估:通过验证系统状态对结果进行评分。  

## 1 引言  

大型语言模型作为自主智能体的推理核心正日益得到广泛应用(Wang等,2024 (https://arxiv.org/html/2606.10394#bib.bib1);Xi等,2025 (https://arxiv.org/html/2606.10394#bib.bib2);Yao等,2022 (https://arxiv.org/html/2606.10394#bib.bib3)),例如Claude Code(Anthropic,2025 (https://arxiv.org/html/2606.10394#bib.bib4))和OpenClaw(OpenClaw,2026 (https://arxiv.org/html/2606.10394#bib.bib5))等系统,它们为LLMs增加了工具接口、执行环境、记忆机制和控制逻辑。这一转变改变了评估方式(Liu等,2024 (https://arxiv.org/html/2606.10394#bib.bib10);Ye等,2026 (https://arxiv.org/html/2606.10394#bib.bib14);Li等,2026 (https://arxiv.org/html/2606.10394#bib.bib15)),智能体不仅需要回答文本提示,还必须进行多步规划、协调异构工具并与环境交互。例如,当智能体集成了电子邮件、日历、文件、浏览器及其他日常应用(OpenClaw,2026 (https://arxiv.org/html/2606.10394#bib.bib5))时,基准测试必须能够衡量在持久、跨工具的用户场景中的可靠行动(Li等,2026 (https://arxiv.org/html/2606.10394#bib.bib15))。  

最近的智能体基准测试已超越纯文本评估,涵盖了工具使用与多步推理、网页指令遵循、桌面交互以及视觉基础的网页任务(Mialon等,2024 (https://arxiv.org/html/2606.10394#bib.bib7);Deng等,2023 (https://arxiv.org/html/2606.10394#bib.bib8);Xie等,2024 (https://arxiv.org/html/2606.10394#bib.bib9);Zhou等,2024 (https://arxiv.org/html/2606.10394#bib.bib11);Koh等,2024 (https://arxiv.org/html/2606.10394#bib.bib12))。然而,它们在三个关键方面仍然存在局限。  

首先,大多数现有的评估用沙盒化的人工制品替代了真实的应用程序状态。例如,PinchBench(Kilo AI,2026 (https://arxiv.org/html/2606.10394#bib.bib13))通过生成的.ics文件评估日历调度能力,通过作为工作空间文本文件存储的合成收件箱评估与电子邮件相关的任务。这种基于文件的公式化简化了任务完成评估,但它可能忽略真实场景中的某些操作,如软件权限和工具访问错误。因此,它主要评估人工制品的生成,而不是智能体与应用程序交互的能力。  

其次,现有的评估任务通常是手动构建的,因此难以扩展。GAIA(Mialon等,2024 (https://arxiv.org/html/2606.10394#bib.bib7))和Claw-Eval(Ye等,2026 (https://arxiv.org/html/2606.10394#bib.bib14))依赖固定的问答实例或经人工验证的任务及评分标准。然而,个人智能体必须适应多样化的用户偏好、目标、工作流程和不断变化的上下文,这就要求评估任务能够扩展到个性化和动态的场景中。通过手动策划的静态基准测试来达到这样的覆盖范围既困难又昂贵。  

第三,现有的评估通常缺乏过程感知的诊断能力。仅进行最终结果评分或检查(Ma等,2024 (https://arxiv.org/html/2606.10394#bib.bib17);Trivedi等,2024 (https://arxiv.org/html/2606.10394#bib.bib18))可能无法诊断错误在完成工作流中发生的位置。例如,智能体产生的错误的会议跟踪相关日历操作可能源于中间步骤的错误,如时区转换、冲突解决或调和矛盾的消息来源,而仅检查最终结果的检查器无法定位这些问题。总体而言,这些局限性促使我们采用一种基于状态的、可扩展的评估范式,在真实场景中评估智能体。  

为了解决这些局限性,本文提出STAGE-Claw(State-based, Tool-integrated, Agent task Generation and Evaluation,基于状态、工具集成、智能体任务生成与评估),一个在真实环境中构建和评估智能体基准测试的自动化框架。STAGE-Claw从三个方面应对这些挑战。**基于状态的评估**验证智能体的行为是否在环境中产生了期望的状态变化,而不仅仅是检查输出或人工制品。**自动化构建**和**过程感知的诊断**指的是通过自动生成和验证基准实例,并分析细粒度指标来定位任务失败原因,从而评估智能体。如图1(https://arxiv.org/html/2606.10394#S0.F1)所示,STAGE-Claw从任务提示词自动创建任务实例,验证其可验证性、难度和可复现性,在生成的环境中执行目标智能体,并通过验证跨工具的持久系统状态变化来评估其性能。这种设计将评估从最终人工制品检查转变为基于状态的智能体行为评估,应用于真实场景。我们构建了40个挑战性任务,并对11个前沿模型的测试结果进行了详细分析。总体而言,我们的贡献总结如下:  

- •本文提出STAGE-Claw,一个系统性地自动化构建和验证基于状态的智能体评估实例的框架,应用于真实场景。  
- •利用STAGE-Claw,我们构建了一个包含40个挑战性任务的基于状态的基准测试,这些任务基于5组真实场景,涵盖跨源推理、工具状态更新和跨工具一致性等工作流。  
- •我们在STAGE-Claw上评估了11个前沿模型,并对任务轨迹和结果进行了详细分析,为开发可靠、基于状态且可扩展的智能体评估系统提供了见解。  

## 2 STAGE-Claw  

在本节中,我们介绍STAGE-Claw,一个四阶段的自动化框架,用于构建和评估基于状态的智能体基准测试。  

#### **形式化定义**。  

每个基准实例被表述为一个在可重建真实环境上的状态转换问题:  

B = (q, E₀, G, R, V)  

其中 q 是任务提示,E₀ 是初始工具环境,G 指定目标最终状态,R 是评分标准,V 是可执行的验证器。智能体在开始时只能观察到 (q, E₀),而 (G, R, V) 保留用于评估,以防止信息泄露。给定一个智能体策略 π,从初始状态 s₀ 开始执行会产生一条轨迹:  

τ_π = (s₀, o₀, a₀, ..., a_(H-1), o_H, s_H)  

其中 o_t 是环境观察,a_t 是智能体用于工具使用的动作,s_H 是最终环境状态。智能体成功与否不仅仅取决于是否产生最终文本答案,而是取决于是否将 E₀ 转换为满足 G 的最终状态,其中使用 V 来评估其正确性。  

#### **实现环境**。  

STAGE-Claw 在真实计算环境中评估智能体,其中用户请求通常涉及多个应用程序。该环境可以被视为所有工具状态的集合。初始环境 E₀ = (T, s₀),其中 T 表示可用工具的集合,s₀ 表示它们的初始联合状态。在步骤 t 时的全局环境状态表示为 s_t = {s_t^τ}_τ∈T,其中 s_t^τ 是工具 τ 的状态。智能体获得对现实工具的用户级访问权限,包括文件系统、浏览器、终端、日历、电子邮件、提醒和笔记,这些工具支持对持久应用程序状态的读取、写入和执行操作。任务被建模为从初始状态 s₀ 到由目标 G 指定的可接受最终状态集 S_G 的转换,当 s_H ∈ S_G 时任务成功,表示智能体在保持相关现有状态的同时产生了所需的持久变化。  

---

**图2:任务类别统计。**  

### 2.1 阶段1:基准编写  

第一阶段从任务提示词自动构建可执行的基准实例。我们手动策划了40个真实助手场景作为任务提示词。对于每个任务提示,STAGE-Claw 调用一个基准编写智能体来实例化一个可执行的任务。该编写智能体仅作为基准设计者。它探索真实的用户需求,想象几个挑战性场景,然后选择一个具有足够复杂度的场景。基于选定的场景,编写智能体构建一个任务实例,包含任务提示、环境构建指南、相应的真实答案以及与真实答案对齐的可执行验证程序。  

为确保足够的复杂度,每个任务都被设计为多步骤、涉及多个工具或信息源、可以从干净状态重建,并支持客观的基于状态的评估。我们还特意添加了一些具有不同难度类型的操作符(见附录A.3 (https://arxiv.org/html/2606.10394#A1.SS3) 中的表5 (https://arxiv.org/html/2606.10394#A1.T5)),以模拟真实世界场景任务的复杂性。总体而言,我们将40个任务构建为5个组。图2 (https://arxiv.org/html/2606.10394#S2.F2) 显示了任务分布。  

### 2.2 阶段2:基准验证  

在纳入评估集之前,每个任务实例都由一个独立的验证智能体检查,该智能体既不求解也不修改任务。检查器验证四个属性。**结构完整性**,确保每个任务包含环境构建指南、可见任务提示、隐藏的真实答案以及相应的可执行验证程序。**可复现性**,从干净状态重建环境两次,并比较文件、日历、提醒、笔记和电子邮件等工具状态之间的快照。确保任务环境每次都能一致地重新配置到相同的初始状态。**可验证性**,评估评分是否客观且可执行。**难度校准**,检查任务难度是否包含以下类型:跨源冲突、隐藏依赖、噪声数据、实体对齐、工具状态更新和跨工具一致性。  

每个维度获得一个状态:通过、失败、阻塞或警告。这些状态被汇总成一个加权100分的检查器得分。得分超过阈值(在我们的实验中为80分)的实例被接受。失败的实例被返回阶段1,附带诊断信息以进行针对性修复,并重新提交,直到通过或达到最大修复尝试次数。  

---

**表1:智能体评估基准测试在STAGE-Claw维度上的比较。**  
- 基于状态:检查显式环境状态  
- 多工具:需要协调使用工具  
- 可审计:支持轨迹、快照、评分标准检查器  
- 自动构建:支持自动或程序化任务构建  
- 扰动:引入受控噪声、冲突或错误  
绿色对勾、黄色圆圈和红色叉号分别表示完全支持、部分支持和不支持核心功能。  

| 基准测试 | 基于状态 | 多工具 | 可审计 | 自动构建 | 扰动 |
|----------|----------|--------|--------|----------|------|
| AgentBench (Liu et al., 2024) | ✗ | ✓ | ✗ | ✗ | ✗ |
| GAIA (Mialon et al., 2024) | ✗ | ✓ | ✓ | ✗ | ✗ |
| τ-bench (Yao et al., 2024) | ✗ | ✗ | ✗ | ✗ | ✗ |
| WebArena (Zhou et al., 2024) | ✓ | ✓ | ✓ | ✗ | ✗ |
| OSWorld (Xie et al., 2024) | ✓ | ✓ | ✓ | ✗ | ✗ |
| ToolBench (Qin et al., 2024) | ✓ | ✓ | ✓ | ✗ | ✗ |
| Terminal-Bench (Merrill et al., 2026) | ✗ | ✓ | ✓ | ✗ | ✗ |
| PinchBench (Kilo AI, 2026) | ✓ | ✓ | ✗ | ✗ | ✗ |
| Claw-Eval (Ye et al., 2026) | ✗ | ✗ | ✗ | ✗ | ✗ |
| **STAGE-Claw (Ours)** | **✓** | **✓** | **✓** | **✓** | **✓** |

### 2.3 阶段3:智能体执行  

此阶段涉及测试合格的任务。对于每个验证通过的基准,STAGE-Claw重置初始状态,根据环境构建指南重建环境,并创建一个隔离的执行工作空间,其中仅包含可见的任务提示、相关文档和工具。被评估的智能体必须在预定的时间预算内,仅使用可用的指令和工具完成任务。在执行过程中,它可能需要解释需求、与工具交互并更新工具状态、检查中间结果以及产生最终输出。一旦智能体完成,STAGE-Claw记录e

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。