OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI 论文

摘要

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。

arXiv:2605.29253v1 Announce Type: new 摘要:任务成功可能掩盖真实世界代理执行中的过程异常。代理可能通过最终任务oracle,但仍然积累未解决的歧义、不安全的写入外部、忽略的错误、弱依据的承诺或能力边界过度承诺。我们将这种不匹配称为结果-过程差距,并引入OpenClawBench,这是一个用于测量和监督真实代理执行过程中过程侧异常的大规模数据集。OpenClawBench基于由6个源模型生成的BFCL驱动OpenClaw会话构建,包含31,264条带注释的轨迹。它将任务oracle结果与结构化过程证据对齐。FullTax将对齐的轨迹转换为结构化的异常监督:二元标签、支持证据、起始/跨度定位、严重性、可恢复性以及一个5类异常分类体系。使用OpenClawBench,我们使结果-过程差距变得可测量。在31,135个通过oracle测试的执行中,有2,904个根据FullTax仍被标记为过程异常。这些结果表明,仅基于成功的评估忽略了真实代理执行中具体的一类过程侧失败。一个使用LoRA微调的Gemma 3 12B检测器,在高置信度FullTax监督池上训练,在更干净标签的保留测试集上达到二元F1=0.729。总之,OpenClawBench将真实代理执行日志转化为可审计和可复用的监督,用于研究、诊断和操作监控运行时代理可靠性。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:15

# OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

来源:https://arxiv.org/html/2605.29253

刘一冰¹,∗, 杨泽·刘∗, 尹晓龙², 王斌³,∗, 张冲¹, 尹浩⁴, 韩中义†¹

¹山东大学软件学院,济南,中国
²南京大学人工智能学院;计算机软件新技术国家重点实验室,南京,210023,中国
³中医科学院医学人工智能中心;青岛市中医科学院;山东中医药大学海洋中药研究所,青岛,266112,中国
⁴四川大学软件工程学院,成都,610065,中国

Email: sduliuyb@163\.com, yangze2@illinois\.edu, yinxl@lamda\.nju\.edu\.cn,
wb1696843361@gmail\.com, zhangchongupc@163\.com, 1273852192@qq\.com,
hanzhongyicn@gmail\.com

∗同等贡献。†通讯作者。

###### 摘要

任务成功可能会掩盖真实世界代理执行中的过程异常。一个代理可能通过了最终的任务验证,但在执行过程中仍然积累了未解决的歧义、不安全的外部写入、忽略的错误、弱基础的承诺或能力边界过度承诺。我们研究这种不匹配现象,将其称为“结果-过程差距”,并引入OpenClawBench,这是一个大规模数据集,用于测量和监督真实代理执行过程中的过程侧异常。OpenClawBench基于6个源模型产生的BFCL驱动的OpenClaw会话构建,包含31,264条经过标注的轨迹。它将任务验证结果与结构化过程证据对齐。FullTax将对齐后的轨迹转换为结构化的异常监督信息:二元标签、支持性证据、起始/跨度定位、严重程度、可恢复性以及一个5类异常分类。利用OpenClawBench,我们使“结果-过程差距”变得可测量。在31,135次通过验证的执行中,有2,904次(9.33%)在FullTax下仍被标记为过程异常。在包含高风险过程证据的通过验证执行中,1,904次中的1,765次(92.70%)被标记为异常。这些结果表明,仅依靠成功评估会遗漏真实代理执行中一类具体的过程侧失败。FullTax银标签与人工审计在300条轨迹的人工审计试点中的96.0%相匹配。基于高置信度FullTax监督池训练的LoRA微调Gemma 3 12B检测器,在清洁标签的留存测试集(n=2,646)上达到了二元F1=0.729。它相比GPT-5.4前沿参考模型高出+0.302绝对值,相比未微调基线高出+0.357,并在所有六个源模型代理切片上取得优势。提升源于校准而非更高的召回率:零样本检测器的标记率在42-50%,而实际标签率为14.7%;微调后的检测器预测异常的频率为17.7%。总之,OpenClawBench将真实的代理执行日志转化为可审计、可复用的监督信息,用于研究、诊断和运行时监控代理的可靠性。

## 1 引言

代理可靠性不仅仅是一个结果层面的属性。一次执行可能达到了正确的最终答案,但在过程中违反了证据、工具语义、用户约束或状态一致性。我们将这种不匹配研究称为“结果-过程差距”:任务成功可能隐藏了真实代理执行中的过程侧异常。我们的目标是“过程侧异常审计”:将真实的代理执行转化为结构化证据,以识别、定位和分类超越任务验证结果的可靠性异常。

最近的研究对仅关注结果的评估提出了类似担忧,表明执行证据对于审计安全性、鲁棒性和可恢复性是必要的[12, 23, 19]。然而,如果缺乏明确将任务成功与过程可靠性在同一执行轨迹中分离的数据,这种担忧仍然难以系统性地测量。当前的代理数据集并非设计用于测量这一差距。大多数基准测试评估代理是否完成任务、满足终端状态约束或在基准协议下遵循策略[27, 20, 21]。这些标签对于衡量任务能力很有用,但它们通常将一次执行压缩为最终或策略层面的判断。因此,它们无法告诉我们一个成功的轨迹是否包含异常的过程证据、执行从何时开始变得不可靠、或者发生了哪种类型的过程异常。

最近的轨迹感知资源通过添加步骤级的过程信号超越了最终输出[8, 9, 10]。然而,它们仍然没有提供能够同时关联真实代理会话、任务验证结果、过程证据、局部异常标签和闭合形式异常类型的监督信息。生产环境研究进一步表明,代理的不当行为可能在真实执行过程中自然产生[11]。但它们没有发布一个可训练的语料库用于测量或监督此类失败。因此,缺失的不是另一个成功基准测试,而是一个能够分离任务结果与过程可靠性,并揭示真实代理轨迹中“结果-过程差距”的数据集。

参见说明图1:OpenClawBench揭示了真实代理执行中的“结果-过程差距”。OpenClawBench将基于BFCL的OpenClaw会话标准化为ReAct风格轨迹,抽象步骤级过程证据,将轨迹与任务验证结果对齐,并应用FullTax产生异常标签、亚型标签、证据、质量等级和定位目标。右侧面板总结了核心发现:任务成功并不能保证过程可靠性,因为通过验证的执行仍可能包含过程侧异常。验证结果被用作上下文而非异常标签,风险切片被用作注释先验而非真实标签。

我们引入OpenClawBench,使“结果-过程差距”在真实OpenClaw代理轨迹中变得可测量。OpenClawBench基于由真实代理堆栈(包含工具和环境交互)产生的BFCL驱动执行构建,而非仅依据结果标签或合成轨迹。它解决了一个核心数据构建问题:如何将真实的代理轨迹转化为用于过程侧异常审计的结构化监督信息?该数据集包含从BFCL[15]任务上6个源模型的OpenClaw执行中收集的31,264条银标签轨迹。一个保留用于人工审计校准的300条轨迹池已经经过裁决,银标签与288条轨迹中的人工判断匹配(96.0%,见第4节)。OpenClawBench提供了标注轨迹,将任务验证结果、过程证据、异常标签、定位目标和亚型类别联系起来。这一设计超越了仅成功的评估,揭示了通过验证的轨迹是否包含过程侧失败、轨迹首次变得不可靠的位置以及发生的异常类型。图1展示了OpenClawBench如何将BFCL任务上的真实OpenClaw执行转化为带有异常标签、证据、亚型注释和定位目标的标准化轨迹。

OpenClawBench还将过程侧异常审计转化为一个可测量的检测器设计问题,并提供了可部署的解决方案。FullTax银标签与300条轨迹的人工审计试点中的96.0%匹配,足以用于清洁的监督蒸馏。基于高置信度FullTax监督池训练的LoRA微调Gemma 3 12B检测器,在清洁标签的留存测试集(n=2,646)上达到了二元F1=0.729,相比GPT-5.4前沿参考模型高出+0.302绝对值,相比未微调基线高出+0.357,并在所有六个源模型代理切片上取得优势。改进源于缩小校准差距而非提高召回率:零样本检测器的标记率在42-50%,而实际标签率为14.7%;微调后的检测器预测异常的频率为17.7%,并恢复了82%的标签异常轨迹。当整个源模型骨干(gpt-oss-20B)从训练中排除时,优势仍然保持,排除了记忆化解释,并在BFCL任务源内支持了跨骨干的留存泛化。这些发现共同确立了OpenClawBench作为一个基准,在合适的监督下,一个小的本地部署检测器能够超越前沿闭源参考模型。

我们的主要贡献如下:

- • **数据支撑的“结果-过程差距”**。我们提供了真实代理执行中“结果-过程差距”的大规模实证分析。这一差距将任务成功与过程可靠性分离。一个成功的轨迹可能仍然包含未解决的歧义、不安全的外部写入、忽略的错误、弱基础的承诺或能力边界过度承诺。在OpenClawBench中,31,135次通过验证的执行中有2,904次(9.33%)在FullTax下被标记为过程异常,1,904次高风险通过验证的执行中有1,765次(92.70%)是异常的。这些结果将对仅关注结果评估的普遍担忧转化为真实代理轨迹的可测量属性。
- • **OpenClawBench和FullTax监督**。我们构建了OpenClawBench,一个包含来自6个源模型在BFCL任务上执行的31,264条真实代理执行轨迹的数据集。OpenClawBench将任务验证结果与结构化过程证据对齐,并应用FullTax——一个用于过程侧异常监督的多阶段注释协议。产生的数据提供了二元异常标签、过程证据、异常跨度、定位目标、严重性和可恢复性字段,以及一个平坦的5类异常分类。该设计支持审计、训练、校准和精细诊断,超越了仅成功的评估。
- • **一个超越前沿参考的可部署开源权重检测器**。FullTax银标签与300条轨迹的人工审计试点中的96.0%匹配,我们在结果的高置信度监督池上使用rank-32 LoRA微调了Gemma 3 12B。微调后的检测器在留存测试集上达到了二元F1=0.729,相比GPT-5.4前沿参考模型高出+0.302绝对值,相比未微调基线高出+0.357,并在所有六个源模型代理切片上取得优势。改进源于缩小校准差距而非提高召回率,并且在保留整个源模型骨干(gpt-oss-20B)训练的交叉骨干评估下保持优势。所有训练和推理在商用8×A100硬件上运行,检测器可在与其监控的代理相同的计算预算内本地部署。

## 2 相关工作

### 2.1 代理基准测试与结果中心评估

代理基准测试已从网页交互和计算机使用扩展到服务代理、工具调用评估和安全导向评估[27, 20, 21, 15, 26, 25, 7]。这些基准测试对于衡量代理在现实环境中的能力至关重要,但其监督信号在很大程度上仍以结果或行动为中心。WebArena和OSWorld评估代理是否在交互环境中完成功能性任务[27, 20]。τ-bench衡量策略一致的工具-代理-用户交互,BFCL专注于代理设置中的函数调用正确性[21, 15]。安全基准测试将此轴扩展到有害行为、不安全轨迹和对抗鲁棒性,但其目标仍然主要围绕安全结果、策略违规或任务级失败模式[26, 25, 7]。这些基准测试提供了任务达成度的强有力度量,但其监督信号主要反映任务完成、策略一致交互或不安全行为。它们并未直接评估一个不同的可靠性问题:执行是否在其中间证据使用、工具语义、用户约束处理和状态更新中保持可靠。这一区别对于运行时审计至关重要。关键对象不是代理是否成功或违反策略,而是轨迹是否包含不可靠执行的过程侧证据。

### 2.2 轨迹感知评估与过程异常审计

最近的工作已将代理评估从最终结果转向执行证据。Auditable Agents认为代理系统应从执行记录中具有可审计性,而不仅仅是最终答案[12]。Claw-Eval表明轨迹感知分级可以揭示仅输出评估遗漏的安全性和鲁棒性失败[23]。Cloud-OpsBench同样强调在真实操作环境中主动推理和基于证据的诊断[19]。这些研究共同建立了过程审计的核心前提:任务成功并不能完全表征执行可靠性。

以过程为中心的基准测试已开始使这一前提变得可测量。AgentProcessBench为使用工具的轨迹提供了步骤级监督[3]。HINTBench研究了长时域执行中的内在非攻击风险及其定位[18]。TrajAD将轨迹异常检测形式化为一个运行时审计问题,并研究了基于扰动的基准设置中的首次错误定位[8]。这些资源表明过程质量、风险证据和定位正在成为基准测试目标。然而,它们仍然未涉及本文研究的基准设置:真实代理会话中自然发生的过程侧异常,以统一的执行证据、异常标签、定位目标和亚型注释来表示。该设置不同于步骤质量注释、轨迹级风险检测和基于扰动的异常构建,因为它将真实执行记录作为过程异常监督的来源。它还要求注释能够连接异常决策与首次可靠性下降的位置,以及支持该决策的过程证据类型。

### 2.3 真实代理不当行为与运行时干预

过程侧失败也出现在部署的代理系统中。Wink研究了生产编码代理轨迹,并识别出自然发生的不当行为,包括规范漂移、推理错误和工具误用[11]。CIBench和DreamStruct同样指出了真实操作环境中代理失败的实际模式[14, 13]。这些研究强调了过程侧审计的必要性,但它们将不当行为作为事后分析目标,并未构建用于可训练监督的数据集。AgentMonitor通过使用LLMs作为过程评估器来研究运行时拦截[22]。然而,AgentMonitor的成功取决于如何获取明确的异常监督,而这一监督在大多数真实设置中不易获得。OpenClawBench通过提供结构化的异常标签、定位目标和亚型信息来解决这一挑战,这些信息来自真实的代理执行并经过验证。这使得过程侧异常检测成为可测量的训练任务,并支持本地部署的前沿水平检测器。

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。