Claw-SWE-Bench:一个用于评估OpenClaw风格编码任务代理框架的基准测试

Hugging Face Daily Papers 论文

摘要

Claw-SWE-Bench是一个新的基准测试和适配器协议,它标准化了在SWE-bench风格任务上比较不同编码代理的评估条件,揭示了适配器设计对性能和成本有显著影响。

通用代理(如OpenClaw)越来越多地被用作自主工具使用者,但它们的编码能力在SWE-bench下难以衡量:一个通用代理本身并不满足评分所需的干净Docker工作区、补丁和预测合同。我们推出了Claw-SWE-Bench,这是一个多语言SWE-bench风格的基准测试和适配器协议,使得异构代理框架(或称claws)在公平设置下具有可比性,包括固定提示、运行时预算、工作区合同、补丁提取程序和评估器。完整基准测试包含350个GitHub问题解决实例,涵盖8种语言和43个代码库,这些实例来自经过未来提交清理后的SWE-bench-Multilingual和SWE-bench-Verified-Mini。我们还发布了Claw-SWE-Bench Lite以加快验证速度,这是一个包含80个实例的子集,通过一个成本感知、排名感知的过程在17个校准列上选取。在完整基准测试上,使用最小直接差异适配器的OpenClaw仅获得19.1%的Pass@1,而使用完整适配器在相同GLM 5.1主干下达到73.4%,这表明适配器设计对于使OpenClaw风格的框架有效执行编码任务至关重要。在OpenClaw与九种模型的组合测试和五个框架与两种模型的组合测试中,模型选择使Pass@1变化29.4个百分点,在固定模型下框架选择变化27.4个百分点;具有相似准确率的系统在总API成本上可能差异显著。因此,Claw-SWE-Bench将框架和成本核算视为SWE风格编码代理评估的一等轴,提供了完整的基准测试和一个低成本参考集,用于可重复比较。数据可在https://github.com/opensquilla/claw-swe-bench 和 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:38

Paper page - Claw-SWE-Bench: 一个用于评估OpenClaw风格代理工具箱在编码任务上的基准测试

来源:https://huggingface.co/papers/2606.12344 发表于6月10日

·

提交者 https://huggingface.co/hankaixyz

hankai (https://huggingface.co/hankaixyz) 于6月11日

#3 当日论文 (https://huggingface.co/papers/date/2026-06-11) 作者:

摘要

一个新基准和适配器协议,称为Claw-SWE-Bench,通过标准化评估条件并揭示适配器设计对有效代码生成的重要性,实现了多样化编码智能体的公平比较。

通用型代理(如OpenClaw (https://huggingface.co/papers?q=OpenClaw))越来越多地被用作自主工具使用者,但它们的编码能力在SWE-bench (https://huggingface.co/papers?q=SWE-bench)下难以衡量:通用代理本身并不满足评分所需的干净Docker工作空间、补丁和预测合约。我们引入了Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench),一个多语言SWE-bench (https://huggingface.co/papers?q=SWE-bench)风格的基准测试和适配器协议 (https://huggingface.co/papers?q=adapter%20protocol),该协议使得异构的代理工具箱 (https://huggingface.co/papers?q=harness)(或称“爪”)在固定提示、运行时预算、工作空间合约、补丁提取流程和评估器这一公平设置下具有可比性。完整的基准测试 (https://huggingface.co/papers?q=benchmark)包含350个GitHub问题解决实例,涵盖8种语言和43个仓库,这些实例来自SWE-bench (https://huggingface.co/papers?q=SWE-bench)-Multilingual和SWE-bench (https://huggingface.co/papers?q=SWE-bench)-Verified-Mini,并在未来提交清理后提取。我们还发布了Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)Lite用于更快的验证,这是一个通过成本感知、排名感知流程从17个校准列中选取的80实例子集。在完整基准测试 (https://huggingface.co/papers?q=benchmark)上,采用最小直接差异适配器的OpenClaw (https://huggingface.co/papers?q=OpenClaw)仅获得19.1%的Pass@1 (https://huggingface.co/papers?q=Pass%401),而完整适配器在相同GLM 5.1 (https://huggingface.co/papers?q=GLM%205.1)骨干下达到73.4%,这表明适配器设计对于使OpenClaw (https://huggingface.co/papers?q=OpenClaw)风格的工具箱 (https://huggingface.co/papers?q=harness)有效执行编码任务至关重要。在OpenClaw (https://huggingface.co/papers?q=OpenClaw)的九模型扫描和五工具箱(爪)的两模型扫描中,模型选择使Pass@1 (https://huggingface.co/papers?q=Pass%401)变化29.4个百分点,而固定模型下工具箱 (https://huggingface.co/papers?q=harness)选择变化27.4个百分点;准确率相近的系统在总API成本 (https://huggingface.co/papers?q=API%20cost)上可能差异显著。因此,Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)将工具箱 (https://huggingface.co/papers?q=harness)和成本核算视为SWE风格编码智能体评估的首要维度,既提供了完整基准测试 (https://huggingface.co/papers?q=benchmark),也提供了低成本参考集用于可重复比较。数据可在 https://github.com/opensquilla/claw-swe-bench (https://huggingface.co/papers?q=swe-bench) 和 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench) 获取。

查看arXiv页面 (https://arxiv.org/abs/2606.12344) 查看PDF (https://arxiv.org/pdf/2606.12344) 项目页面 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench) GitHub4 (https://github.com/opensquilla/claw-swe-bench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12344)

在你的智能体中获取此论文:

hf papers read 2606\.12344

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接此论文

在模型的README.md中引用arxiv.org/abs/2606.12344以在此页面建立链接。

引用此论文的数据集1

TokenRhythm/Claw-SWE-Bench 查看器 • 更新于约8小时前 • 430 • 2 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)

引用此论文的Space0

暂无Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.12344以在此页面建立链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。