Claw-SWE-Bench：一个用于评估OpenClaw风格编码任务代理框架的基准测试

Hugging Face Daily Papers 2026/06/10 00:00 论文

benchmark coding-agents swe-bench openclaw evaluation adapter-protocol

摘要

Claw-SWE-Bench是一个新的基准测试和适配器协议，它标准化了在SWE-bench风格任务上比较不同编码代理的评估条件，揭示了适配器设计对性能和成本有显著影响。

通用代理（如OpenClaw）越来越多地被用作自主工具使用者，但它们的编码能力在SWE-bench下难以衡量：一个通用代理本身并不满足评分所需的干净Docker工作区、补丁和预测合同。我们推出了Claw-SWE-Bench，这是一个多语言SWE-bench风格的基准测试和适配器协议，使得异构代理框架（或称claws）在公平设置下具有可比性，包括固定提示、运行时预算、工作区合同、补丁提取程序和评估器。完整基准测试包含350个GitHub问题解决实例，涵盖8种语言和43个代码库，这些实例来自经过未来提交清理后的SWE-bench-Multilingual和SWE-bench-Verified-Mini。我们还发布了Claw-SWE-Bench Lite以加快验证速度，这是一个包含80个实例的子集，通过一个成本感知、排名感知的过程在17个校准列上选取。在完整基准测试上，使用最小直接差异适配器的OpenClaw仅获得19.1%的Pass@1，而使用完整适配器在相同GLM 5.1主干下达到73.4%，这表明适配器设计对于使OpenClaw风格的框架有效执行编码任务至关重要。在OpenClaw与九种模型的组合测试和五个框架与两种模型的组合测试中，模型选择使Pass@1变化29.4个百分点，在固定模型下框架选择变化27.4个百分点；具有相似准确率的系统在总API成本上可能差异显著。因此，Claw-SWE-Bench将框架和成本核算视为SWE风格编码代理评估的一等轴，提供了完整的基准测试和一个低成本参考集，用于可重复比较。数据可在https://github.com/opensquilla/claw-swe-bench 和 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:38

Paper page - Claw-SWE-Bench: 一个用于评估OpenClaw风格代理工具箱在编码任务上的基准测试

来源：https://huggingface.co/papers/2606.12344 发表于6月10日

提交者 https://huggingface.co/hankaixyz

hankai (https://huggingface.co/hankaixyz) 于6月11日

#3 当日论文 (https://huggingface.co/papers/date/2026-06-11) 作者：

，

摘要

一个新基准和适配器协议，称为Claw-SWE-Bench，通过标准化评估条件并揭示适配器设计对有效代码生成的重要性，实现了多样化编码智能体的公平比较。

通用型代理（如OpenClaw (https://huggingface.co/papers?q=OpenClaw)）越来越多地被用作自主工具使用者，但它们的编码能力在SWE-bench (https://huggingface.co/papers?q=SWE-bench)下难以衡量：通用代理本身并不满足评分所需的干净Docker工作空间、补丁和预测合约。我们引入了Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)，一个多语言SWE-bench (https://huggingface.co/papers?q=SWE-bench)风格的基准测试和适配器协议 (https://huggingface.co/papers?q=adapter%20protocol)，该协议使得异构的代理工具箱 (https://huggingface.co/papers?q=harness)（或称“爪”）在固定提示、运行时预算、工作空间合约、补丁提取流程和评估器这一公平设置下具有可比性。完整的基准测试 (https://huggingface.co/papers?q=benchmark)包含350个GitHub问题解决实例，涵盖8种语言和43个仓库，这些实例来自SWE-bench (https://huggingface.co/papers?q=SWE-bench)-Multilingual和SWE-bench (https://huggingface.co/papers?q=SWE-bench)-Verified-Mini，并在未来提交清理后提取。我们还发布了Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)Lite用于更快的验证，这是一个通过成本感知、排名感知流程从17个校准列中选取的80实例子集。在完整基准测试 (https://huggingface.co/papers?q=benchmark)上，采用最小直接差异适配器的OpenClaw (https://huggingface.co/papers?q=OpenClaw)仅获得19.1%的Pass@1 (https://huggingface.co/papers?q=Pass%401)，而完整适配器在相同GLM 5.1 (https://huggingface.co/papers?q=GLM%205.1)骨干下达到73.4%，这表明适配器设计对于使OpenClaw (https://huggingface.co/papers?q=OpenClaw)风格的工具箱 (https://huggingface.co/papers?q=harness)有效执行编码任务至关重要。在OpenClaw (https://huggingface.co/papers?q=OpenClaw)的九模型扫描和五工具箱（爪）的两模型扫描中，模型选择使Pass@1 (https://huggingface.co/papers?q=Pass%401)变化29.4个百分点，而固定模型下工具箱 (https://huggingface.co/papers?q=harness)选择变化27.4个百分点；准确率相近的系统在总API成本 (https://huggingface.co/papers?q=API%20cost)上可能差异显著。因此，Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)将工具箱 (https://huggingface.co/papers?q=harness)和成本核算视为SWE风格编码智能体评估的首要维度，既提供了完整基准测试 (https://huggingface.co/papers?q=benchmark)，也提供了低成本参考集用于可重复比较。数据可在 https://github.com/opensquilla/claw-swe-bench (https://huggingface.co/papers?q=swe-bench) 和 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench) 获取。

查看arXiv页面 (https://arxiv.org/abs/2606.12344) 查看PDF (https://arxiv.org/pdf/2606.12344) 项目页面 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench) GitHub4 (https://github.com/opensquilla/claw-swe-bench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12344)

在你的智能体中获取此论文：

hf papers read 2606\.12344

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接此论文

在模型的README.md中引用arxiv.org/abs/2606.12344以在此页面建立链接。

引用此论文的数据集1

TokenRhythm/Claw-SWE-Bench 查看器 • 更新于约8小时前 • 430 • 2 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)

引用此论文的Space0

暂无Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.12344以在此页面建立链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

Claw-SWE-Bench：一个用于评估OpenClaw风格编码任务代理框架的基准测试

Paper page - Claw-SWE-Bench: 一个用于评估OpenClaw风格代理工具箱在编码任务上的基准测试

摘要

引用此论文的模型0

引用此论文的数据集1

TokenRhythm/Claw-SWE-Bench 查看器 • 更新于约8小时前 • 430 • 2 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)

引用此论文的Space0

包含此论文的收藏集0

相似文章

我制作了一个小型开源基准测试运行器，用于在我自己的真实工作流中测试OpenClaw智能体。

OpenClawBench：真实世界代理执行轨迹中过程侧异常的基准测试

WildClawBench：真实世界长周期智能体评估基准

ClawForge：为命令行智能体生成可执行的交互式基准测试

@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755

提交意见反馈