Claw-SWE-Bench:一个用于评估OpenClaw风格编码任务代理框架的基准测试
摘要
Claw-SWE-Bench是一个新的基准测试和适配器协议,它标准化了在SWE-bench风格任务上比较不同编码代理的评估条件,揭示了适配器设计对性能和成本有显著影响。
查看缓存全文
缓存时间: 2026/06/11 13:38
Paper page - Claw-SWE-Bench: 一个用于评估OpenClaw风格代理工具箱在编码任务上的基准测试
来源:https://huggingface.co/papers/2606.12344 发表于6月10日
·
提交者 https://huggingface.co/hankaixyz
hankai (https://huggingface.co/hankaixyz) 于6月11日
#3 当日论文 (https://huggingface.co/papers/date/2026-06-11) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一个新基准和适配器协议,称为Claw-SWE-Bench,通过标准化评估条件并揭示适配器设计对有效代码生成的重要性,实现了多样化编码智能体的公平比较。
通用型代理(如OpenClaw (https://huggingface.co/papers?q=OpenClaw))越来越多地被用作自主工具使用者,但它们的编码能力在SWE-bench (https://huggingface.co/papers?q=SWE-bench)下难以衡量:通用代理本身并不满足评分所需的干净Docker工作空间、补丁和预测合约。我们引入了Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench),一个多语言SWE-bench (https://huggingface.co/papers?q=SWE-bench)风格的基准测试和适配器协议 (https://huggingface.co/papers?q=adapter%20protocol),该协议使得异构的代理工具箱 (https://huggingface.co/papers?q=harness)(或称“爪”)在固定提示、运行时预算、工作空间合约、补丁提取流程和评估器这一公平设置下具有可比性。完整的基准测试 (https://huggingface.co/papers?q=benchmark)包含350个GitHub问题解决实例,涵盖8种语言和43个仓库,这些实例来自SWE-bench (https://huggingface.co/papers?q=SWE-bench)-Multilingual和SWE-bench (https://huggingface.co/papers?q=SWE-bench)-Verified-Mini,并在未来提交清理后提取。我们还发布了Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)Lite用于更快的验证,这是一个通过成本感知、排名感知流程从17个校准列中选取的80实例子集。在完整基准测试 (https://huggingface.co/papers?q=benchmark)上,采用最小直接差异适配器的OpenClaw (https://huggingface.co/papers?q=OpenClaw)仅获得19.1%的Pass@1 (https://huggingface.co/papers?q=Pass%401),而完整适配器在相同GLM 5.1 (https://huggingface.co/papers?q=GLM%205.1)骨干下达到73.4%,这表明适配器设计对于使OpenClaw (https://huggingface.co/papers?q=OpenClaw)风格的工具箱 (https://huggingface.co/papers?q=harness)有效执行编码任务至关重要。在OpenClaw (https://huggingface.co/papers?q=OpenClaw)的九模型扫描和五工具箱(爪)的两模型扫描中,模型选择使Pass@1 (https://huggingface.co/papers?q=Pass%401)变化29.4个百分点,而固定模型下工具箱 (https://huggingface.co/papers?q=harness)选择变化27.4个百分点;准确率相近的系统在总API成本 (https://huggingface.co/papers?q=API%20cost)上可能差异显著。因此,Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench)将工具箱 (https://huggingface.co/papers?q=harness)和成本核算视为SWE风格编码智能体评估的首要维度,既提供了完整基准测试 (https://huggingface.co/papers?q=benchmark),也提供了低成本参考集用于可重复比较。数据可在 https://github.com/opensquilla/claw-swe-bench (https://huggingface.co/papers?q=swe-bench) 和 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench (https://huggingface.co/papers?q=SWE-Bench) 获取。
查看arXiv页面 (https://arxiv.org/abs/2606.12344) 查看PDF (https://arxiv.org/pdf/2606.12344) 项目页面 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench) GitHub4 (https://github.com/opensquilla/claw-swe-bench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12344)
在你的智能体中获取此论文:
hf papers read 2606\.12344
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型链接此论文
在模型的README.md中引用arxiv.org/abs/2606.12344以在此页面建立链接。
引用此论文的数据集1
TokenRhythm/Claw-SWE-Bench 查看器 • 更新于约8小时前 • 430 • 2 (https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)
引用此论文的Space0
暂无Space链接此论文
在Space的README.md中引用arxiv.org/abs/2606.12344以在此页面建立链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
我制作了一个小型开源基准测试运行器,用于在我自己的真实工作流中测试OpenClaw智能体。
一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。
OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试
本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
ClawForge:为命令行智能体生成可执行的交互式基准测试
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。
@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755
AgentScope团队推出了PawBench,这是一个用于评估模型与代理框架综合性能的基准测试。通过对4,050个测试单元的分析,结果表明框架选择的影响堪比模型升级。