WildClawBench：真实世界长周期智能体评估基准

Hugging Face Daily Papers 2026/05/11 00:00 论文

benchmark agent-evaluation long-horizon cli multimodal open-source

摘要

WildClawBench 使用真实的命令行界面环境和实际工具，评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示，即使最佳模型也仅达到62.2%的准确率，表明长周期智能体评估仍具有挑战性。

大型语言模型和视觉-语言模型越来越多地驱动着通过命令行界面（CLI）工具框架代表用户执行操作的智能体。然而，大多数智能体基准测试仍依赖于合成沙盒、短周期任务、模拟服务API和最终答案检查，这无法确定智能体是否能在其实际部署的运行环境中完成真实的长周期工作。本文提出了 WildClawBench，一个原生运行时的基准测试，包含60项人工编写的中英双语多模态任务，涵盖六个主题类别。每项任务平均需要约8分钟的实际时间和超过20次工具调用，并在一个可复现的 Docker 容器中运行，该容器托管着真实的 CLI 智能体工具框架（OpenClaw、Claude Code、Codex 或 Hermes Agent），并能够使用实际工具而非模拟服务。评分采用混合方式，结合了确定性规则检查、环境状态副作用审计以及用于语义验证的 LLM/VLM 判断器。在19个前沿模型中，表现最佳的 Claude Opus 4.7 在 OpenClaw 框架下仅达到62.2%的总体准确率，而其他所有模型均低于60%，且仅更换工具框架就可使同一模型的得分波动高达18个百分点。这些结果表明，在当前前沿模型上，原生运行时的长周期智能体评估仍是一项远未解决的任务。我们发布了任务、代码和容器化工具，以支持可复现的评估。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - WildClawBench：面向真实世界、长周期智能体评估的基准测试

来源：https://huggingface.co/papers/2605.10912 作者：

，

摘要

WildClawBench 评估语言模型和多模态语言模型在真实长周期任务上的表现，这些任务使用实际 CLI 环境，并配备真实工具，而非合成沙箱。

大型语言模型和多模态语言模型越来越多地驱动着基于命令行界面 (CLI) 框架、代表用户行动的智能体。然而，大多数智能体基准测试仍然依赖于合成沙箱、短周期任务、模拟服务 API 以及最终答案检查，这让我们无法判断智能体能否在其实际部署的运行环境中完成真实的长周期工作。本文提出了 WildClawBench，一个原生运行环境的基准测试，包含60个由人工编写的、中英双语的、多模态任务，涵盖六个主题类别。每个任务平均需要约8分钟的挂钟时间，以及超过20次工具调用，并在一个可复现的 Docker 容器内运行，该容器托管一个真实的 CLI 智能体框架（OpenClaw、Claude Code、Codex 或 Hermes Agent），并可使用真实工具而非模拟服务。评分采用混合方式，结合了基于规则的确定性检查、环境状态副作用审计，以及用于语义验证的 LLM/VLM 评判。在19个前沿模型中，表现最佳的 Claude Opus 4.7 在 OpenClaw 框架下整体得分仅为 62.2%，而其他所有模型均低于 60%；仅更换框架就能使同一个模型的得分相差高达 18 个百分点。这些结果表明，对于当前前沿模型而言，长周期、原生运行环境的智能体评估仍然是一个远未解决的问题。我们公开了任务、代码和容器化的工具，以支持可复现的评估。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10912) 查看 PDF (https://arxiv.org/pdf/2605.10912) 项目页面 (https://internlm.github.io/WildClawBench/) GitHub364 (https://github.com/internlm/WildClawBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10912)

在您的智能体中获取此论文：

hf papers read 2605.10912

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.10912 以在此页面建立链接。

引用此论文的数据集1

internlm/WildClawBench 更新于12分钟前 • 7.56k • 59 (https://huggingface.co/datasets/internlm/WildClawBench)

引用此论文的Space0

无Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2605.10912 以在此页面建立链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

WildClawBench：真实世界长周期智能体评估基准

论文页面 - WildClawBench：面向真实世界、长周期智能体评估的基准测试

摘要

引用此论文的模型0

引用此论文的数据集1

internlm/WildClawBench 更新于12分钟前 • 7.56k • 59 (https://huggingface.co/datasets/internlm/WildClawBench)

引用此论文的Space0

包含此论文的收藏集0

相似文章

ClawForge：为命令行智能体生成可执行的交互式基准测试

Agent-ValueBench：一个评估智能体价值观的综合基准

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

我制作了一个小型开源基准测试运行器，用于在我自己的真实工作流中测试OpenClaw智能体。

提交意见反馈