WildClawBench:真实世界长周期智能体评估基准
摘要
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - WildClawBench:面向真实世界、长周期智能体评估的基准测试
来源:https://huggingface.co/papers/2605.10912 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
WildClawBench 评估语言模型和多模态语言模型在真实长周期任务上的表现,这些任务使用实际 CLI 环境,并配备真实工具,而非合成沙箱。
大型语言模型和多模态语言模型越来越多地驱动着基于命令行界面 (CLI) 框架、代表用户行动的智能体。然而,大多数智能体基准测试仍然依赖于合成沙箱、短周期任务、模拟服务 API 以及最终答案检查,这让我们无法判断智能体能否在其实际部署的运行环境中完成真实的长周期工作。本文提出了 WildClawBench,一个原生运行环境的基准测试,包含60个由人工编写的、中英双语的、多模态任务,涵盖六个主题类别。每个任务平均需要约8分钟的挂钟时间,以及超过20次工具调用,并在一个可复现的 Docker 容器内运行,该容器托管一个真实的 CLI 智能体框架(OpenClaw、Claude Code、Codex 或 Hermes Agent),并可使用真实工具而非模拟服务。评分采用混合方式,结合了基于规则的确定性检查、环境状态副作用审计,以及用于语义验证的 LLM/VLM 评判。在19个前沿模型中,表现最佳的 Claude Opus 4.7 在 OpenClaw 框架下整体得分仅为 62.2%,而其他所有模型均低于 60%;仅更换框架就能使同一个模型的得分相差高达 18 个百分点。这些结果表明,对于当前前沿模型而言,长周期、原生运行环境的智能体评估仍然是一个远未解决的问题。我们公开了任务、代码和容器化的工具,以支持可复现的评估。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10912) 查看 PDF (https://arxiv.org/pdf/2605.10912) 项目页面 (https://internlm.github.io/WildClawBench/) GitHub364 (https://github.com/internlm/WildClawBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10912)
在您的智能体中获取此论文:
hf papers read 2605.10912
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.10912 以在此页面建立链接。
引用此论文的数据集1
internlm/WildClawBench 更新于12分钟前 • 7.56k • 59 (https://huggingface.co/datasets/internlm/WildClawBench)
引用此论文的Space0
无Space关联此论文
请在Space README.md中引用 arxiv.org/abs/2605.10912 以在此页面建立链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
ClawForge:为命令行智能体生成可执行的交互式基准测试
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
我制作了一个小型开源基准测试运行器,用于在我自己的真实工作流中测试OpenClaw智能体。
一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。