ClawBench: AI代理能否完成日常在线任务？

Reddit r/openclaw 2026/05/20 22:37 工具

benchmark ai-agents evaluation everyday-tasks update

摘要

ClawBench是一个评估AI代理在日常在线任务中表现的基准。此次V2更新带来了改进或新任务。

V2更新

查看原文

相似文章

Hugging Face Daily Papers

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试，涵盖来自10个领域的40个任务，结果显示当前AI智能体和LLM的重新发现准确率较低，其中Claude Code平均得分为21.5，Claude-Opus-4.7平均得分为20.7（在可能的总分中）。

Hugging Face Daily Papers

介绍了Claw-Anything，这是一个基准测试，用于评估始终在线的个人AI助手在涵盖长时间跨度、多种服务和多样化设备交互的综合用户活动上下文中的表现。实验表明，即使是GPT-5.5也仅达到34.5%的pass@1，突显了当前智能体能力与始终在线辅助需求之间的显著差距。

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具，评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示，即使最佳模型也仅达到62.2%的准确率，表明长周期智能体评估仍具有挑战性。

arXiv cs.AI

本文介绍了OpenClawBench，这是一个大规模数据集，用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败，9.33%通过oracle测试的执行仍包含异常，并通过一种新颖的分类法提供了结构化监督。

arXiv cs.LG

ResearchClawBench是一个评估端到端自主科学研究的基准，涵盖10个领域的40个任务，采用专家精心设计的评分标准。当前系统得分较低，凸显了实现可靠自主科学发现的挑战。