ClawBench: AI代理能否完成日常在线任务?
摘要
ClawBench是一个评估AI代理在日常在线任务中表现的基准。此次V2更新带来了改进或新任务。
V2更新
相似文章
ResearchClawBench:面向端到端自主科学研究的基准测试
ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。
Claw-Anything: 在更广泛的用户数字世界访问权限下,对始终在线个人助手进行基准测试
介绍了Claw-Anything,这是一个基准测试,用于评估始终在线的个人AI助手在涵盖长时间跨度、多种服务和多样化设备交互的综合用户活动上下文中的表现。实验表明,即使是GPT-5.5也仅达到34.5%的pass@1,突显了当前智能体能力与始终在线辅助需求之间的显著差距。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试
本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。
ResearchClawBench:面向端到端自主科学研究的标准基准
ResearchClawBench是一个评估端到端自主科学研究的基准,涵盖10个领域的40个任务,采用专家精心设计的评分标准。当前系统得分较低,凸显了实现可靠自主科学发现的挑战。