EnterpriseClawBench:基于真实工作会话的智能体基准测试
摘要
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
查看缓存全文
缓存时间: 2026/06/23 05:40
论文页面 - EnterpriseClawBench: 基于真实工作场景的智能体基准测试
来源:https://huggingface.co/papers/2606.23654
摘要
EnterpriseClawBench 提供了一个基于真实工作会话的企业智能体基准测试,包含 852 个可复现任务,强调超越单一性能分数的综合评估指标。
企业智能体越来越多地在工作空间中运作:它们读取异构文件、调用工具、并交付业务制品。我们提出了 EnterpriseClawBench,这是一个从专有、真实世界的智能体会话构建的企业智能体基准测试(企业智能体基准测试)。EnterpriseClawBench 从一个大型工作空间会话档案(工作空间会话)出发,生成了 852 个可复现任务(可复现任务),每个任务都配有复原的测试环境、重写的提示词、角色类别、技能子类、硬性规则以及语义评估标准。由于这些会话包含企业内部内容,我们不会发布基准测试数据;相反,我们的可复用贡献在于构建与评估协议。在 EnterpriseClawBench 上,最佳配置仅达到 0.663(Codex 搭配 GPT-5.5)。这些结果表明,企业智能体评估必须报告测试框架-模型组合(测试框架-模型组合)、制品交付(制品交付)、视觉质量、成本、运行时以及技能迁移行为(技能迁移行为),而不是将性能压缩为单一分数。
代码:https://github.com/FrontisAI/EnterpriseClawBench
查看 arXiv 页面 | 查看 PDF | 项目页面 | GitHub | 添加到收藏
在您的智能体中获取此论文:
hf papers read 2606.23654
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
请在一个模型的 README.md 中引用 arxiv.org/abs/2606.23654,以从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.23654,以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.23654,以从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到一个收藏集(新建收藏集),以从此页面链接。
相似文章
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
ClawForge:为命令行智能体生成可执行的交互式基准测试
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。
OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试
本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。
ClawBench: AI代理能否完成日常在线任务?
ClawBench是一个评估AI代理在日常在线任务中表现的基准。此次V2更新带来了改进或新任务。
WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。