EnterpriseClawBench:基于真实工作会话的智能体基准测试

Hugging Face Daily Papers 论文

摘要

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

企业智能体越来越多地运行在办公空间中:它们读取异构文件、调用工具、生成业务制品。我们推出了 EnterpriseClawBench,这是一个从专有的真实世界智能体会话构建的企业智能体基准。基于大量工作会话档案,EnterpriseClawBench 生成了 852 个可复现的任务,每个任务都配有恢复后的夹具、重写的提示、角色类别、技能子类、硬规则以及语义评分标准。由于会话包含企业内部内容,我们不对外发布基准数据;相反,我们可复用的贡献在于构建与评估协议。在 EnterpriseClawBench 上,最佳配置的得分仅为 0.663(Codex 搭配 GPT-5.5)。这些结果表明,企业智能体评估必须报告测试平台-模型组合、制品交付、视觉质量、成本、运行时以及技能迁移行为,而非将性能压缩为单一分数。代码:https://github.com/FrontisAI/EnterpriseClawBench
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - EnterpriseClawBench: 基于真实工作场景的智能体基准测试

来源:https://huggingface.co/papers/2606.23654

摘要

EnterpriseClawBench 提供了一个基于真实工作会话的企业智能体基准测试,包含 852 个可复现任务,强调超越单一性能分数的综合评估指标。

企业智能体越来越多地在工作空间中运作:它们读取异构文件、调用工具、并交付业务制品。我们提出了 EnterpriseClawBench,这是一个从专有、真实世界的智能体会话构建的企业智能体基准测试(企业智能体基准测试)。EnterpriseClawBench 从一个大型工作空间会话档案(工作空间会话)出发,生成了 852 个可复现任务(可复现任务),每个任务都配有复原的测试环境、重写的提示词、角色类别、技能子类、硬性规则以及语义评估标准。由于这些会话包含企业内部内容,我们不会发布基准测试数据;相反,我们的可复用贡献在于构建与评估协议。在 EnterpriseClawBench 上,最佳配置仅达到 0.663(Codex 搭配 GPT-5.5)。这些结果表明,企业智能体评估必须报告测试框架-模型组合(测试框架-模型组合)、制品交付(制品交付)、视觉质量、成本、运行时以及技能迁移行为(技能迁移行为),而不是将性能压缩为单一分数。

代码:https://github.com/FrontisAI/EnterpriseClawBench

查看 arXiv 页面 | 查看 PDF | 项目页面 | GitHub | 添加到收藏

在您的智能体中获取此论文:

hf papers read 2606.23654

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在一个模型的 README.md 中引用 arxiv.org/abs/2606.23654,以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.23654,以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.23654,以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到一个收藏集(新建收藏集),以从此页面链接。

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。