EnterpriseClawBench：基于真实工作会话的智能体基准测试

Hugging Face Daily Papers 2026/06/22 00:00 论文

摘要

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准，包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

企业智能体越来越多地运行在办公空间中：它们读取异构文件、调用工具、生成业务制品。我们推出了 EnterpriseClawBench，这是一个从专有的真实世界智能体会话构建的企业智能体基准。基于大量工作会话档案，EnterpriseClawBench 生成了 852 个可复现的任务，每个任务都配有恢复后的夹具、重写的提示、角色类别、技能子类、硬规则以及语义评分标准。由于会话包含企业内部内容，我们不对外发布基准数据；相反，我们可复用的贡献在于构建与评估协议。在 EnterpriseClawBench 上，最佳配置的得分仅为 0.663（Codex 搭配 GPT-5.5）。这些结果表明，企业智能体评估必须报告测试平台-模型组合、制品交付、视觉质量、成本、运行时以及技能迁移行为，而非将性能压缩为单一分数。代码：https://github.com/FrontisAI/EnterpriseClawBench

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - EnterpriseClawBench: 基于真实工作场景的智能体基准测试

来源：https://huggingface.co/papers/2606.23654

摘要

EnterpriseClawBench 提供了一个基于真实工作会话的企业智能体基准测试，包含 852 个可复现任务，强调超越单一性能分数的综合评估指标。

企业智能体越来越多地在工作空间中运作：它们读取异构文件、调用工具、并交付业务制品。我们提出了 EnterpriseClawBench，这是一个从专有、真实世界的智能体会话构建的企业智能体基准测试（企业智能体基准测试）。EnterpriseClawBench 从一个大型工作空间会话档案（工作空间会话）出发，生成了 852 个可复现任务（可复现任务），每个任务都配有复原的测试环境、重写的提示词、角色类别、技能子类、硬性规则以及语义评估标准。由于这些会话包含企业内部内容，我们不会发布基准测试数据；相反，我们的可复用贡献在于构建与评估协议。在 EnterpriseClawBench 上，最佳配置仅达到 0.663（Codex 搭配 GPT-5.5）。这些结果表明，企业智能体评估必须报告测试框架-模型组合（测试框架-模型组合）、制品交付（制品交付）、视觉质量、成本、运行时以及技能迁移行为（技能迁移行为），而不是将性能压缩为单一分数。

代码：https://github.com/FrontisAI/EnterpriseClawBench

查看 arXiv 页面 | 查看 PDF | 项目页面 | GitHub | 添加到收藏

在您的智能体中获取此论文：

hf papers read 2606.23654

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在一个模型的 README.md 中引用 arxiv.org/abs/2606.23654，以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.23654，以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.23654，以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到一个收藏集（新建收藏集），以从此页面链接。

EnterpriseClawBench：基于真实工作会话的智能体基准测试

论文页面 - EnterpriseClawBench: 基于真实工作场景的智能体基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

WildClawBench：真实世界长周期智能体评估基准

ClawForge：为命令行智能体生成可执行的交互式基准测试

OpenClawBench：真实世界代理执行轨迹中过程侧异常的基准测试

ClawBench: AI代理能否完成日常在线任务？

WeaveBench：混合界面计算机使用代理的长时域真实世界基准测试

提交意见反馈