outcome-process-gap

#outcome-process-gap

OpenClawBench：真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了OpenClawBench，这是一个大规模数据集，用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败，9.33%通过oracle测试的执行仍包含异常，并通过一种新颖的分类法提供了结构化监督。

0 人收藏 0 人点赞