process-anomalies

标签

Cards List
#process-anomalies

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI · 2026-05-29 缓存

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈