open-world-evaluations

#open-world-evaluations

用于衡量前沿AI能力的开放世界评估

arXiv cs.AI ↗ · 2026-05-22 缓存

本文认为传统基准测试既高估又低估了前沿AI能力，并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目，并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。

0 人收藏 0 人点赞