open-world-evaluations

标签

Cards List
#open-world-evaluations

用于衡量前沿AI能力的开放世界评估

arXiv cs.AI · 2026-05-22 缓存

本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈