标签
本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。