标签
FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。
对著名的METR AI时间跨度图的详细批评揭示了大量严重的方法论错误,包括有偏差的人类基线、未测量的数据以及测试-训练数据污染,削弱了其关于AI能力的结论。