metr

标签

Cards List
#metr

@swyx:终于发布了!!!@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following · 昨天 缓存

FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。

0 人收藏 0 人点赞
#metr

著名的METR AI时间跨度图存在大量严重错误[D]

Reddit r/MachineLearning · 2026-05-25

对著名的METR AI时间跨度图的详细批评揭示了大量严重的方法论错误,包括有偏差的人类基线、未测量的数据以及测试-训练数据污染,削弱了其关于AI能力的结论。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈