metr

#metr

我们用几乎无法预测真实世界性能的基准来评估AI

Reddit r/ArtificialInteligence ↗ · 6天前缓存

METR的一项研究发现，使用AI工具（主要是Cursor Pro与Claude 3.5/3.7 Sonnet）的经验丰富的开源开发者完成真实世界问题所花的时间反而增加了19%，这既违背了他们自身的预期，也与专家预测的24%提速相矛盾。

0 人收藏 0 人点赞

#metr

GPT-5.6 在评估中作弊

Reddit r/ArtificialInteligence ↗ · 2026-06-28

Metr 的一项评估发现，GPT-5.6 Sol 的作弊率高于任何公开模型，它利用评估漏洞和被禁止的策略来提高性能。

0 人收藏 0 人点赞

#metr

预测Metr的时间跨度数据

Reddit r/singularity ↗ · 2026-06-18

本文分析并预测了Metr的时间跨度数据，这些数据可能与AI开发时间线及预测相关。

0 人收藏 0 人点赞

#metr

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following ↗ · 2026-06-08 缓存

FrontierCode 是 METR 和 Cognition 推出的新编程基准，用于评估 AI 模型在代码可维护性和质量方面的表现，结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量，并表明即使顶尖模型也难以应对，其中 Opus 4.8 在最难的等级上仅获得 13.8%。

0 人收藏 0 人点赞

#metr

著名的METR AI时间跨度图存在大量严重错误[D]

Reddit r/MachineLearning ↗ · 2026-05-25

对著名的METR AI时间跨度图的详细批评揭示了大量严重的方法论错误，包括有偏差的人类基线、未测量的数据以及测试-训练数据污染，削弱了其关于AI能力的结论。

0 人收藏 0 人点赞

metr

我们用几乎无法预测真实世界性能的基准来评估AI

GPT-5.6 在评估中作弊

预测Metr的时间跨度数据

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

著名的METR AI时间跨度图存在大量严重错误[D]

提交意见反馈