benchmark-critique

#benchmark-critique

M3在SWE-Bench上得分不错，但让我印象深刻的并非分数，而是那些无法用基准测试衡量的东西。

Reddit r/AI_Agents ↗ · 17小时前

M3在基准测试中取得了不错成绩，但其真正令人印象深刻的是在进行代码更改前进行风险评估和“事前验尸”分析的能力，突显了在混乱的遗留仓库中进行重构时更为谨慎和彻底的方法。

0 人收藏 0 人点赞

#benchmark-critique

Reddit r/MachineLearning ↗ · 2026-05-25

对著名的METR AI时间跨度图的详细批评揭示了大量严重的方法论错误，包括有偏差的人类基线、未测量的数据以及测试-训练数据污染，削弱了其关于AI能力的结论。

0 人收藏 0 人点赞