benchmark-critique

标签

Cards List
#benchmark-critique

M3在SWE-Bench上得分不错,但让我印象深刻的并非分数,而是那些无法用基准测试衡量的东西。

Reddit r/AI_Agents · 23小时前

M3在基准测试中取得了不错成绩,但其真正令人印象深刻的是在进行代码更改前进行风险评估和“事前验尸”分析的能力,突显了在混乱的遗留仓库中进行重构时更为谨慎和彻底的方法。

0 人收藏 0 人点赞
#benchmark-critique

著名的METR AI时间跨度图存在大量严重错误[D]

Reddit r/MachineLearning · 2026-05-25

对著名的METR AI时间跨度图的详细批评揭示了大量严重的方法论错误,包括有偏差的人类基线、未测量的数据以及测试-训练数据污染,削弱了其关于AI能力的结论。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈