标签
M3在基准测试中取得了不错成绩,但其真正令人印象深刻的是在进行代码更改前进行风险评估和“事前验尸”分析的能力,突显了在混乱的遗留仓库中进行重构时更为谨慎和彻底的方法。
对著名的METR AI时间跨度图的详细批评揭示了大量严重的方法论错误,包括有偏差的人类基线、未测量的数据以及测试-训练数据污染,削弱了其关于AI能力的结论。