@no_stp_on_snek: 有人会晃着成绩卡对我说:9B模型在编程基准测试中碾压了它的基础模型(SWE-bench 69 vs 53)。确实如此。但关于……

X AI KOLs Following 新闻

摘要

一位评论员讨论了9B模型在编程基准测试中的表现,指出虽然在SWE-bench上它击败了基础模型(69 vs 53),但在行为测试和长程测试中优势缩小,说明在基准分布之外收益有限。

有人会晃着成绩卡对我说:9B模型在编程基准测试中碾压了它的基础模型(SWE-bench 69 vs 53)。 确实如此。但在我保留的行为测试和长程测试中,这种胜利缩小为势均力敌。一旦你脱离基准分布,差距就会缩小。 这就是为什么我不单独相信公开基准测试。
查看原文
查看缓存全文

缓存时间: 2026/06/30 07:41

有人会拿这个数据来压我:9B模型在编程基准测试上完胜其基础版(SWE-bench 69 vs 53)。

确实如此。但在我的保留行为测试和长周期测试中,这个优势就缩小到了旗鼓相当的程度。一旦偏离基准测试的分布区间,差距就开始收窄。

这正是我不单独信任公开基准测试的原因。

Tom Turney (@no_stp_on_snek): 先说结论:在我看来,它在某些类别上算是“及格“,只是比35B模型要窄一些。你真正买到的是实打实的效率和可持续的编码连贯性,而不是全面超越基础版的升级。

我在Ornith-1.0的小兄弟上也跑了同样的质疑测试——

相似文章