@no_stp_on_snek: 有人会晃着成绩卡对我说：9B模型在编程基准测试中碾压了它的基础模型（SWE-bench 69 vs 53）。确实如此。但关于……

X AI KOLs Following 2026/06/28 22:57 新闻

coding-benchmarks swe-bench model-evaluation twitter-discussion 9b-model

摘要

一位评论员讨论了9B模型在编程基准测试中的表现，指出虽然在SWE-bench上它击败了基础模型（69 vs 53），但在行为测试和长程测试中优势缩小，说明在基准分布之外收益有限。

有人会晃着成绩卡对我说：9B模型在编程基准测试中碾压了它的基础模型（SWE-bench 69 vs 53）。确实如此。但在我保留的行为测试和长程测试中，这种胜利缩小为势均力敌。一旦你脱离基准分布，差距就会缩小。这就是为什么我不单独相信公开基准测试。

查看原文

查看缓存全文

缓存时间: 2026/06/30 07:41

有人会拿这个数据来压我：9B模型在编程基准测试上完胜其基础版（SWE-bench 69 vs 53）。

确实如此。但在我的保留行为测试和长周期测试中，这个优势就缩小到了旗鼓相当的程度。一旦偏离基准测试的分布区间，差距就开始收窄。

这正是我不单独信任公开基准测试的原因。

Tom Turney (@no_stp_on_snek): 先说结论：在我看来，它在某些类别上算是“及格“，只是比35B模型要窄一些。你真正买到的是实打实的效率和可持续的编码连贯性，而不是全面超越基础版的升级。

我在Ornith-1.0的小兄弟上也跑了同样的质疑测试——

相似文章

X AI KOLs Timeline

一款新的35B编码模型Ornith-1.0与Qwen3.6-35B在自定义测试中进行了对比。用户发现Ornith-1.0在长期自主编码方面确实更强，能够抵抗不良上下文并完成大型任务，但它更加谨慎和冗长，有时会对简单请求过度限制。

X AI KOLs Following

作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比，发现RL后训练提升了token效率和持续编码的一致性，但牺牲了单轮判断能力和对误导输入的鲁棒性，使得9B版本相较于35B版本升级幅度更窄。

X AI KOLs Timeline

一个8人团队发布了采用Apache 2.0许可的30B-A3B编码模型，其性能与Claude Haiku 4.5相当，并在Artificial Analysis Coding Index上击败了NVIDIA的120B-A12B Nemotron 3 Super。

X AI KOLs Timeline

Nanbeige 4.1，一个3B模型，在编码任务中专注于算法效率，超越了Qwen3-30b-A3b和Qwen 3.5 4b，实现了600多次工具调用的长时任务。

X AI KOLs Timeline

发布了名为Qwopus3.5-9B-Coder的新型9B微调模型，该模型针对工具调用和智能体编码工作流进行了优化，在SWE-bench和HermesAgent-20测试中取得了出色成绩，同时可在经济实惠的硬件上运行。