@no_stp_on_snek: 有人会晃着成绩卡对我说:9B模型在编程基准测试中碾压了它的基础模型(SWE-bench 69 vs 53)。确实如此。但关于……
摘要
一位评论员讨论了9B模型在编程基准测试中的表现,指出虽然在SWE-bench上它击败了基础模型(69 vs 53),但在行为测试和长程测试中优势缩小,说明在基准分布之外收益有限。
查看缓存全文
缓存时间: 2026/06/30 07:41
有人会拿这个数据来压我:9B模型在编程基准测试上完胜其基础版(SWE-bench 69 vs 53)。
确实如此。但在我的保留行为测试和长周期测试中,这个优势就缩小到了旗鼓相当的程度。一旦偏离基准测试的分布区间,差距就开始收窄。
这正是我不单独信任公开基准测试的原因。
Tom Turney (@no_stp_on_snek): 先说结论:在我看来,它在某些类别上算是“及格“,只是比35B模型要窄一些。你真正买到的是实打实的效率和可持续的编码连贯性,而不是全面超越基础版的升级。
我在Ornith-1.0的小兄弟上也跑了同样的质疑测试——
相似文章
@no_stp_on_snek: 一款新的35B编码模型发布了(Ornith-1.0),一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……
一款新的35B编码模型Ornith-1.0与Qwen3.6-35B在自定义测试中进行了对比。用户发现Ornith-1.0在长期自主编码方面确实更强,能够抵抗不良上下文并完成大型任务,但它更加谨慎和冗长,有时会对简单请求过度限制。
@no_stp_on_snek: 结论先行:在某些类别中,它算是“及格”了,但比35B适用范围更窄。你实际买到的是真正的……
作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比,发现RL后训练提升了token效率和持续编码的一致性,但牺牲了单轮判断能力和对误导输入的鲁棒性,使得9B版本相较于35B版本升级幅度更窄。
@LeonEnglaender: 我们核心代码团队只有8个人,我们的30B-A3B模型与Claude Haiku 4.5性能相当,并超越了NVIDIA…
一个8人团队发布了采用Apache 2.0许可的30B-A3B编码模型,其性能与Claude Haiku 4.5相当,并在Artificial Analysis Coding Index上击败了NVIDIA的120B-A12B Nemotron 3 Super。
@xdotli: 我的朋友 @xeophon 认为编码问题已经解决了,这里有一个验证:一个3B模型接受了以算法效率为重点的训练……
Nanbeige 4.1,一个3B模型,在编码任务中专注于算法效率,超越了Qwen3-30b-A3b和Qwen 3.5 4b,实现了600多次工具调用的长时任务。
@KyleHessling1: 大家好,再次见面!我们又有一个非常有趣的9b,这个专门为工具调用和智能体编码…
发布了名为Qwopus3.5-9B-Coder的新型9B微调模型,该模型针对工具调用和智能体编码工作流进行了优化,在SWE-bench和HermesAgent-20测试中取得了出色成绩,同时可在经济实惠的硬件上运行。