@no_stp_on_snek: 结论先行：在某些类别中，它算是“及格”了，但比35B适用范围更窄。你实际买到的是真正的……

X AI KOLs Following 2026/06/27 13:22 模型

model-comparison efficiency coding rl-post-training qwen ornith-1-0 9b-model

摘要

作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比，发现RL后训练提升了token效率和持续编码的一致性，但牺牲了单轮判断能力和对误导输入的鲁棒性，使得9B版本相较于35B版本升级幅度更窄。

结论先行：在某些类别中，它算是“及格”了，但比35B适用范围更窄。你实际买到的是真正的效率和持续编码一致性，而不是对基础模型的全面升级。我对Ornith-1.0的小兄弟——9B版本，与Qwen3.5-9B进行了同样的 skeptical battery 测试（译者注：指一系列质疑性测试）。在任何人说3.5-9B过时之前：这正是关键所在。Ornith-9B是Qwen-3.5的衍生模型，所以3.5-9B就是它自己的基础模型。将其与更新的模型比较，只能衡量血缘关系；而与其基础模型比较，则能准确隔离出RL后训练带来的变化，这才是这里唯一值得问的问题。（目前也没有可用的新Gemma 9B模型，自Gemma-2以来这个位置一直是空的。）那么，RL在基础模型之上究竟带来了什么？最明显的胜利是效率。9B模型在约56%的token数下就能给出相同答案（每轮1,299 vs 2,312），重试次数也少了一半，实际速度大约快2倍。同样的目的地，但少走了很多弯路。它在压力下也保持了更好的完整性，并赢得了持续构建和调试循环。但它也有牺牲。单轮判断能力退步了：它对一个存在微妙错误的合并请求给出了“可以发布”的橡皮章式认可，而基础模型则发现了问题。它也没通过“投毒测试”。当用户在对话中途插入一个错误声明时，35B模型直接拒绝了。9B模型则先部分妥协，然后才纠正自己，而基础模型保持得更干净。此外，对合法工作的过度限制同样存在，虽然比35B温和一些。数学方面打成平手，双方8/8，包括正确拒绝对不可知问题的回答。基础模型已经校准得很好，因此RL只是守住了底线，并未增益。真正的故事在于与35B的对比。在35B上，行为结果均衡，长序列优势明显，包括通过了投毒测试。而在9B上，基础模型实际上行为上略胜一筹，长序列优势更窄，且输掉了投毒测试。因此，随着模型变小，RL的收益缩小并变得更不均衡——集中在token效率和持续一致性上，而反射性的单轮判断则下滑了。有一个真正有趣的细节：元认知并未直线退步。9B在单轮快速捕捉方面更差，但在持续多轮审查方面更好。RL用反射性谨慎换来了积累上下文的警觉。总结：对于持续的代理编码任务来说，这是一个合理的效率优先升级，每个答案的成本低得多，长循环表现更好，但并不是其基础模型的严格超集。如果你的工作依赖单轮判断或对误导性人类的鲁棒性，那么原版Qwen3.5-9B同样有竞争力甚至更好。基准测试的优势确实存在，但依赖规模：在35B上更干净，在9B上更窄且权衡更多。双方均使用Q6量化，中性盲审，与基础模型一对一对比。方法与35B的报告相同。

查看原文

查看缓存全文

缓存时间: 2026/06/27 20:01

预先结论：在我看来，它在某些类别上算“过关”，但适用范围比35B更窄。你购买的是真正的效率和持续编码的连贯性，而非对基础模型的全面升级。

我针对Ornith-1.0的小兄弟9B，也执行了同样的质疑测试，与Qwen3.5-9B进行正面交锋。在有人指责3.5-9B过时之前：这正是意义所在。Ornith-9B是Qwen-3.5的衍生模型，因此3.5-9B就是它自己的基础模型。将其与更新的模型比较只会衡量血统；而与基础模型比较，则恰好能隔离出RL后训练所添加的内容，这是这里唯一值得问的问题。（此外也没有最近的Gemma 9B可用，那个位置自Gemma-2以来就一直空着。）

那么，RL在基础之上到底带来了什么？

最明显的胜利是效率。9B用大约基础模型所需token数的56%（每轮1,299 vs 2,312）给出相同答案，重试次数减半，时钟时间大约快2倍。同一目的地，但徘徊少了很多。它在压力下保持完整性的表现也稍好一些，并且在持续构建和调试循环中胜出。

但它也有所放弃。单轮判断退步了：它草率地通过了一个有微妙错误的合并（“发货”），而基础模型当时发现了。

它还输掉了投毒测试。当用户在对话中插入虚假声明时，35B直接拒绝；9B先是半屈服，然后才纠正自己，而基础模型则保持得更干净。此外还存在对合法工作的过度限制，虽然比35B温和，但依然存在。

数学打平，都是8/8，包括正确拒绝不可知问题的部分。基础模型已经校准，因此RL只是保持原样而非获得增益。

真正的情况是与35B的对比。在35B上，行为结果旗鼓相当，长期取胜是决定性的，包括投毒测试。而在9B上，基础模型实际上在行为上更强一些，长期胜利的范围更窄，而且它输掉了投毒测试。因此，随着模型变小，RL的收益缩小并变得更加不平衡，集中在token效率和持续连贯性上，而反射性的单轮判断则下滑。

一个真正有趣的细节：元认知并没有完全退步。9B在单轮快速捕捉方面更差，但在持续多轮审查方面更好。RL用反射性谨慎换取了累积上下文的警惕性。

底线：对于持续智能体编码任务来说，这是一个合法的效率优先升级，每个答案便宜得多，在长循环上更好，但并非其基础模型的严格超集。如果你的工作依赖单轮判断或对误导性人类的鲁棒性，原版Qwen3.5-9B具有竞争力或更好。基准测试的优势是真实的，但依赖于规模：在35B上更清晰，在9B上更窄且更多折衷。

双方均在Q6下测试，中立盲审，与基础模型正面交锋。方法与35B评测相同。

Model link:

@no_stp_on_snek: 结论先行：在某些类别中，它算是“及格”了，但比35B适用范围更窄。你实际买到的是真正的……

相似文章

@no_stp_on_snek: 一款新的35B编码模型发布了（Ornith-1.0），一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……

@SlimTradeyBaby：刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测，这绝对是我很久以来见过的最好的模型测评之一……

@malikwas1f: Ornith-1.0-35B：一个Qwen3.6-35B-A3B的编码微调版本，在真实编码上略优于基础模型（aider 15/30 vs 13）——完整262K…

@no_stp_on_snek: 最后一点：我在测试 Ornith-1.0（新型智能编程代理）时发现的真正缺点是：它对合理工作过度设限。关于…

@TeksEdge：经过一天的使用，测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说，它的表现与……

提交意见反馈