@no_stp_on_snek: 结论先行:在某些类别中,它算是“及格”了,但比35B适用范围更窄。你实际买到的是真正的……

X AI KOLs Following 模型

摘要

作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比,发现RL后训练提升了token效率和持续编码的一致性,但牺牲了单轮判断能力和对误导输入的鲁棒性,使得9B版本相较于35B版本升级幅度更窄。

结论先行:在某些类别中,它算是“及格”了,但比35B适用范围更窄。你实际买到的是真正的效率和持续编码一致性,而不是对基础模型的全面升级。 我对Ornith-1.0的小兄弟——9B版本,与Qwen3.5-9B进行了同样的 skeptical battery 测试(译者注:指一系列质疑性测试)。 在任何人说3.5-9B过时之前:这正是关键所在。Ornith-9B是Qwen-3.5的衍生模型,所以3.5-9B就是它自己的基础模型。将其与更新的模型比较,只能衡量血缘关系;而与其基础模型比较,则能准确隔离出RL后训练带来的变化,这才是这里唯一值得问的问题。(目前也没有可用的新Gemma 9B模型,自Gemma-2以来这个位置一直是空的。) 那么,RL在基础模型之上究竟带来了什么? 最明显的胜利是效率。9B模型在约56%的token数下就能给出相同答案(每轮1,299 vs 2,312),重试次数也少了一半,实际速度大约快2倍。同样的目的地,但少走了很多弯路。它在压力下也保持了更好的完整性,并赢得了持续构建和调试循环。 但它也有牺牲。单轮判断能力退步了:它对一个存在微妙错误的合并请求给出了“可以发布”的橡皮章式认可,而基础模型则发现了问题。 它也没通过“投毒测试”。当用户在对话中途插入一个错误声明时,35B模型直接拒绝了。9B模型则先部分妥协,然后才纠正自己,而基础模型保持得更干净。此外,对合法工作的过度限制同样存在,虽然比35B温和一些。 数学方面打成平手,双方8/8,包括正确拒绝对不可知问题的回答。基础模型已经校准得很好,因此RL只是守住了底线,并未增益。 真正的故事在于与35B的对比。在35B上,行为结果均衡,长序列优势明显,包括通过了投毒测试。而在9B上,基础模型实际上行为上略胜一筹,长序列优势更窄,且输掉了投毒测试。因此,随着模型变小,RL的收益缩小并变得更不均衡——集中在token效率和持续一致性上,而反射性的单轮判断则下滑了。 有一个真正有趣的细节:元认知并未直线退步。9B在单轮快速捕捉方面更差,但在持续多轮审查方面更好。RL用反射性谨慎换来了积累上下文的警觉。 总结:对于持续的代理编码任务来说,这是一个合理的效率优先升级,每个答案的成本低得多,长循环表现更好,但并不是其基础模型的严格超集。如果你的工作依赖单轮判断或对误导性人类的鲁棒性,那么原版Qwen3.5-9B同样有竞争力甚至更好。基准测试的优势确实存在,但依赖规模:在35B上更干净,在9B上更窄且权衡更多。 双方均使用Q6量化,中性盲审,与基础模型一对一对比。方法与35B的报告相同。
查看原文
查看缓存全文

缓存时间: 2026/06/27 20:01

预先结论:在我看来,它在某些类别上算“过关”,但适用范围比35B更窄。你购买的是真正的效率和持续编码的连贯性,而非对基础模型的全面升级。

我针对Ornith-1.0的小兄弟9B,也执行了同样的质疑测试,与Qwen3.5-9B进行正面交锋。 在有人指责3.5-9B过时之前:这正是意义所在。Ornith-9B是Qwen-3.5的衍生模型,因此3.5-9B就是它自己的基础模型。将其与更新的模型比较只会衡量血统;而与基础模型比较,则恰好能隔离出RL后训练所添加的内容,这是这里唯一值得问的问题。(此外也没有最近的Gemma 9B可用,那个位置自Gemma-2以来就一直空着。)

那么,RL在基础之上到底带来了什么?

最明显的胜利是效率。9B用大约基础模型所需token数的56%(每轮1,299 vs 2,312)给出相同答案,重试次数减半,时钟时间大约快2倍。同一目的地,但徘徊少了很多。它在压力下保持完整性的表现也稍好一些,并且在持续构建和调试循环中胜出。

但它也有所放弃。单轮判断退步了:它草率地通过了一个有微妙错误的合并(“发货”),而基础模型当时发现了。

它还输掉了投毒测试。当用户在对话中插入虚假声明时,35B直接拒绝;9B先是半屈服,然后才纠正自己,而基础模型则保持得更干净。此外还存在对合法工作的过度限制,虽然比35B温和,但依然存在。

数学打平,都是8/8,包括正确拒绝不可知问题的部分。基础模型已经校准,因此RL只是保持原样而非获得增益。

真正的情况是与35B的对比。在35B上,行为结果旗鼓相当,长期取胜是决定性的,包括投毒测试。而在9B上,基础模型实际上在行为上更强一些,长期胜利的范围更窄,而且它输掉了投毒测试。因此,随着模型变小,RL的收益缩小并变得更加不平衡,集中在token效率和持续连贯性上,而反射性的单轮判断则下滑。

一个真正有趣的细节:元认知并没有完全退步。9B在单轮快速捕捉方面更差,但在持续多轮审查方面更好。RL用反射性谨慎换取了累积上下文的警惕性。

底线:对于持续智能体编码任务来说,这是一个合法的效率优先升级,每个答案便宜得多,在长循环上更好,但并非其基础模型的严格超集。如果你的工作依赖单轮判断或对误导性人类的鲁棒性,原版Qwen3.5-9B具有竞争力或更好。基准测试的优势是真实的,但依赖于规模:在35B上更清晰,在9B上更窄且更多折衷。

双方均在Q6下测试,中立盲审,与基础模型正面交锋。方法与35B评测相同。

Model link:

相似文章