@no_stp_on_snek: 结论先行:在某些类别中,它算是“及格”了,但比35B适用范围更窄。你实际买到的是真正的……
摘要
作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比,发现RL后训练提升了token效率和持续编码的一致性,但牺牲了单轮判断能力和对误导输入的鲁棒性,使得9B版本相较于35B版本升级幅度更窄。
查看缓存全文
缓存时间: 2026/06/27 20:01
预先结论:在我看来,它在某些类别上算“过关”,但适用范围比35B更窄。你购买的是真正的效率和持续编码的连贯性,而非对基础模型的全面升级。
我针对Ornith-1.0的小兄弟9B,也执行了同样的质疑测试,与Qwen3.5-9B进行正面交锋。 在有人指责3.5-9B过时之前:这正是意义所在。Ornith-9B是Qwen-3.5的衍生模型,因此3.5-9B就是它自己的基础模型。将其与更新的模型比较只会衡量血统;而与基础模型比较,则恰好能隔离出RL后训练所添加的内容,这是这里唯一值得问的问题。(此外也没有最近的Gemma 9B可用,那个位置自Gemma-2以来就一直空着。)
那么,RL在基础之上到底带来了什么?
最明显的胜利是效率。9B用大约基础模型所需token数的56%(每轮1,299 vs 2,312)给出相同答案,重试次数减半,时钟时间大约快2倍。同一目的地,但徘徊少了很多。它在压力下保持完整性的表现也稍好一些,并且在持续构建和调试循环中胜出。
但它也有所放弃。单轮判断退步了:它草率地通过了一个有微妙错误的合并(“发货”),而基础模型当时发现了。
它还输掉了投毒测试。当用户在对话中插入虚假声明时,35B直接拒绝;9B先是半屈服,然后才纠正自己,而基础模型则保持得更干净。此外还存在对合法工作的过度限制,虽然比35B温和,但依然存在。
数学打平,都是8/8,包括正确拒绝不可知问题的部分。基础模型已经校准,因此RL只是保持原样而非获得增益。
真正的情况是与35B的对比。在35B上,行为结果旗鼓相当,长期取胜是决定性的,包括投毒测试。而在9B上,基础模型实际上在行为上更强一些,长期胜利的范围更窄,而且它输掉了投毒测试。因此,随着模型变小,RL的收益缩小并变得更加不平衡,集中在token效率和持续连贯性上,而反射性的单轮判断则下滑。
一个真正有趣的细节:元认知并没有完全退步。9B在单轮快速捕捉方面更差,但在持续多轮审查方面更好。RL用反射性谨慎换取了累积上下文的警惕性。
底线:对于持续智能体编码任务来说,这是一个合法的效率优先升级,每个答案便宜得多,在长循环上更好,但并非其基础模型的严格超集。如果你的工作依赖单轮判断或对误导性人类的鲁棒性,原版Qwen3.5-9B具有竞争力或更好。基准测试的优势是真实的,但依赖于规模:在35B上更清晰,在9B上更窄且更多折衷。
双方均在Q6下测试,中立盲审,与基础模型正面交锋。方法与35B评测相同。
Model link:
相似文章
@no_stp_on_snek: 一款新的35B编码模型发布了(Ornith-1.0),一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……
一款新的35B编码模型Ornith-1.0与Qwen3.6-35B在自定义测试中进行了对比。用户发现Ornith-1.0在长期自主编码方面确实更强,能够抵抗不良上下文并完成大型任务,但它更加谨慎和冗长,有时会对简单请求过度限制。
@SlimTradeyBaby:刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测,这绝对是我很久以来见过的最好的模型测评之一……
对全新 Ornith-1.0 35B 编码模型的评测,绕过公开基准,在真实代理任务上进行测试,突出其在长程编码和连贯性方面的优势,以及诸如冗长性等代价。
@malikwas1f: Ornith-1.0-35B:一个Qwen3.6-35B-A3B的编码微调版本,在真实编码上略优于基础模型(aider 15/30 vs 13)——完整262K…
宣布Ornith-1.0-35B,一个Qwen3.6-35B-A3B的编码微调版本,在aider基准测试上略优于基础模型。同时推广用于在RTX 3090上运行LLM的club-3090仓库。
@no_stp_on_snek: 最后一点:我在测试 Ornith-1.0(新型智能编程代理)时发现的真正缺点是:它对合理工作过度设限。关于…
一位测试人员报告称,新型 Ornith-1.0 智能编程模型因要求过多先决条件而对合理工作过度设限,这是其谨慎训练带来的权衡;而标准版 Qwen3.6 则直接执行简单任务。
@TeksEdge:经过一天的使用,测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说,它的表现与……
一位用户报告称,Ornith-1.0-35B 在性能上与 Qwen3.6-35B 相当,但在规划和长任务执行方面更胜一筹,同时开发者宣布开源专门用于代理编码的 Ornith-1.0 系列 LLM。