@SlimTradeyBaby:刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测,这绝对是我很久以来见过的最好的模型测评之一……
摘要
对全新 Ornith-1.0 35B 编码模型的评测,绕过公开基准,在真实代理任务上进行测试,突出其在长程编码和连贯性方面的优势,以及诸如冗长性等代价。
查看缓存全文
缓存时间: 2026/06/26 16:13
刚读了 @no_stp_on_snek 对新型号 Ornith-1.0 35B 编码模型的评测,这是很长时间以来我看到的最好的模型分析之一。他直接穿透营销炒作,跳过了容易被愚弄的公开基准测试,而是针对保留的智能代理任务运行了真实的头对头测试。结果是一份清晰、诚实的剖析:Ornith 在长程编码和连贯性方面的真正优势,以及它的实际成本(更加谨慎、更加冗长)。没有炒作,没有自我安慰——只有关于它在哪里胜出、在哪里有所取舍的实用证据。这正是这个领域所需要的脚踏实地分析。干得好,Tom。关注他——内容一直很棒,Git 记录也很扎实!
Tom Turney (@no_stp_on_snek): 一款新的 35B 编码模型发布了(Ornith-1.0),推广博客称其“碾压”了基准测试。我的第一反应是基准测试优化——像 SWE-Bench 和 Terminal-Bench 这样的公开测试集很容易过拟合。所以我忽略了这些基准,直接让它与标准的 Qwen3.6-35B 进行了头对头测试,在我自己的
相似文章
@no_stp_on_snek: 一款新的35B编码模型发布了(Ornith-1.0),一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……
一款新的35B编码模型Ornith-1.0与Qwen3.6-35B在自定义测试中进行了对比。用户发现Ornith-1.0在长期自主编码方面确实更强,能够抵抗不良上下文并完成大型任务,但它更加谨慎和冗长,有时会对简单请求过度限制。
@SlimTradeyBaby: 刚刚远程启动了 Ornith 35B Q4 在 5090 上…… 2329 prompt / 195 gen tok/s,在 32k 下稳定运行。快速测试仅...
DeepReinforce AI 发布了 Ornith-1.0,这是一个自优化的开源模型系列,专为智能代理编码而设计,包含一个 35B MoE 变体,在编码基准测试中达到了最先进的性能,并能在 5090 等单 GPU 上高效运行。
@no_stp_on_snek: 最后一点:我在测试 Ornith-1.0(新型智能编程代理)时发现的真正缺点是:它对合理工作过度设限。关于…
一位测试人员报告称,新型 Ornith-1.0 智能编程模型因要求过多先决条件而对合理工作过度设限,这是其谨慎训练带来的权衡;而标准版 Qwen3.6 则直接执行简单任务。
@no_stp_on_snek: 结论先行:在某些类别中,它算是“及格”了,但比35B适用范围更窄。你实际买到的是真正的……
作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比,发现RL后训练提升了token效率和持续编码的一致性,但牺牲了单轮判断能力和对误导输入的鲁棒性,使得9B版本相较于35B版本升级幅度更窄。
@SixZzshOtRipZz:我可以为此发声。我做了类似的测试,看Ornith是否会在决策上妥协,甚至试图欺骗我……
该推文描述了一项测试,其中Ornith-1.0成功识破了一个关于使用Redis的错误前提,突显了其在自主编程中的诚实性。附带的Hugging Face页面宣布了Ornith-1.0,这是一系列开源编码智能体模型,具有最先进的基准测试成绩。