@SlimTradeyBaby：刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测，这绝对是我很久以来见过的最好的模型测评之一……

X AI KOLs Following 2026/06/26 12:17 模型

coding ai-model review benchmarks agentic-tasks long-horizon

摘要

对全新 Ornith-1.0 35B 编码模型的评测，绕过公开基准，在真实代理任务上进行测试，突出其在长程编码和连贯性方面的优势，以及诸如冗长性等代价。

刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测——这绝对是我很久以来见过的最好的模型测评之一。他直接戳破宣传泡沫，跳过那些容易被操纵的公开基准，而是在预留的代理任务上进行了真实的一对一测试。结果是一份清晰、诚实的分析：Ornith 在长程编码和连贯性方面的真正优势，以及它实际付出的代价（更谨慎、更冗长）。没有炒作，没有自我安慰——只有实际数据，说明它在哪些方面胜出，又在哪些方面做出权衡。这正是这个领域所需要的那种接地气的分析。干得好，Tom。关注他——总是有优质内容和可靠的Git仓库！

查看原文

查看缓存全文

缓存时间: 2026/06/26 16:13

刚读了 @no_stp_on_snek 对新型号 Ornith-1.0 35B 编码模型的评测，这是很长时间以来我看到的最好的模型分析之一。他直接穿透营销炒作，跳过了容易被愚弄的公开基准测试，而是针对保留的智能代理任务运行了真实的头对头测试。结果是一份清晰、诚实的剖析：Ornith 在长程编码和连贯性方面的真正优势，以及它的实际成本（更加谨慎、更加冗长）。没有炒作，没有自我安慰——只有关于它在哪里胜出、在哪里有所取舍的实用证据。这正是这个领域所需要的脚踏实地分析。干得好，Tom。关注他——内容一直很棒，Git 记录也很扎实！

Tom Turney (@no_stp_on_snek): 一款新的 35B 编码模型发布了（Ornith-1.0），推广博客称其“碾压”了基准测试。我的第一反应是基准测试优化——像 SWE-Bench 和 Terminal-Bench 这样的公开测试集很容易过拟合。所以我忽略了这些基准，直接让它与标准的 Qwen3.6-35B 进行了头对头测试，在我自己的

@SlimTradeyBaby：刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测，这绝对是我很久以来见过的最好的模型测评之一……

相似文章

@no_stp_on_snek: 一款新的35B编码模型发布了（Ornith-1.0），一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……

@SlimTradeyBaby: 刚刚远程启动了 Ornith 35B Q4 在 5090 上…… 2329 prompt / 195 gen tok/s，在 32k 下稳定运行。快速测试仅...

@no_stp_on_snek: 最后一点：我在测试 Ornith-1.0（新型智能编程代理）时发现的真正缺点是：它对合理工作过度设限。关于…

@no_stp_on_snek: 结论先行：在某些类别中，它算是“及格”了，但比35B适用范围更窄。你实际买到的是真正的……

@SixZzshOtRipZz：我可以为此发声。我做了类似的测试，看Ornith是否会在决策上妥协，甚至试图欺骗我……

提交意见反馈