@SlimTradeyBaby:刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测,这绝对是我很久以来见过的最好的模型测评之一……

X AI KOLs Following 模型

摘要

对全新 Ornith-1.0 35B 编码模型的评测,绕过公开基准,在真实代理任务上进行测试,突出其在长程编码和连贯性方面的优势,以及诸如冗长性等代价。

刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测——这绝对是我很久以来见过的最好的模型测评之一。他直接戳破宣传泡沫,跳过那些容易被操纵的公开基准,而是在预留的代理任务上进行了真实的一对一测试。结果是一份清晰、诚实的分析:Ornith 在长程编码和连贯性方面的真正优势,以及它实际付出的代价(更谨慎、更冗长)。没有炒作,没有自我安慰——只有实际数据,说明它在哪些方面胜出,又在哪些方面做出权衡。这正是这个领域所需要的那种接地气的分析。干得好,Tom。关注他——总是有优质内容和可靠的Git仓库!
查看原文
查看缓存全文

缓存时间: 2026/06/26 16:13

刚读了 @no_stp_on_snek 对新型号 Ornith-1.0 35B 编码模型的评测,这是很长时间以来我看到的最好的模型分析之一。他直接穿透营销炒作,跳过了容易被愚弄的公开基准测试,而是针对保留的智能代理任务运行了真实的头对头测试。结果是一份清晰、诚实的剖析:Ornith 在长程编码和连贯性方面的真正优势,以及它的实际成本(更加谨慎、更加冗长)。没有炒作,没有自我安慰——只有关于它在哪里胜出、在哪里有所取舍的实用证据。这正是这个领域所需要的脚踏实地分析。干得好,Tom。关注他——内容一直很棒,Git 记录也很扎实!

Tom Turney (@no_stp_on_snek): 一款新的 35B 编码模型发布了(Ornith-1.0),推广博客称其“碾压”了基准测试。我的第一反应是基准测试优化——像 SWE-Bench 和 Terminal-Bench 这样的公开测试集很容易过拟合。所以我忽略了这些基准,直接让它与标准的 Qwen3.6-35B 进行了头对头测试,在我自己的

相似文章