@nathanhabib1011: SWE-bench_pro 上参数低于 128B 的最佳模型… @Alibaba_Qwen 3.6 27b 依然疯狂，紧随其后的是 @ornith_ 35B

X AI KOLs Following 2026/06/30 12:05 新闻

swe-bench model-comparison benchmark open-source qwen ornith 128b-params

摘要

推文突出了 SWE-bench_pro 基准测试中参数低于 128B 的顶级 AI 模型，指出阿里 Qwen 3.6 27B 和 ornith 35B 是领先的竞争者。

SWE-bench_pro 上参数低于 128B 的最佳模型… @Alibaba_Qwen 3.6 27b 依然疯狂，紧随其后的是 @ornith_ 35B https://t.co/9BmWE8WGw1

查看原文

查看缓存全文

缓存时间: 2026/07/01 08:05

最佳模型（< 128B 参数）在 SWE-bench_pro 上的表现…
@Alibaba_Qwen 3.6 的 27B 模型依然很强，紧随其后的是 @ornith_ 的 35B 模型 https://t.co/9BmWE8WGw1

相似文章

X AI KOLs Following

Sentdex的一条推文强调了阿里巴巴通义千问在Qwen3.7-Max模型上的透明基准报告，与那些挑选基准的其他人形成对比。

X AI KOLs Following

观察到对小AI模型的高需求，体现在Qwen系列9B参数以下模型的下载量上。

Reddit r/LocalLLaMA

阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B，并公布基准测试结果。

Reddit r/artificial

来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型，这归因于精心构建的训练数据和自我验证技术，而非原始规模，表明AI能力发展趋向更民主化。

Reddit r/LocalLLaMA

用户在RTX 3090上使用inspect-ai运行本地基准测试，比较Qwen3.6 27b、Gemma4 26B和Ornith1.0 35B。结果显示Qwen在知识和编码方面领先，而Ornith在接地性和召回方面具有竞争力。