@nathanhabib1011: SWE-bench_pro 上参数低于 128B 的最佳模型… @Alibaba_Qwen 3.6 27b 依然疯狂,紧随其后的是 @ornith_ 35B
摘要
推文突出了 SWE-bench_pro 基准测试中参数低于 128B 的顶级 AI 模型,指出阿里 Qwen 3.6 27B 和 ornith 35B 是领先的竞争者。
SWE-bench_pro 上参数低于 128B 的最佳模型…
@Alibaba_Qwen 3.6 27b 依然疯狂,紧随其后的是 @ornith_ 35B https://t.co/9BmWE8WGw1
查看缓存全文
缓存时间: 2026/07/01 08:05
最佳模型(< 128B 参数)在 SWE-bench_pro 上的表现…
@Alibaba_Qwen 3.6 的 27B 模型依然很强,紧随其后的是 @ornith_ 的 35B 模型 https://t.co/9BmWE8WGw1
相似文章
@Sentdex: 对于那些不确定的人,这就是发布模型并讨论性能的正确方式,而不是只挑选3-5个基准测试……
Sentdex的一条推文强调了阿里巴巴通义千问在Qwen3.7-Max模型上的透明基准报告,与那些挑选基准的其他人形成对比。
@LottoLabs: 对优秀小模型的需求非常大,看看下载量最高的Qwen模型吧,全部<9B
观察到对小AI模型的高需求,体现在Qwen系列9B参数以下模型的下载量上。
Qwen3.6-27B
阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
RTX 3090 本地基准测试 - Qwen3.6 27b 对比 Ornith
用户在RTX 3090上使用inspect-ai运行本地基准测试,比较Qwen3.6 27b、Gemma4 26B和Ornith1.0 35B。结果显示Qwen在知识和编码方面领先,而Ornith在接地性和召回方面具有竞争力。