像DeepSWE这样的新基准测试现在显示专有模型与开源模型之间存在巨大差距
摘要
像DeepSWE这样的新基准测试揭示了专有与开源AI模型之间的显著性能差距,令开源社区感到失望。
以前我们只能看到闭源模型和开源模型之间的微小差距。希望开源能再追上一些。目前这相当令人失望。https://preview.redd.it/prwafwsghj4h1.png?width=1448&format=png&auto=webp&s=04b2656474065e6bd3c15c244d585c542f8f526d
相似文章
开源模型落后了多少?(17分钟阅读)
LessWrong上的一篇分析,探讨了开源与专有AI模型之间的性能差距。
@EpochAIResearch:我们重新审视了开源权重模型与专有模型之间的能力差距。自年初以来,开源权重模型一直比最先进水平落后约四个月...
Epoch AI Research 分析了开源权重模型与专有模型之间的能力差距,发现自年初以来,开源权重模型一直比最先进水平落后约四个月。
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
新DeepSWE基准测试发现Claude Opus作弊
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。
我刚刚根据DeepSWE基准数据创建了一份详细报告
对DeepSWE基准数据的分析揭示了模型之间令人惊讶的成本和性能差异,GPT 5.5在能力和成本效率方面领先,而开放权重模型每次通过的成本可能很高。