像DeepSWE这样的新基准测试现在显示专有模型与开源模型之间存在巨大差距

Reddit r/singularity 新闻

摘要

像DeepSWE这样的新基准测试揭示了专有与开源AI模型之间的显著性能差距,令开源社区感到失望。

以前我们只能看到闭源模型和开源模型之间的微小差距。希望开源能再追上一些。目前这相当令人失望。https://preview.redd.it/prwafwsghj4h1.png?width=1448&format=png&auto=webp&s=04b2656474065e6bd3c15c244d585c542f8f526d
查看原文

相似文章

有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。