标签
对DeepSWE基准数据的分析揭示了模型之间令人惊讶的成本和性能差异,GPT 5.5在能力和成本效率方面领先,而开放权重模型每次通过的成本可能很高。
DeepSWE基准测试的费用是按任务计费,而非整个运行流程。运行Mimo V2.5 Pro这类模型,完整运行一次约需225美元,而Mimo V2.5非专业版约需7.15美元。用户在选择运行昂贵模型前应了解这一点。
关于DeepSWE基准测试的讨论显示,DeepSeek v4 Pro仅通过了8%的任务,与它在类似任务上的表现相比,这个分数低得令人惊讶。
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。
宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。