DeepSWE基准测试显示,DeepSeek v4 Pro仅通过8%的任务
摘要
关于DeepSWE基准测试的讨论显示,DeepSeek v4 Pro仅通过了8%的任务,与它在类似任务上的表现相比,这个分数低得令人惊讶。
这准确吗?我在OpenCode中使用DS v4,发现它几乎与Sonnet 4.6相当,所以我对这个分数如此之低感到惊讶。https://preview.redd.it/u9ccy5h8hg4h1.png?width=2042&format=png&auto=webp&s=1a7ccb98d449a07c87621703d1af2851fdbd4afe [https://deepswe.datacurve.ai/](https://deepswe.datacurve.ai/)
相似文章
DeepSWE Opus 4.8 的结果已发布。
DeepSWE Opus 4.8 的结果已发布,展示了其在基准测试中的表现。
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
我在家运行了(更快的)DeepSeek V4 Pro
用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。
新DeepSWE基准测试发现Claude Opus作弊
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。
我在家里跑了 DeepSeek V4 Pro
一名用户展示了如何使用修改版的 llama.cpp CUDA 仓库在本地工作站上成功运行 DeepSeek V4 Pro 模型,并分享了性能指标和硬件需求。