deep-swe

标签

Cards List
#deep-swe

我刚刚根据DeepSWE基准数据创建了一份详细报告

Reddit r/singularity · 2天前

对DeepSWE基准数据的分析揭示了模型之间令人惊讶的成本和性能差异,GPT 5.5在能力和成本效率方面领先,而开放权重模型每次通过的成本可能很高。

0 人收藏 0 人点赞
#deep-swe

DeepSWE基准测试提醒:费用按任务计费,而非整个运行流程。

Reddit r/singularity · 3天前

DeepSWE基准测试的费用是按任务计费,而非整个运行流程。运行Mimo V2.5 Pro这类模型,完整运行一次约需225美元,而Mimo V2.5非专业版约需7.15美元。用户在选择运行昂贵模型前应了解这一点。

0 人收藏 0 人点赞
#deep-swe

DeepSWE基准测试显示,DeepSeek v4 Pro仅通过8%的任务

Reddit r/LocalLLaMA · 3天前

关于DeepSWE基准测试的讨论显示,DeepSeek v4 Pro仅通过了8%的任务,与它在类似任务上的表现相比,这个分数低得令人惊讶。

0 人收藏 0 人点赞
#deep-swe

DeepSWE Opus 4.8 的结果已发布。

Reddit r/singularity · 4天前

DeepSWE Opus 4.8 的结果已发布,展示了其在基准测试中的表现。

0 人收藏 0 人点赞
#deep-swe

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA · 2026-05-27 缓存

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。

0 人收藏 0 人点赞
#deep-swe

@garrytan: 这是工程评估的新标准

X AI KOLs Following · 2026-05-26 缓存

宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈