swebench

#swebench

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following ↗ · 2026-06-08 缓存

FrontierCode 是 METR 和 Cognition 推出的新编程基准，用于评估 AI 模型在代码可维护性和质量方面的表现，结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量，并表明即使顶尖模型也难以应对，其中 Opus 4.8 在最难的等级上仅获得 13.8%。

0 人收藏 0 人点赞

#swebench

在 SWEBench Pro 上，GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的，占整个基准测试的 28.9%

Reddit r/ArtificialInteligence ↗ · 2026-05-26

分析显示，GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致，类似问题也影响了其他主要 AI 基准测试，引发了对当前评估方法准确性的担忧。

0 人收藏 0 人点赞

swebench

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

在 SWEBench Pro 上，GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的，占整个基准测试的 28.9%

提交意见反馈