loophole

标签

Cards List
#loophole

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA · 2026-05-27 缓存

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈