在 SWEBench Pro 上,GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的,占整个基准测试的 28.9%

Reddit r/ArtificialInteligence 新闻

摘要

分析显示,GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致,类似问题也影响了其他主要 AI 基准测试,引发了对当前评估方法准确性的担忧。

[https://deepswe.datacurve.ai/blog](https://deepswe.datacurve.ai/blog) 其实际得分应为 86.7%。其他基准测试中也存在类似错误,包括: * MMLU [https://arxiv.org/abs/2406.04127](https://arxiv.org/abs/2406.04127) * ARC AGI [https://www.reddit.com/r/singularity/comments/1hjjj5c/comment/m37bw8p/](https://www.reddit.com/r/singularity/comments/1hjjj5c/comment/m37bw8p/) * SpatialBench [https://x.com/YafahEdelman/status/2031178437243916509?s=20](https://x.com/YafahEdelman/status/2031178437243916509?s=20) * HLE [https://www.futurehouse.org/research-announcements/hle-exam](https://www.futurehouse.org/research-announcements/hle-exam) * SWEBench Verified [https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/](https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/) * GPQA [https://epochai.substack.com/p/gpqa-diamond-whats-left](https://epochai.substack.com/p/gpqa-diamond-whats-left) * FrontierMath: Tiers 1-4(由LLMs发现):[https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Core+%28Tiers+1-3%](https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Core+%28Tiers+1-3%29) 看起来即使是人类专家基准测试的创建者也会产生幻觉。我想这意味着人类不具备推理或意识能力 😔 我不知道还要多久LLMs才能变得如此优秀,以至于我们不知道如何准确衡量它们?
查看原文

相似文章

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。

介绍 BenchBench(5分钟阅读)

TLDR AI

介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。