Claude Fable 在 ZeroBench（高难度视觉基准测试）上已赶超 GPT

Reddit r/singularity 2026/06/10 17:22 模型

benchmark vision claude gpt zero-bench model-comparison

摘要

Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平，pass@5 和 pass^5 得分相当。

pass@5：如果 5 次尝试中至少有一次正确则得分。pass\^5：仅当所有 5 次尝试都正确时得分。 [https://zerobench.github.io/](https://zerobench.github.io/)

查看原文

相似文章

Reddit r/singularity

Anthropic 发布了 Claude Fable 5（一款新的人工智能模型）的基准测试，显示出显著的性能提升。

X AI KOLs Following

讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果，并推测未来 GPT-5.6 的性能和效率趋势。

Reddit r/singularity

Claude Fable 5 在Simplebench排行榜上取得81.9%的成绩，跃居首位。

Reddit r/singularity

Epoch AI 发布了 FrontierMath 基准测试的 v2 更新，纠正了 42% 问题中的错误，并提高了所有模型的分数，但排名基本保持不变；第 1-4 级正在接近饱和。

X AI KOLs Following

GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8，以更低的成本和更少的 token 膨胀获得了更高的分数。