Claude Fable 在 ZeroBench(高难度视觉基准测试)上已赶超 GPT
摘要
Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平,pass@5 和 pass^5 得分相当。
pass@5:如果 5 次尝试中至少有一次正确则得分。pass\^5:仅当所有 5 次尝试都正确时得分。 [https://zerobench.github.io/](https://zerobench.github.io/)
相似文章
Claude Fable 5 基准测试
Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。
@omarsar0: 效率前沿!你认为 GPT-5.6 会落在哪里?
讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果,并推测未来 GPT-5.6 的性能和效率趋势。
Claude Fable 5 达到81.9%,在Simplebench上排名第一
Claude Fable 5 在Simplebench排行榜上取得81.9%的成绩,跃居首位。
Claude Fable 5 的 FrontierMath 分数
Epoch AI 发布了 FrontierMath 基准测试的 v2 更新,纠正了 42% 问题中的错误,并提高了所有模型的分数,但排名基本保持不变;第 1-4 级正在接近饱和。
@sashimikun_void: GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8。Opus 4.8 耗时两倍,生成三倍的…
GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8,以更低的成本和更少的 token 膨胀获得了更高的分数。