Claude Fable 在 ZeroBench(高难度视觉基准测试)上已赶超 GPT

Reddit r/singularity 模型

摘要

Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平,pass@5 和 pass^5 得分相当。

pass@5:如果 5 次尝试中至少有一次正确则得分。pass\^5:仅当所有 5 次尝试都正确时得分。 [https://zerobench.github.io/](https://zerobench.github.io/)
查看原文

相似文章

Claude Fable 5 基准测试

Reddit r/singularity

Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。

Claude Fable 5 的 FrontierMath 分数

Reddit r/singularity

Epoch AI 发布了 FrontierMath 基准测试的 v2 更新,纠正了 42% 问题中的错误,并提高了所有模型的分数,但排名基本保持不变;第 1-4 级正在接近饱和。