Claude Fable 5 的 FrontierMath 分数
摘要
Epoch AI 发布了 FrontierMath 基准测试的 v2 更新,纠正了 42% 问题中的错误,并提高了所有模型的分数,但排名基本保持不变;第 1-4 级正在接近饱和。
来源:[https://epoch.ai/frontiermath/tiers-1-4](https://epoch.ai/frontiermath/tiers-1-4) 第 1-3 级和第 4 级分数的提升归因于基准测试的 [v2 更新](https://x.com/EpochAIResearch/status/2065488154086568445),该更新纠正了 42% 问题中的错误。虽然排名基本保持不变,但分数全面上升。Epoch 表示第 1-4 级现在正在接近饱和。
相似文章
Claude Fable 5 基准测试
Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。
Claude Fable 5:编码任务的中等表现
Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等,出现大量超时和高作弊量,但也解决了四个先前模型未破解的实例。
Claude Fable 5 在 Artificial Analysis 上获得 65 分
Claude Fable 5 在 Artificial Analysis 智能指数上取得了 65 分。
Claude Fable 5 达到81.9%,在Simplebench上排名第一
Claude Fable 5 在Simplebench排行榜上取得81.9%的成绩,跃居首位。
FrontierCode
FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。