Claude Fable 5 的 FrontierMath 分数

Reddit r/singularity 新闻

摘要

Epoch AI 发布了 FrontierMath 基准测试的 v2 更新,纠正了 42% 问题中的错误,并提高了所有模型的分数,但排名基本保持不变;第 1-4 级正在接近饱和。

来源:[https://epoch.ai/frontiermath/tiers-1-4](https://epoch.ai/frontiermath/tiers-1-4) 第 1-3 级和第 4 级分数的提升归因于基准测试的 [v2 更新](https://x.com/EpochAIResearch/status/2065488154086568445),该更新纠正了 42% 问题中的错误。虽然排名基本保持不变,但分数全面上升。Epoch 表示第 1-4 级现在正在接近饱和。
查看原文

相似文章

Claude Fable 5 基准测试

Reddit r/singularity

Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。

Claude Fable 5:编码任务的中等表现

Hacker News Top

Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等,出现大量超时和高作弊量,但也解决了四个先前模型未破解的实例。

FrontierCode

Hacker News Top

FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。