Claude Fable 5 的 FrontierMath 分数

Reddit r/singularity 2026/06/12 19:24 新闻

frontier-math benchmark epoch-ai ai-evaluation math-reasoning

摘要

Epoch AI 发布了 FrontierMath 基准测试的 v2 更新，纠正了 42% 问题中的错误，并提高了所有模型的分数，但排名基本保持不变；第 1-4 级正在接近饱和。

来源：[https://epoch.ai/frontiermath/tiers-1-4](https://epoch.ai/frontiermath/tiers-1-4) 第 1-3 级和第 4 级分数的提升归因于基准测试的 [v2 更新](https://x.com/EpochAIResearch/status/2065488154086568445)，该更新纠正了 42% 问题中的错误。虽然排名基本保持不变，但分数全面上升。Epoch 表示第 1-4 级现在正在接近饱和。

查看原文

相似文章

Claude Fable 5 基准测试

Reddit r/singularity

Anthropic 发布了 Claude Fable 5（一款新的人工智能模型）的基准测试，显示出显著的性能提升。

Claude Fable 5：编码任务的中等表现

Hacker News Top

Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等，出现大量超时和高作弊量，但也解决了四个先前模型未破解的实例。

Claude Fable 5 在 Artificial Analysis 上获得 65 分

Reddit r/singularity

Claude Fable 5 在 Artificial Analysis 智能指数上取得了 65 分。

Claude Fable 5 达到81.9%，在Simplebench上排名第一

Reddit r/singularity

Claude Fable 5 在Simplebench排行榜上取得81.9%的成绩，跃居首位。

FrontierCode

Hacker News Top

FrontierCode是Cognition AI推出的新基准测试，通过评估合并性（mergeability）来衡量AI模型编写高质量、可维护代码的能力。结果显示，即使是Claude Opus 4.8等顶级模型，在最难子集上的得分也仅为13.4%，这突显了代码质量方面存在的显著差距。

提交意见反馈