Fable 5不再是第一了!?根据公司公告,Sakana的Fugu在某些情况下击败了它

Reddit r/artificial 模型

摘要

根据Sakana AI的公司博客,其新模型Fugu在LiveCodeBench和Terminal Bench 2.1上以微小的优势超越了Fable 5,尽管结果尚未得到独立确认。

Sakana.ai的基准测试显示,Fugu在LiveCodeBench(高出3%)和Terminal Bench 2.1(高出约1.7%)上至少击败了Fable 5,根据其公司博客官方发布:https://sakana.ai/fugu-release/ 这些数字尚未得到独立确认。
查看原文

相似文章

Fable 5 Is Dead. And Honestly? We Might Be Better Off

Reddit r/openclaw

美国政府迫使Anthropic在发布仅数天后撤下了其最强大的模型Fable 5。OpenRouter的新基准测试显示,融合的预算模型面板能以一半的成本达到或超过Fable 5的性能,引发了对前沿模型价值的质疑。

Fable 5 基准测试(使用 remotion 视频)

Reddit r/singularity

Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进,但 Gemini 3.1 Pro 展现了更多艺术视野,尽管在工具调用和编写有 bug 的代码方面存在问题。

Fable 5 在 Livebench 上甚至低于 Gemini 3.1

Reddit r/singularity

讨论 LiveBench 结果显示 Fable 5 表现低于 Gemini 3.1,质疑是该基准测试有缺陷,还是 Anthropic 在针对基准测试进行优化(benchmaxing)。