Fable 5不再是第一了!?根据公司公告,Sakana的Fugu在某些情况下击败了它
摘要
根据Sakana AI的公司博客,其新模型Fugu在LiveCodeBench和Terminal Bench 2.1上以微小的优势超越了Fable 5,尽管结果尚未得到独立确认。
Sakana.ai的基准测试显示,Fugu在LiveCodeBench(高出3%)和Terminal Bench 2.1(高出约1.7%)上至少击败了Fable 5,根据其公司博客官方发布:https://sakana.ai/fugu-release/ 这些数字尚未得到独立确认。
相似文章
Fable 5 Is Dead. And Honestly? We Might Be Better Off
美国政府迫使Anthropic在发布仅数天后撤下了其最强大的模型Fable 5。OpenRouter的新基准测试显示,融合的预算模型面板能以一半的成本达到或超过Fable 5的性能,引发了对前沿模型价值的质疑。
Fable 5 基准测试(使用 remotion 视频)
Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进,但 Gemini 3.1 Pro 展现了更多艺术视野,尽管在工具调用和编写有 bug 的代码方面存在问题。
Fable 5 在 Livebench 上甚至低于 Gemini 3.1
讨论 LiveBench 结果显示 Fable 5 表现低于 Gemini 3.1,质疑是该基准测试有缺陷,还是 Anthropic 在针对基准测试进行优化(benchmaxing)。
我用了半天的Fable 5,发现护栏才是真正的故事
Anthropic的Fable 5模型展现了令人印象深刻的推理和上下文处理能力,但存在高延迟、高成本以及在特定领域静默回退到Opus 4.8的问题,这可能会中断工作流程。
@DeRonin_: 我靠,日本公开发布了Fable级别模型,通过编程和研究基准测试,它几乎等同于……
Sakana AI 发布了 Fugu Ultra,这是一个多智能体编排系统,可通过单一模型 API 访问,其性能与 Fable 和 Mythos 模型相当。