Fable 5 在 Livebench 上甚至低于 Gemini 3.1

Reddit r/singularity 新闻

摘要

讨论 LiveBench 结果显示 Fable 5 表现低于 Gemini 3.1,质疑是该基准测试有缺陷,还是 Anthropic 在针对基准测试进行优化(benchmaxing)。

这个基准测试出问题了吗,还是 Anthropic 在 benchmaxing?[LiveBench](https://livebench.ai/#/?highunseenbias=true)
查看原文

相似文章

Fable 5 基准测试(使用 remotion 视频)

Reddit r/singularity

Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进,但 Gemini 3.1 Pro 展现了更多艺术视野,尽管在工具调用和编写有 bug 的代码方面存在问题。

Gemini 3.5 Flash 基准测试

Reddit r/singularity

讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。

Claude Fable 5 基准测试

Reddit r/singularity

Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。