Fable 5 在 Livebench 上甚至低于 Gemini 3.1

Reddit r/singularity 2026/06/10 06:38 新闻

benchmark ai-models livebench anthropic model-comparison benchmaxing

摘要

讨论 LiveBench 结果显示 Fable 5 表现低于 Gemini 3.1，质疑是该基准测试有缺陷，还是 Anthropic 在针对基准测试进行优化（benchmaxing）。

这个基准测试出问题了吗，还是 Anthropic 在 benchmaxing？[LiveBench](https://livebench.ai/#/?highunseenbias=true)

查看原文

相似文章

Reddit r/singularity

Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进，但 Gemini 3.1 Pro 展现了更多艺术视野，尽管在工具调用和编写有 bug 的代码方面存在问题。

Reddit r/singularity

讨论了Gemini 3.5 Flash模型的基准测试结果，可能展示了它在各种AI任务上的表现。

Reddit r/singularity

Gemini 3.5 flash 在基准测试中取得了一定分数，但性能尚未超越 GPT 5.4 xhigh。

Reddit r/singularity

Anthropic 发布了 Claude Fable 5（一款新的人工智能模型）的基准测试，显示出显著的性能提升。

Reddit r/singularity

比较显示，Gemini 3.5 Flash在Artificial Analysis基准测试中得分略低于Gemini 3.1 Pro，且尽管每token API定价更低，但其总基准测试成本却更高。