Fable 5 在 Livebench 上甚至低于 Gemini 3.1
摘要
讨论 LiveBench 结果显示 Fable 5 表现低于 Gemini 3.1,质疑是该基准测试有缺陷,还是 Anthropic 在针对基准测试进行优化(benchmaxing)。
这个基准测试出问题了吗,还是 Anthropic 在 benchmaxing?[LiveBench](https://livebench.ai/#/?highunseenbias=true)
相似文章
Fable 5 基准测试(使用 remotion 视频)
Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进,但 Gemini 3.1 Pro 展现了更多艺术视野,尽管在工具调用和编写有 bug 的代码方面存在问题。
Gemini 3.5 Flash 基准测试
讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。
Gemini 3.5 flash 得分,尚未超越 GPT 5.4 xhigh
Gemini 3.5 flash 在基准测试中取得了一定分数,但性能尚未超越 GPT 5.4 xhigh。
Claude Fable 5 基准测试
Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。
Gemini 3.5 Flash在Artificial Analysis上的表现比其表面数据更糟
比较显示,Gemini 3.5 Flash在Artificial Analysis基准测试中得分略低于Gemini 3.1 Pro,且尽管每token API定价更低,但其总基准测试成本却更高。