Artificial Analysis | Google 进行基准测试的首选网站 | Gemini 3.1 Pro 在实际使用中远不及 Opus 4.7
摘要
一项比较表明,Google 的 Gemini 3.1 Pro 在实际使用中的表现远不如 Opus 4.7,文章强调 Artificial Analysis 是进行基准测试的首选资源。
标题
相似文章
Gemini 3.5 Flash 凭速度看很不错(8分钟阅读)
谷歌发布了 Gemini 3.5 Flash,这是一款混合速度模型,在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡,同时在智能体和编程基准测试中表现良好。
Gemma 4 31B 的能力让我惊讶
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
我们一直在基准测试中挑选前沿模型,但这些测试条件与我们的实际部署环境并不相符。
本文突出了 Claude Opus 和 Gemini Pro 在预测基准测试中的性能排名反转,具体取决于模型是自行进行网络搜索还是使用固定的证据。这表明,在研究阶段 Opus 表现出色,而 Gemini 在基于固定证据的判断方面更胜一筹,揭示了标准基准测试与实际部署条件之间的不匹配。
我们是否应该彻底放弃用 Gemini 进行编程?
一位用户报告称,Gemini 3.1 Pro 在编程方面明显不如 Codex 和 Claude,将其比作经验不足的初级开发者,并对谷歌在前沿编程模型方面的竞争力表示怀疑。
Gemini 3.5 Flash在Artificial Analysis上的表现比其表面数据更糟
比较显示,Gemini 3.5 Flash在Artificial Analysis基准测试中得分略低于Gemini 3.1 Pro,且尽管每token API定价更低,但其总基准测试成本却更高。