Artificial Analysis | Google 进行基准测试的首选网站 | Gemini 3.1 Pro 在实际使用中远不及 Opus 4.7

Reddit r/singularity 2026/06/07 11:39 新闻

ai-models benchmarking google gemini opus performance-comparison opinion

摘要

一项比较表明，Google 的 Gemini 3.1 Pro 在实际使用中的表现远不如 Opus 4.7，文章强调 Artificial Analysis 是进行基准测试的首选资源。

标题

查看原文

相似文章

TLDR AI

谷歌发布了 Gemini 3.5 Flash，这是一款混合速度模型，在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡，同时在智能体和编程基准测试中表现良好。

Reddit r/LocalLLaMA

作者分享了实际对比体验，显示 Gemma 4 在实用的指令遵循方面优于 Gemini 3.5 Flash 和 Claude Opus 5 等更大的模型，认为当前的 LLM 基准测试未能反映真实世界的可用性。

Reddit r/LocalLLaMA

一位用户分享了轶事发现：Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型，并与 Opus 4.7 能力相当，还突出了一个 Gemma 擅长的基准测试（SciCode）。

Reddit r/AI_Agents

本文突出了 Claude Opus 和 Gemini Pro 在预测基准测试中的性能排名反转，具体取决于模型是自行进行网络搜索还是使用固定的证据。这表明，在研究阶段 Opus 表现出色，而 Gemini 在基于固定证据的判断方面更胜一筹，揭示了标准基准测试与实际部署条件之间的不匹配。

Reddit r/AI_Agents

一位用户报告称，Gemini 3.1 Pro 在编程方面明显不如 Codex 和 Claude，将其比作经验不足的初级开发者，并对谷歌在前沿编程模型方面的竞争力表示怀疑。