按实际使用而非基准分数排名的AI模型——基准冠军勉强进入前20

Reddit r/singularity 2026/05/25 12:28 新闻

ai-models benchmarks usage ranking open-source llm adoption

摘要

一份基于实际使用量、成本和速度的AI模型排名显示，基准冠军在实际采用率上往往落后，像Flash Lite和GPT-5这样更便宜/更快的模型领先于Gemini 3.1 Pro等高价竞品。

大多数模型排行榜只是基准分数。我一直在构建一个按实际使用排名的榜单——每个模型实际被运行和讨论的次数，加上成本和速度——结果顺序几乎面目全非。几个突出的模型： * Gemini 3.1 Pro 目前基准分数最高。但按实际使用排名，它只排在第17位左右——它仍是预览版，几乎没人真正在使用。 * Google 使用最多的模型根本不是 Pro，而是更便宜、更快的 Flash Lite。人们喜欢便宜的，而不是最聪明的。 * GPT-5.5 单看基准分数会接近顶部，但按使用量排名在第22位左右——它很新且昂贵，大多数人还没有切换过去。 * 整体排名第一的模型也不是基准领导者——它是 GPT-5，凭借纯粹的使用量和讨论热度获胜。OpenAI 以同样的方式占据了前7名中的6个。所有这些模式表明：纸面上最好的模型和人们实际使用的模型很少相同，而且使用量往往比基准分数滞后几周，因为人们会试用新版本并决定是否值得切换。这让我不禁思考，基准竞赛对普通用户来说到底有多重要，相比价格和可用性。你真的在使用基准排名第一的模型吗，还是随便挑个便宜又好用的？ *（来自我一直在构建的一个开源排名：AgentTape——如果有人想要原始数据的话！）*

查看原文

按实际使用而非基准分数排名的AI模型——基准冠军勉强进入前20

相似文章

'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。

2026 年“免费层级 AI 技术栈”现状

还有人觉得AI基准测试在预测实际性能方面越来越没用了吗？

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

Arena.ai 可能正在运行迄今为止最欺诈性的基准测试

提交意见反馈