按实际使用而非基准分数排名的AI模型——基准冠军勉强进入前20

Reddit r/singularity 新闻

摘要

一份基于实际使用量、成本和速度的AI模型排名显示,基准冠军在实际采用率上往往落后,像Flash Lite和GPT-5这样更便宜/更快的模型领先于Gemini 3.1 Pro等高价竞品。

大多数模型排行榜只是基准分数。我一直在构建一个按实际使用排名的榜单——每个模型实际被运行和讨论的次数,加上成本和速度——结果顺序几乎面目全非。 几个突出的模型: * Gemini 3.1 Pro 目前基准分数最高。但按实际使用排名,它只排在第17位左右——它仍是预览版,几乎没人真正在使用。 * Google 使用最多的模型根本不是 Pro,而是更便宜、更快的 Flash Lite。人们喜欢便宜的,而不是最聪明的。 * GPT-5.5 单看基准分数会接近顶部,但按使用量排名在第22位左右——它很新且昂贵,大多数人还没有切换过去。 * 整体排名第一的模型也不是基准领导者——它是 GPT-5,凭借纯粹的使用量和讨论热度获胜。OpenAI 以同样的方式占据了前7名中的6个。 所有这些模式表明:纸面上最好的模型和人们实际使用的模型很少相同,而且使用量往往比基准分数滞后几周,因为人们会试用新版本并决定是否值得切换。这让我不禁思考,基准竞赛对普通用户来说到底有多重要,相比价格和可用性。你真的在使用基准排名第一的模型吗,还是随便挑个便宜又好用的? *(来自我一直在构建的一个开源排名:AgentTape——如果有人想要原始数据的话!)*
查看原文

相似文章

2026 年“免费层级 AI 技术栈”现状

Reddit r/AI_Agents

本文概述了预计 2026 年的“免费层级 AI 技术栈”,列出了各大平台(包括 Gemini、GPT 和 Llama 等主要模型)当前及预期的免费访问限额。

Arena.ai 可能正在运行迄今为止最欺诈性的基准测试

Reddit r/singularity

这篇文章批评 Arena.ai 涉嫌运行不诚实的基准测试,声称其将 GPT 5.5 在编程能力上排在 Meta 的 Muse Spark 之下,并将 Grok Imagine 在视频生成方面排在 Seedance 之上,作者断言这是客观错误的。