按实际使用而非基准分数排名的AI模型——基准冠军勉强进入前20
摘要
一份基于实际使用量、成本和速度的AI模型排名显示,基准冠军在实际采用率上往往落后,像Flash Lite和GPT-5这样更便宜/更快的模型领先于Gemini 3.1 Pro等高价竞品。
大多数模型排行榜只是基准分数。我一直在构建一个按实际使用排名的榜单——每个模型实际被运行和讨论的次数,加上成本和速度——结果顺序几乎面目全非。
几个突出的模型:
* Gemini 3.1 Pro 目前基准分数最高。但按实际使用排名,它只排在第17位左右——它仍是预览版,几乎没人真正在使用。
* Google 使用最多的模型根本不是 Pro,而是更便宜、更快的 Flash Lite。人们喜欢便宜的,而不是最聪明的。
* GPT-5.5 单看基准分数会接近顶部,但按使用量排名在第22位左右——它很新且昂贵,大多数人还没有切换过去。
* 整体排名第一的模型也不是基准领导者——它是 GPT-5,凭借纯粹的使用量和讨论热度获胜。OpenAI 以同样的方式占据了前7名中的6个。
所有这些模式表明:纸面上最好的模型和人们实际使用的模型很少相同,而且使用量往往比基准分数滞后几周,因为人们会试用新版本并决定是否值得切换。这让我不禁思考,基准竞赛对普通用户来说到底有多重要,相比价格和可用性。你真的在使用基准排名第一的模型吗,还是随便挑个便宜又好用的?
*(来自我一直在构建的一个开源排名:AgentTape——如果有人想要原始数据的话!)*
相似文章
'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。
对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明,没有单一模型在所有任务上占据优势;要实现最佳性能,需要采用多模型路由器,根据各模型的优势与弱点进行专门化使用。
2026 年“免费层级 AI 技术栈”现状
本文概述了预计 2026 年的“免费层级 AI 技术栈”,列出了各大平台(包括 Gemini、GPT 和 Llama 等主要模型)当前及预期的免费访问限额。
还有人觉得AI基准测试在预测实际性能方面越来越没用了吗?
本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距,重点强调了诸如一致性、延迟和上下文处理等问题。
@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai
来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。
Arena.ai 可能正在运行迄今为止最欺诈性的基准测试
这篇文章批评 Arena.ai 涉嫌运行不诚实的基准测试,声称其将 GPT 5.5 在编程能力上排在 Meta 的 Muse Spark 之下,并将 Grok Imagine 在视频生成方面排在 Seedance 之上,作者断言这是客观错误的。