部分模型一周内定价相同,于是我观察了人们实际使用的模型
摘要
当多个AI模型以相同价格运行一周时,实际的token使用量揭示了与排行榜排名不同的偏好差异,表明编码和通用聊天各有不同的顶级模型,且长上下文使用集中在两个受信任的模型上。
比起基准测试,我更信任的是那些平淡无奇的事实:当价格不再左右选择时,人们实际在用什么。本月有一段时间,一批模型每百万token的定价大致相同,这就排除了通常在讨论中占主导地位的因素。当一个模型远比其它所有模型便宜时,你无法判断人们使用它是因为它好还是因为它便宜。去掉这个变量,使用量图表就成了更清晰的偏好信号。我一直在关注的是实时使用份额,而不是竞技场投票或基准测试。第一周就有几个现象值得注意。在编码竞技场排名第一的模型,在实际流量中并非使用最多的,甚至不是第二。按token量计算使用最多的模型,在大多数公开排行榜上排名居中。当价格均等时,人们更多地去使用它,这与排行榜第一的思维模型所预测的相反。长上下文使用几乎完全集中在两个模型上。一旦价格持平,长上下文调用就收缩到少数几个模型上,而不是分散开来。这表明人们之前使用长上下文时,不管质量如何,都选择每token最便宜的模型;而当这种激励消失后,他们又回到了真正信任的那两个模型上。编码和通用聊天使用之间的差距比我预期的要大。编码流量和通用流量的顶级模型不同,且差距明显。“一个模型统治一切”的说法,在按任务类型而非整体使用量来看时是站不住脚的。我反复想到的是,排行榜只是别人制定的评分规则下的意见快照。实时使用则是人们实际花费token的行为,这比投票更接近他们真正的选择。它们衡量的是不同的东西,理应存在差异。这个差异正是有趣之处。我从某个聚合网站公布的公共消费页面拉取数据,这类页面发布的是每个模型的实时token份额,而不仅仅是票数。我不在乎谁在促销中获胜。我感兴趣的是两个排名之间的差距,因为当它们一致时,模型可能真的很强;当它们不一致时,你就找到了一个被基准测试群体高估或低估的模型。这正是值得关注的模型所在。我想在别人指出之前先说明一个细微之处。使用份额并不等同于质量。一个模型可能因为它是某个流行工具中的默认选项而被大量使用,而不是因为有人选择了它。当价格均等时,这个信号变得更干净,因为默认选项的激励减弱了,但它仍然不是纯粹的质量衡量标准。它只是人们在需要付出代价时所做出的选择。我认为这比那些争论所承认的更重要。我关注接下来两周的更广泛模式是:使用排名会稳定下来还是会继续漂移。如果稳定下来,说明价格均等条件找到了真正的偏好顺序。如果继续漂移,说明人们仍在探索,早期的使用数字只是噪音。无论哪种情况,都比刷新一个几乎不动的竞技场更有用。至于我这边,之所以能有按任务的使用量来比较,是因为我把所有请求都通过一个路由层(我用的是zenmux),而不是通过六个直接的API密钥,它会记录每个模型的token花费,而无需我手动添加。工具不是重点。拥有自己的使用日志,才能让你注意到排行榜所说的与实际流量所做的之间的差距。
相似文章
按实际使用而非基准分数排名的AI模型——基准冠军勉强进入前20
一份基于实际使用量、成本和速度的AI模型排名显示,基准冠军在实际采用率上往往落后,像Flash Lite和GPT-5这样更便宜/更快的模型领先于Gemini 3.1 Pro等高价竞品。
超大规模云服务商与代币价格
尽管有GLM 5.2和Kimi 2.7等新发布,AI模型代币价格仍在下降的分析,暗示昂贵模型可能回报递减。
ChatGPT 市场份额跌破50%已是旧闻,真正的变化是没人只用一个AI了
讨论AI助手使用如何从单一模型忠诚转向多模型切换,市场数据显示ChatGPT首次跌破50%份额,用户根据任务在模型间切换越来越频繁。
工具:这是技术胜利,还是价格战胜利?
对OpenRouter数据的分析显示,中国AI模型已成为Kilo Code编码代理中使用最多的模型,占总token使用量的58%,凭借更低成本和更长上下文窗口,挑战了Claude和GPT的主导地位。
质量差距不到2%但成本相差10倍:在相同的工具调用任务上测试5个模型[D]
一位开发者在工具调用任务上测试了五个AI模型,发现廉价模型的表现与Opus等昂贵模型相差不到2%,腾讯混元(Tencent's Hunyuan)成本低于1.50美元,而Opus为15美元,通过将简单任务路由到廉价模型,每日成本从40美元降至9美元。