部分模型一周内定价相同，于是我观察了人们实际使用的模型

Reddit r/ArtificialInteligence 2026/06/25 17:49 新闻

model-usage pricing benchmarking leaderboards llm-comparison real-world-usage

摘要

当多个AI模型以相同价格运行一周时，实际的token使用量揭示了与排行榜排名不同的偏好差异，表明编码和通用聊天各有不同的顶级模型，且长上下文使用集中在两个受信任的模型上。

比起基准测试，我更信任的是那些平淡无奇的事实：当价格不再左右选择时，人们实际在用什么。本月有一段时间，一批模型每百万token的定价大致相同，这就排除了通常在讨论中占主导地位的因素。当一个模型远比其它所有模型便宜时，你无法判断人们使用它是因为它好还是因为它便宜。去掉这个变量，使用量图表就成了更清晰的偏好信号。我一直在关注的是实时使用份额，而不是竞技场投票或基准测试。第一周就有几个现象值得注意。在编码竞技场排名第一的模型，在实际流量中并非使用最多的，甚至不是第二。按token量计算使用最多的模型，在大多数公开排行榜上排名居中。当价格均等时，人们更多地去使用它，这与排行榜第一的思维模型所预测的相反。长上下文使用几乎完全集中在两个模型上。一旦价格持平，长上下文调用就收缩到少数几个模型上，而不是分散开来。这表明人们之前使用长上下文时，不管质量如何，都选择每token最便宜的模型；而当这种激励消失后，他们又回到了真正信任的那两个模型上。编码和通用聊天使用之间的差距比我预期的要大。编码流量和通用流量的顶级模型不同，且差距明显。“一个模型统治一切”的说法，在按任务类型而非整体使用量来看时是站不住脚的。我反复想到的是，排行榜只是别人制定的评分规则下的意见快照。实时使用则是人们实际花费token的行为，这比投票更接近他们真正的选择。它们衡量的是不同的东西，理应存在差异。这个差异正是有趣之处。我从某个聚合网站公布的公共消费页面拉取数据，这类页面发布的是每个模型的实时token份额，而不仅仅是票数。我不在乎谁在促销中获胜。我感兴趣的是两个排名之间的差距，因为当它们一致时，模型可能真的很强；当它们不一致时，你就找到了一个被基准测试群体高估或低估的模型。这正是值得关注的模型所在。我想在别人指出之前先说明一个细微之处。使用份额并不等同于质量。一个模型可能因为它是某个流行工具中的默认选项而被大量使用，而不是因为有人选择了它。当价格均等时，这个信号变得更干净，因为默认选项的激励减弱了，但它仍然不是纯粹的质量衡量标准。它只是人们在需要付出代价时所做出的选择。我认为这比那些争论所承认的更重要。我关注接下来两周的更广泛模式是：使用排名会稳定下来还是会继续漂移。如果稳定下来，说明价格均等条件找到了真正的偏好顺序。如果继续漂移，说明人们仍在探索，早期的使用数字只是噪音。无论哪种情况，都比刷新一个几乎不动的竞技场更有用。至于我这边，之所以能有按任务的使用量来比较，是因为我把所有请求都通过一个路由层（我用的是zenmux），而不是通过六个直接的API密钥，它会记录每个模型的token花费，而无需我手动添加。工具不是重点。拥有自己的使用日志，才能让你注意到排行榜所说的与实际流量所做的之间的差距。

查看原文

部分模型一周内定价相同，于是我观察了人们实际使用的模型

相似文章

按实际使用而非基准分数排名的AI模型——基准冠军勉强进入前20

超大规模云服务商与代币价格

ChatGPT 市场份额跌破50%已是旧闻，真正的变化是没人只用一个AI了

工具：这是技术胜利，还是价格战胜利？

质量差距不到2%但成本相差10倍：在相同的工具调用任务上测试5个模型[D]

提交意见反馈