当前LLM成本为何不可持续
摘要
本文认为,当前高昂的LLM定价不可持续,原因是性能提升递减、开源权重模型兴起、专用AI芯片降低推理成本以及零切换成本,并预测随着竞争加剧,价格将大幅下降。
暂无内容
查看缓存全文
缓存时间: 2026/06/26 08:16
# AI 与云成本
来源:https://aditya.patadia.org/p/ai-and-cloud-costs
许多公司正因高昂的 AI 成本而吃亏。Uber 在短短 4 个月内就烧光了(https://fortune.com/2026/05/26/uber-coo-ai-spending-tokens-claude-code/)整年的 AI 预算,而 Microsoft、Salesforce 和 Github 也正采取措施减少员工在 AI 上的开支。
另一方面,AI 让许多编程任务变得极其简单,并在数据解读、制作精美幻灯片、设计应用和网站等其他领域持续提供帮助。目前,大型 AI 实验室拥有我们所谓的"前沿模型",这些模型在各类任务中表现非常出色。前沿 AI 实验室自身既做研究也进行托管,因此这些模型的成本最高。例如,GPT 5.5 每百万输入 token 收费 $5,每百万输出 token 收费 $30。根据 OpenRouter(https://openrouter.ai/models?output_modalities=text&order=pricing-high-to-low)的排名,这是目前最昂贵的模型。举个例子,仅用该模型对 50 个文件进行 TypeScript 类型修复,今天下午就花掉了我 $54。
[](https://substackcdn.com/image/fetch/$s_!0_fU!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd4b10bb3-234b-43c3-aa85-8ac23ceb7a35_1200x1017.jpeg)
模型性能趋于平稳、开放权重模型发布、芯片与模型改进、零切换成本以及本地模型,这些原因可能导致 AI 实验室难以维持目前的高定价。
如今每次模型发布我们都能看到改进,但很明显改进幅度越来越小。除非出现全新的突破,当前的学习和推理能力只能扩展到此程度。训练数据也存在问题。大多数 AI 实验室可能已经消化了所有可获取的数字及印刷媒体内容用于模型训练。改善训练数据集将变得异常困难。
这意味着随着性能提升而持续涨价这一趋势将难以为继。已有证据显示,Claude Opus 4.8 与 Claude Opus 4.7 定价相同。一旦模型不再大幅改进,且训练数据与方法趋同,模型价格很可能因竞争而下跌。
OpenAI 在 2022 年推出 ChatGPT 时拥有巨大领先优势,但这一优势正逐渐消失,我们看到 Anthropic 在 2025-26 年占据了榜首。如今像 GLM-5.2 这样的开放权重模型,在编程基准测试中击败了 GPT 和 Opus。该模型的成本仅为 GPT 5.5 的十分之一。
这里的情况是,领先的 AI 实验室不仅收取推理费用,还要承担模型架构研究、训练数据收集与整理、模型训练成本(可能高达数千万甚至数亿美元)、员工薪酬以及营销成本回收。
另一方面,一旦开放权重模型发布,任何推理提供商都可以轻松托管它,仅需在推理成本上加成即可。这比运营一个前沿 AI 实验室要便宜得多。
像 Cerebras、Groq、Google 以及其他许多公司已经意识到 AI 需要专用芯片,普通 GPU 无法满足需求。专用芯片设计成本极高,但一旦架构就绪,大规模量产就很容易,推理成本也会大幅下降。例如,TPU 比 Nvidia H100 GPU 便宜 30-70%。这类进步会持续涌现,不断降低每 token 的成本。
模型架构也在演变。我们从缓存这样的基础改进开始,现在 MoE 模型及其他方法让模型在保持相同精度的同时变得更快。
传统软件如 Windows OS、MS Office、Adobe Suite 以及 SaaS 如 Salesforce、Hubspot、Figma 拥有一个重要的护城河,而 AI 模型没有。每款构建的软件都不是可互换的。你不能一下午就换掉一个 CRM;这需要数月时间。
当更多 AI 实验室进入该领域,更多开放权重模型可用时,这一因素将导致价格迅速崩溃。像 OpenRouter.ai 这样的 AI 网关提供商使得切换模型变得极其简单,只需几秒钟,实际上我们可以编程让它即时切换提供商。零切换成本意味着,一旦出现更好的模型,消费者无需投入任何时间即可切换过去。
最后但同样重要,实际上也是最重要的因素,是用户运行本地模型的能力。到目前为止,几乎所有人都在使用云托管模型,而本地模型要么太大无法部署,要么太慢无法使用。随着芯片的进步,这在 4-5 年内将会改变。新芯片将在本地运行模型,而 RAM 价格几乎肯定会暴跌,使得在电脑和智能手机上部署模型变得容易。我预测大多数操作系统将提供部署模型的方式,并提供一个接口,使本地运行的应用能够连接到模型。
当这种情况发生时,云模型将仅用于最复杂的任务,而简单的任务如代码补全、校对和事实核查将在本地完成。这意味着客户将不再需要那 $20 或 $200 的订阅。
这是我个人层面的第一篇博客,这里做了一些大胆的预测。只有时间能证明它们结果如何,但有一件事是确定的。价格压力将因以上一个或多个原因而到来,最终对消费者都是好事。
#### 关于本文的讨论
### 准备好了解更多?
相似文章
当他们停止补贴LLM订阅时会发生什么?
关于LLM订阅不可持续补贴的评论,预测随着风投资金收紧,价格将上涨,生态系统发生变化,并对开源模型的可用性和硬件成本表示担忧。
当大型语言模型提供商停止补贴时会发生什么?
一位开发者分享了从补贴的OpenAI Codex切换到OpenRouter后AI推理成本的经历,引发了关于当前LLM定价模式可持续性的讨论,以及可能转向开源自托管的趋势。
没有开源LLM的竞争,闭源LLM公司将变得贪得无厌。
文章认为,如果没有开源LLM的竞争,像Anthropic这样的闭源公司会变得傲慢并对客户收取过高费用,例如每月200美元的订阅费。
开源大模型是否已经“足够好”了?
探讨开源大模型是否已能满足大多数用例,质疑闭源模型的附加价值及成本效益权衡。
LLMs与记忆限制——请审阅我的想法
本文分析了LLM记忆限制,认为真正的个人AI需要单租户权重定制,这与当前多租户云经济模式相冲突,并指出开源权重模型可能是进步的关键来源。