AI价格暴跌：是软件的故事，而非硬件（14分钟阅读）

TLDR AI 2026/05/22 00:00 新闻

摘要

本文认为，AI推理成本的快速下降是由软件优化而非硬件改进驱动的，并且运行在消费级GPU上的开放权重模型正变得越来越能与前沿模型竞争。

运行在旧式通用硬件上的本地开放权重模型正变得越来越能与前沿模型竞争。这对前沿实验室能为其最大模型收取的费用产生了重大影响。许多应用并不需要最好的模型，因此不值得支付溢价。

查看原文

查看缓存全文

缓存时间: 2026/05/22 18:18

# AI价格暴跌是软件的故事，而非硬件的来源：https://weightythoughts.com/p/ais-plummeting-prices-are-a-software [图片](https://substackcdn.com/image/fetch/$s_!hDcu!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F63a050fb-8129-4308-a76c-2ab8b2135d6d_1536x1024.jpeg) 为什么模型推理越来越便宜？我如何将即将到来的每月2000多美元的AI代理账单降到几乎为零？为什么在普通硬件上运行本地模型对大多数人来说可能“足够好”？这里有两个宏观趋势相互直接促进。第一，**正如我之前提到的，AI推理成本每年下降70-90%。** Guido Appenzeller 通过他的原始观察创造了“LLMflation”一词（https://a16z.com/llmflation-llm-inference-cost/），即成本在“三年内下降了1000倍”。无论我说多少次——无论有多少聪明的观察者指出这一点——它仍然让大多数人震惊，因为AI*感觉上*越来越贵。这是因为成本在下降针对的是*相同的能力*（相同模型、相同查询），而我们却在不断升级所使用的（更大模型、更昂贵查询）。原因与摩尔定律（比LLMflation慢）下计算机价格没有降到0.00001美元一样——我们让计算机变得越来越大，即使成本指数级下降。然而，这是一个老故事。这部分的有趣之处在于是什么驱动了这种成本的暴跌。**主要不是硬件。而是*****软件。*** [图片](https://substackcdn.com/image/fetch/$s_!4xco!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6a5af2dc-3d1f-43a3-b585-43860cc3e1a4_3000x2213.png) 来自a16z的每年10倍下降图表（https://a16z.com/llmflation-llm-inference-cost/）。第二个是一个后果：**在有点旧的普通硬件上运行的本地、开放权重模型正变得越来越能与前沿模型竞争。** 这显然对前沿实验室最终能为最大模型收取的价格有重大影响——以及潜在后果。我最终是偶然研究和写了这篇文章。我一直自己尝试开放权重模型，即使运行它们毫无意义。我（公开的）使用语言模型的历史可以追溯到2014年，当时我为数据科学认证发表了一个Google模型论文的实现（https://github.com/j-wang/DataScienceCapstone）。这主要是一种爱好/学习经历，没有实际产出——直到最近。几周前，我开始尝试Qwen 3.6 27B——大约一个月前（2026年4月）发布。我没有在Nvidia H100/B200或其他数据中心GPU上运行它。我是在一块消费级游戏显卡——2022年发布的Nvidia RTX 3090 Ti上运行的。虽然我听到了对其能力的好评，但我没抱太大期望。令我惊讶的是，它*感觉上*就像在运行Anthropic的模型Claude Sonnet，这是比最大模型低一级的模型（Anthropic鼓励人们将其作为“日常”模型使用的那个）。当然，它不是Opus（Anthropic最大、最贵的模型）或GPT-5.5 Pro（OpenAI的最大模型），但这个东西是开放权重/免费的，并且在一块4年前的消费级GPU上运行！当然，“感觉”对模型质量来说意义不大。幸运的是，Anthropic迫使我寻找替代方案来运行我相当广泛的代理工作流。我在这里详细描述过那个工作流（它仍然是我有史以来最受欢迎的文章之一）（https://weightythoughts.com/p/how-i-utilize-ai-agents）。注意，那是（相对）很久以前的事了。我现在运行的代理*多得多*——多到我实际上需要代理来管理我的代理（我重新发明了组织图……）。 [图片](https://substackcdn.com/image/fetch/$s_!CUM0!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe5280212-8074-4e68-b6ab-5812d8999aae_1162x1426.png) 我到底有多少个代理？谁说得清？我确信这就像有太多孩子一样。到某个点你就开始四舍五入了。为什么他们迫使我寻找替代方案？嗯，从2026年6月15日开始，`claude -p`——根据我的代理文章（https://weightythoughts.com/p/how-i-utilize-ai-agents），我的大多数自主AI代理都是这样运行的——不再包含在订阅中。取而代之的是，你获得价值200美元的积分，按完整API费率计算，贵了25倍。（https://venturebeat.com/technology/anthropic-reinstates-openclaw-and-third-party-agent-usage-on-claude-subscriptions-with-a-catch）那么，我的代理堆栈花费多少？我接近200美元吗？呃，不。仅我的自动化系统按那些费率一个月就要超过2000-3000美元，而个人总花费还要更高。我不责怪Anthropic对此进行打击。我可能一直在遵循Claude Code负责人Boris Cherny关于可接受使用的指南……但是，这仍然是乘以大量用户的一大笔钱。所以一个原本“有趣但学术”的实验突然有了预算限制。从Opus降到Sonnet几乎只让我降到了大约1000美元/月（而且对于其中一些工作，Sonnet未能给我可接受的结果）。对于部分工作，我可以在我的20美元ChatGPT计划中使用`codex exec`（OpenAI相当于`claude -p`的东西）。用一个前沿模型替换另一个。但20美元不够——尤其是在我需要GPT 5.5来处理Sonnet失败的更困难任务时。问题是，Qwen 3.6 27B（意味着270亿参数）真的能替代*Sonnet*（一个可能有几千亿参数的模型）吗？嗯，公开基准测试似乎表明它可以。然而，基准测试并不总是反映真实性能。所以我对我最关心的工作负载运行了一些并排基准测试：每日简报摘要、图表注释（特别是针对各种医疗应用和AI论文），以及arXiv（研究论文预印本仓库）分类。相同的提示，相同的上下文，四个模型。对于论文分类任务，“质量”部分取决于品味，所以我使用Opus和Codex作为共识陪审团——当他们同意阈值时，这是我在没有自己手动标记所有内容的情况下最接近真实情况的代理。 [图片](https://substackcdn.com/image/fetch/$s_!fNuE!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff632b077-7ec0-496c-a622-cb36179c746a_1812x282.png) 总体而言，所有模型的简报基本相似（所以Opus总是大材小用；Qwen就可以了）。Qwen和Sonnet都不够好用于注释（所以我把它移到了Codex）。最后，Sonnet实际上在论文评分上比Qwen*更差*。这意味着一个270亿参数的开放权重模型，量化为Q4，在4年前的消费级GPU上运行，其工作质量与付费的中档云端API相当。是的，它不是Anthropic的Opus，但它大致相当于Sonnet——一个仍然在Anthropic前沿阵容中的模型。 Qwen 3.6 27B是一个特别突出的模型，但它不太可能在*每个*工作流上都击败Sonnet。然而，它和许多最近发布的“小型”开放权重模型都已达到日常使用质量（不是“小型语言模型”，而是小型“大型语言模型”）。甚至，Qwen 3.6 27B还具备视觉能力！虽然，根据Nathan Lambert（https://open.substack.com/users/10472909-nathan-lambert?utm_source=mentions）的说法，开放权重模型一直处于“永久追赶”状态（https://www.interconnects.ai/p/open-models-in-perpetual-catch-up）并且总体上被低估，但让我印象深刻的是，为了获得“可接受”的结果，我们在硬件需求曲线上已经下降了多远。 [图片](https://substackcdn.com/image/fetch/$s_!04lF!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F43f033c2-0bcf-46d6-a917-d517d93c43fa_2680x1366.png) 完成所有这些迁移后——仅评分工作负载在Sonnet上每月大约需要120美元，但变成了0美元——我把我预计的`claude -p`预算控制在了200美元/月以下，而且还有舒适的余量。 *（对敏锐的读者来说，我自己的电费可能并非真正为0美元——尤其是在湾区，PG&E给了我全美最贵的一些电价。尽管如此，即使按那些电价计算，也便宜了一个数量级。每次运行绝对低于0.004美元。）* 曾经，像3090 Ti这样的旧消费级显卡无法运行任何能与前沿模型合理竞争的东西。现在，它能够运行一个与全球顶级AI实验室核心产品同级别的模型。我的*硬件*保持不变——没有圣诞老人秘密升级我的GPU——所以显然有其他东西发生了变化。在2023年8月，我写了一篇题为“算力作为AI的瓶颈被高估了”的文章（https://weightythoughts.com/p/compute-is-overrated-as-ais-bottleneck），基本论点是，在模型-数据-算力框架下，是*模型*承担了更多工作，而不是当时那些夸张的GPU外推所暗示的那样。对我而言，根据我的书，我将“模型”定义为所有使AI工作起来的算法*和*技术——包括训练后、RLHF等……但也包括底层模型架构本身的改进。当时，普遍观点是，如果只是沿着曲线向前推测，AI训练成本将在2035年超过美国GDP。我的论点——我很高兴地说它站住了脚——是“更多算力！”的重要性不及架构和算法上的进步。深度学习（以及CNN、Transformer等）推动了当前的繁荣，而不仅仅是“无限算力”——新技术正在帮助将成本降低到足够低，以至于任何可以AI化的东西，*都将被AI化*。 *（不过，按照我的书（https://bit.ly/smartaibook），并非所有东西都会被AI化……因为并非所有东西都可以。）* [图片](https://substackcdn.com/image/fetch/$s_!MiNP!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9ccfc0c2-8386-4b87-906e-e3a604072d1e_1872x1086.jpeg) 来源：新兴技术与安全中心（AI与算力简报2022年）。显然，这并没有完全发生…… 所以，我有一个很好的轶事。这在更广阔的领域里看起来是什么样的？对于最近的2024-2025年窗口，最可行的分解表明，大多数推理效率提升来自非硬件的技术进步——特别是模型侧或算法改进——而不仅仅是硅本身。根据方法论的不同，硬件约占四分之一到三分之一。在MIT的论文中，作者包括了非硬件的技术改进，如数据、蒸馏、MoE和相关效率改进。斯坦福主要关注模型侧改进（在消费/边缘硬件上的本地模型）。 **无论方法论如何，两份报告都同意大部分下降不是硅带来的。** 也许并非所有的都是*字面意义上的*软件，但它是广义上的“模型”，正如我在模型-数据-算力框架中使用它的方式（不过，在标题中没有上下文，“模型”可能会让人困惑）。除了我自己的硬件之外，还有一个有用的自然实验。 NVIDIA自己的基准测试显示，在相同的硅片上，通过纯软件更新，Llama 2 70B在H100上的吞吐量在一年内提高了大约1.5倍。这是无需购买新硬件就能获得的一代硬件大小的收益。H200在此基础上又增加了约28%，Blackwell又增加了约3倍——但相同硬件上的软件工作比人们所认为的要重要得多。在更小的尺度上，同样的事情不断发生在我设置上！软件不断让它变得更好。在我写这篇文章的时候（字面意义上），一个向llama.cpp添加多令牌推测解码的拉取请求（https://github.com/ggml-org/llama.cpp/pull/22673）合并了，并且在相同的3090 Ti上将我的Qwen 3.6 27B的吞吐量大约翻了一番： [图片](https://substackcdn.com/image/fetch/$s_!Uo9X!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9d4af68e-62ec-415a-8f60-e9e1f432daa8_754x282.png) 我的吞吐量（速度）基本上在免费的情况下在一夜之间翻了一番（对吹毛求疵者来说，是的，我不得不稍微减小我的上下文窗口——但考虑到相当微小的变化，这实际上几乎没有区别）。软件改进、技巧和技术……这些都很好，但请明确一点，即使我们坚持使用Transformer，模型*已经*发生了实质性的转变。在架构或公式方面的显著进步包括MoE（混合专家），许多大型模型都基于它（最著名的是DeepSeek v3/R1，它引发了“DeepSeek时刻”）、蒸馏（帮助大模型训练小模型——使大模型突破能够“向下渗透”到更小的模型），以及量化。量化是使Qwen 3.6 27B能够在我的3090 Ti上运行的部分原因——否则它几乎放不下完整尺寸，并且可能没有上下文窗口（在这里阅读提醒（https://weightythoughts.com/p/ai-dementiawhy-your-agent-gets-progressively）了解它是什么以及为什么重要）。然而，与蒸馏类似，它也允许许多超大规模企业和实验室降低运行这些模型的成本，同时保留大部分能力/性能。当然，硬件仍然重要。中国的实验室在这方面可能会告诉你一些事（https://www.understandingai.org/p/a-big-lesson-of-my-china-visit-compute）…… Nvidia H200与H100上的HBM（高带宽内存）——它们具有相同的计算能力，只是内存带宽更高——在内存绑定工作负载上提供了大约40%的“免费”推理加速。这是纯粹的硬件改进。从Ampere到Hopper再到Blackwell，Nvidia的迭代创造了显著的改进（这就是人们购买他们芯片的原因！）。AI芯片公司Cerebras上周上市，峰值接近1000亿美元（https://www.cnbc.com/2026/05/15/nvidia-cerebras-stock-price-ipo.html）（此后已大幅下跌……）。Groq去年年底被Nvidia以200亿美元收购（https://www.cnbc.com/2025/12/24/nvidia-buying-ai-chip-startup-groq-for-about-20-billion-biggest-deal.html）。这些硬件改进当然重要。然而，未明说的共识是AI的主要约束是GPU和芯片。正如我们通过多种方式所看到的，这是错误的。在我的书（https://www.amazon.com/What-You-Need-Know-About-ebook/dp/B0FP88B1YV/ref=tmm_kin_swatch_0）中，我写道“任何可以AI化的东西，都将被AI化”。原因就是这个AI推理的成本曲线。它比摩尔定律更快，摩尔定律让我们从1980年的巨型大型机发展到了口袋里的智能手机，而智能手机比那些房间大小的机器强大一百万倍。 Epoch AI估计（https://epoch.ai/data-insights/consumer-gpu-model-gap）前沿能力在发布后的6-12个月内就可以在一块顶级消费级GPU上运行。这基本上就是我在3090 Ti上运行Qwen 3.6 27B时所看到的（并且感到惊讶的）。当然，这也意味着，如果你试图提高价格（或者像Anthropic那样，挤压我有的某些使用场景），人们有*很多*其他选择。这给前沿实验室的定价能力设置了一个上限。很久以前（即去年四月），我讨论过前沿实验室的两条可能路径——训练固定成本可能继续增加，它们可能成为自然垄断……或者总成本可能跌至谷底，它们的能力变成商品。（https://weightythoughts.com/p/ais-endgame-how-foundational-model）不一定非得这样。

AI价格暴跌：是软件的故事，而非硬件（14分钟阅读）

相似文章

停止购买新硬件的理由（或者，为什么推理成本越来越低）

硬件革命：为什么AI硬件永远改变了（3分钟阅读）

AI太贵了

AI经济学第二部分（11分钟阅读）

科技公司能否学会青睐更便宜的AI模型？

提交意见反馈