AI经济学第二部分（11分钟阅读）

TLDR AI 2026/05/18 00:00 新闻

ai-economics gpu-scarcity inference training hardware agents

摘要

本文分析了AI的经济学，聚焦于GPU资源的争夺战，将人类推理的尖峰负载与智能体连续工作负载进行对比，并认为当前基础设施是为人类使用而优化的，而非要求更高的智能体推理。

AI实验室正持续进行GPU资源的争夺战。该文章探讨了供需关系，以及当前支撑AI的基础设施可能不足以应对需求。扩展GPU并不会线性扩展计算能力。在供应有限的情况下，原始规模的效率更为重要。

查看原文

查看缓存全文

缓存时间: 2026/05/19 00:20

人工智能实验室之间正在进行一场持续的GPU资源战争。这篇文章探讨了需求与供给，以及当前驱动AI的基础设施可能不足以支撑未来的情况。由于供给有限，单纯增加GPU数量并不能线性提升计算能力。在原始规模下，效率比单纯堆硬件更重要。

AI经济学第二部分

我之前的《AI经济学》和《定量配给》文章已经介绍了AI实验室之间如何争夺GPU资源。

这篇文章将深入探讨需求（推理）和供给（训练、推理、硬件），以及我认为当前驱动AI的基础设施可能不足的原因。

我上一篇关于AI经济学的文章是我分享次数最多的一篇。谢谢大家！抱歉我未能一一回复所有的留言评论。

AI需求

人类的使用模式是突发且不可预测的——短提示、随机时间、一次只做一个会话。峰值在周一上午9点，低谷在周日凌晨3点。当速度变慢时，我们会原谅错误并失去耐心。

而智能体则相反——连续、可编程、全天候运行。长序列多步骤任务、并发会话、跨越数小时甚至数天的记忆。智能体无法在任务中途请求澄清。错误会迅速累积，在50次工具调用中，只要2%的错误率就足以导致任务大多数时候失败。

人类关注速度。智能体关注可靠性、精确度和记忆。

智能体和人类不同的使用模式，对如何利用供给产生了影响。

AI供给——训练与推理

训练和推理的工作负载截然不同。

训练： 训练是一项大规模、不间断的计算任务。互联网上的全部数据被输入模型，数十亿个参数在数千块GPU上同时调整，重复数百万次，直到错误率低到可以发布为止。持续运行数周，中途不停歇。

瓶颈在于GPU之间的通信。每块GPU处理一部分工作，所有GPU必须在下一步开始前同步。整个集群的运行速度取决于最慢的那块芯片。

推理： 推理是模型根据提示生成响应的过程。无论是单字回答还是包含126步的智能体任务，每一次输出都会消耗计算资源，需要花钱，并且与训练竞争同一有限的GPU资源池。

人类推理是脉冲式的。硬件在凌晨3点闲置，上午9点被挤爆。你需要按峰值来配置资源，这意味着GPU利用率不足。
智能体推理则是一个不同的问题。并发请求较少，但每个请求会运行数小时，消耗的计算量是人类会话的10到50倍。它不在乎时间。利用率高且持续，内存需求也更为严苛。

训练是一次性的蛮力作业。人类推理浅且脉冲化。智能体推理则是持续、内存饥渴的，是三者中最难处理的。

到目前为止，供给堆栈一直是针对低延迟、短上下文、突发性的人类提示进行构建和优化的，而不是为智能体使用场景下的推理而设计的。

AI供给——硬件

芯片如何处理训练和推理，取决于四个组件：两种处理器和两种内存。

四个关键组件：CPU、GPU、HBM、DRAM。

CPU是序列化的通才，负责决策、路由、内存访问、外部/互联网连接。速度快，但一次只做一件事。
GPU是并行的数学机器。 它们接收数字，同时运行数十亿次矩阵计算，然后输出数字。它们无法访问外部世界，只知道数学运算。
HBM（高带宽内存） 位于芯片上。速度极快，但存储容量极为有限。制造成本高。一块GPU上所能键合的HBM容量受物理空间限制。
DRAM（动态随机存取内存） 位于芯片外。存储容量巨大，但访问速度慢。扩展成本低，但从中检索数据较为耗时。

这四个组件如何相互作用取决于工作负载：

训练： 一次性的、长时间的、连续的事件，GPU和HBM占据主导地位。这是一项单一的、不间断的、持续数周的、计算密集型的数学任务，数千块GPU并行处理数十亿个参数。HBM必须以高速持续向GPU提供数据。HBM速度慢会导致GPU闲置，运行效率减半。整个集群的运行速度取决于最慢的芯片——一块滞后的GPU会使其他所有等待同步的GPU停滞不前。 CPU在此处是旁观者，因为运行过程中无需做出决策，无需调用外部工具，也无需路由逻辑；同时，由于训练循环完全在GPU和HBM内部运行，DRAM也从未被触及。
人类推理： 高并发但浅层，HBM承担重担。数百万个短请求同时冲击集群，每个请求生成几百个token后就消失。HBM的关键任务是足够快地加载模型，以便在用户失去耐心之前返回第一个token。 DRAM和CPU大部分时间处于空闲状态，因为会话时间太短，不会溢出HBM进入DRAM；CPU所做的无非是将用户请求路由到GPU，并将响应路由出去，就像一个交通协调员。
智能体推理： 三者中最难的，同时给所有组件（CPU、GPU、HBM、DRAM）带来压力。这是一个完全不同的问题：并发请求较少，但每个请求是长时间的持续作业，消耗的计算量是人类会话的10到50倍。HBM成为硬约束，因为更长的上下文窗口和任务历史会超出其有限的容量，迫使数据溢出到DRAM，而DRAM则要容纳不断增长的任务、工具结果和中间输出。与训练和人类推理不同，CPU在这里是主要参与者。每次智能体调用外部工具、API或连接互联网时，GPU会交回控制权给CPU，由CPU解析工具结果，将其格式化为token，并管理写入DRAM的内容，然后再交回给GPU继续生成。 GPU/CPU与HBM/DRAM之间的这种持续来回切换，使得智能体推理成为同时给所有组件带来最大压力的工作负载。

在实践中，智能体推理和人类推理之间的界限是模糊的。如果人类使用模型进行网络搜索、调用第三方API或在对话中途拉取文档，CPU就会变得活跃，工具调用发生，DRAM开始填满上下文。

三种工作负载的GPU利用率各不相同：

训练： 平坦且持续的蓝色线
人类推理： 红色线，遵循人类行为模式，工作时段达到峰值，夜间和周末下降
智能体推理： 绿色中间线，几乎是连续的，但每当CPU接管进行工具调用时会出现中断，GPU短暂闲置

结论

训练：单纯增加GPU并不能线性提升计算能力。在供给有限的情况下，效率比原始规模更为重要。

每增加一块芯片，芯片间通信开销就会增加，影响计算收益。
重点在于如何用更少的计算量、更少的训练轮次、更智能的数据选择来训练前沿模型。
GPU周边的生态系统变得更为关键，例如GPU如何联网、如何编写软件来指令GPU等。
NVIDIA的护城河不仅仅是GPU本身，还有其网络技术（NVLink）和软件（CUDA）。目前还没有其他公司能同时在这三方面匹敌。

人类推理的低GPU利用率是一个巨大的机会成本。

凌晨3点到上午9点之间闲置的GPU，本可以用来训练新模型、服务于更高利润的产品，或运行更便宜的旧模型。
用NVIDIA的GPU来运行短促的人类对话，就像用法拉利去菜市场买菜。
针对短上下文、高并发优化的推理专用芯片存在机会（例如Groq和AWS Inferentia）。
云服务商正在尝试利用竞价实例和动态重分配来填补闲置容量，但这仍处于早期阶段。

智能体推理的芯片市场尚属空白。

其工作负载特征——长上下文、频繁的CPU-GPU切换、HBM向DRAM溢出、持续计算——与当前芯片所优化的场景完全不同。
目前还没有专门为此构建的基础设施，因为当前的智能体工作负载是在为人类设计的硬件上运行的。

HBM（高带宽内存） 是瓶颈所在：

SK海力士、三星和美光占据主导地位，因为HBM容量很难构建——在芯片上能键合的内存受物理空间限制。
训练引发了第一个HBM超级周期。而智能体AI对上下文的巨大需求正在引发第二个超级周期。
目前没有可信的新进入者，因为HBM晶圆厂需要数十年的投资和专门的封装技术，而后者目前由台积电主导。
CXL 3.0是最有希望的短期解决方案，它允许CPU和GPU直接共享统一的内存池，绕过了PCIe这条高速公路，但在大规模商业部署上仍需2-3年。

AI经济学第二部分（11分钟阅读）

AI经济学第二部分

相似文章

AI推理遵循着截然不同的规则（9分钟阅读）

AI智能体

AI科学与经济：系统图谱

推理的变革（阅读时长约 8 分钟）

AI agents 正在改变人们对计算成本的看法

提交意见反馈

AI经济学 第二部分

相似文章

AI推理遵循着截然不同的规则（9分钟阅读）

AI智能体

AI科学与经济：系统图谱

推理的变革（阅读时长约 8 分钟）

AI agents 正在改变人们对计算成本的看法

提交意见反馈

AI经济学第二部分