AI经济学 第二部分(11分钟阅读)
摘要
本文分析了AI的经济学,聚焦于GPU资源的争夺战,将人类推理的尖峰负载与智能体连续工作负载进行对比,并认为当前基础设施是为人类使用而优化的,而非要求更高的智能体推理。
查看缓存全文
缓存时间: 2026/05/19 00:20
人工智能实验室之间正在进行一场持续的GPU资源战争。这篇文章探讨了需求与供给,以及当前驱动AI的基础设施可能不足以支撑未来的情况。由于供给有限,单纯增加GPU数量并不能线性提升计算能力。在原始规模下,效率比单纯堆硬件更重要。
AI经济学 第二部分
我之前的《AI经济学》和《定量配给》文章已经介绍了AI实验室之间如何争夺GPU资源。
这篇文章将深入探讨需求(推理)和供给(训练、推理、硬件),以及我认为当前驱动AI的基础设施可能不足的原因。
我上一篇关于AI经济学的文章是我分享次数最多的一篇。谢谢大家!抱歉我未能一一回复所有的留言评论。
AI需求
人类的使用模式是突发且不可预测的——短提示、随机时间、一次只做一个会话。峰值在周一上午9点,低谷在周日凌晨3点。当速度变慢时,我们会原谅错误并失去耐心。
而智能体则相反——连续、可编程、全天候运行。长序列多步骤任务、并发会话、跨越数小时甚至数天的记忆。智能体无法在任务中途请求澄清。错误会迅速累积,在50次工具调用中,只要2%的错误率就足以导致任务大多数时候失败。
人类关注速度。智能体关注可靠性、精确度和记忆。
智能体和人类不同的使用模式,对如何利用供给产生了影响。
AI供给——训练与推理
训练和推理的工作负载截然不同。
训练: 训练是一项大规模、不间断的计算任务。互联网上的全部数据被输入模型,数十亿个参数在数千块GPU上同时调整,重复数百万次,直到错误率低到可以发布为止。持续运行数周,中途不停歇。
瓶颈在于GPU之间的通信。每块GPU处理一部分工作,所有GPU必须在下一步开始前同步。整个集群的运行速度取决于最慢的那块芯片。
推理: 推理是模型根据提示生成响应的过程。无论是单字回答还是包含126步的智能体任务,每一次输出都会消耗计算资源,需要花钱,并且与训练竞争同一有限的GPU资源池。
- 人类推理是脉冲式的。硬件在凌晨3点闲置,上午9点被挤爆。你需要按峰值来配置资源,这意味着GPU利用率不足。
- 智能体推理则是一个不同的问题。并发请求较少,但每个请求会运行数小时,消耗的计算量是人类会话的10到50倍。它不在乎时间。利用率高且持续,内存需求也更为严苛。
训练是一次性的蛮力作业。人类推理浅且脉冲化。智能体推理则是持续、内存饥渴的,是三者中最难处理的。
到目前为止,供给堆栈一直是针对低延迟、短上下文、突发性的人类提示进行构建和优化的,而不是为智能体使用场景下的推理而设计的。
AI供给——硬件
芯片如何处理训练和推理,取决于四个组件:两种处理器和两种内存。
四个关键组件:CPU、GPU、HBM、DRAM。
- CPU是序列化的通才,负责决策、路由、内存访问、外部/互联网连接。速度快,但一次只做一件事。
- GPU是并行的数学机器。 它们接收数字,同时运行数十亿次矩阵计算,然后输出数字。它们无法访问外部世界,只知道数学运算。
- HBM(高带宽内存) 位于芯片上。速度极快,但存储容量极为有限。制造成本高。一块GPU上所能键合的HBM容量受物理空间限制。
- DRAM(动态随机存取内存) 位于芯片外。存储容量巨大,但访问速度慢。扩展成本低,但从中检索数据较为耗时。
这四个组件如何相互作用取决于工作负载:
-
训练: 一次性的、长时间的、连续的事件,GPU和HBM占据主导地位。 这是一项单一的、不间断的、持续数周的、计算密集型的数学任务,数千块GPU并行处理数十亿个参数。HBM必须以高速持续向GPU提供数据。HBM速度慢会导致GPU闲置,运行效率减半。整个集群的运行速度取决于最慢的芯片——一块滞后的GPU会使其他所有等待同步的GPU停滞不前。 CPU在此处是旁观者,因为运行过程中无需做出决策,无需调用外部工具,也无需路由逻辑;同时,由于训练循环完全在GPU和HBM内部运行,DRAM也从未被触及。
-
人类推理: 高并发但浅层,HBM承担重担。 数百万个短请求同时冲击集群,每个请求生成几百个token后就消失。HBM的关键任务是足够快地加载模型,以便在用户失去耐心之前返回第一个token。 DRAM和CPU大部分时间处于空闲状态,因为会话时间太短,不会溢出HBM进入DRAM;CPU所做的无非是将用户请求路由到GPU,并将响应路由出去,就像一个交通协调员。
-
智能体推理: 三者中最难的,同时给所有组件(CPU、GPU、HBM、DRAM)带来压力。 这是一个完全不同的问题:并发请求较少,但每个请求是长时间的持续作业,消耗的计算量是人类会话的10到50倍。HBM成为硬约束,因为更长的上下文窗口和任务历史会超出其有限的容量,迫使数据溢出到DRAM,而DRAM则要容纳不断增长的任务、工具结果和中间输出。 与训练和人类推理不同,CPU在这里是主要参与者。每次智能体调用外部工具、API或连接互联网时,GPU会交回控制权给CPU,由CPU解析工具结果,将其格式化为token,并管理写入DRAM的内容,然后再交回给GPU继续生成。 GPU/CPU与HBM/DRAM之间的这种持续来回切换,使得智能体推理成为同时给所有组件带来最大压力的工作负载。
在实践中,智能体推理和人类推理之间的界限是模糊的。如果人类使用模型进行网络搜索、调用第三方API或在对话中途拉取文档,CPU就会变得活跃,工具调用发生,DRAM开始填满上下文。
三种工作负载的GPU利用率各不相同:
- 训练: 平坦且持续的蓝色线
- 人类推理: 红色线,遵循人类行为模式,工作时段达到峰值,夜间和周末下降
- 智能体推理: 绿色中间线,几乎是连续的,但每当CPU接管进行工具调用时会出现中断,GPU短暂闲置
结论
训练:单纯增加GPU并不能线性提升计算能力。在供给有限的情况下,效率比原始规模更为重要。
- 每增加一块芯片,芯片间通信开销就会增加,影响计算收益。
- 重点在于如何用更少的计算量、更少的训练轮次、更智能的数据选择来训练前沿模型。
- GPU周边的生态系统变得更为关键,例如GPU如何联网、如何编写软件来指令GPU等。
- NVIDIA的护城河不仅仅是GPU本身,还有其网络技术(NVLink)和软件(CUDA)。目前还没有其他公司能同时在这三方面匹敌。
人类推理的低GPU利用率是一个巨大的机会成本。
- 凌晨3点到上午9点之间闲置的GPU,本可以用来训练新模型、服务于更高利润的产品,或运行更便宜的旧模型。
- 用NVIDIA的GPU来运行短促的人类对话,就像用法拉利去菜市场买菜。
- 针对短上下文、高并发优化的推理专用芯片存在机会(例如Groq和AWS Inferentia)。
- 云服务商正在尝试利用竞价实例和动态重分配来填补闲置容量,但这仍处于早期阶段。
智能体推理的芯片市场尚属空白。
- 其工作负载特征——长上下文、频繁的CPU-GPU切换、HBM向DRAM溢出、持续计算——与当前芯片所优化的场景完全不同。
- 目前还没有专门为此构建的基础设施,因为当前的智能体工作负载是在为人类设计的硬件上运行的。
HBM(高带宽内存) 是瓶颈所在:
- SK海力士、三星和美光占据主导地位,因为HBM容量很难构建——在芯片上能键合的内存受物理空间限制。
- 训练引发了第一个HBM超级周期。而智能体AI对上下文的巨大需求正在引发第二个超级周期。
- 目前没有可信的新进入者,因为HBM晶圆厂需要数十年的投资和专门的封装技术,而后者目前由台积电主导。
- CXL 3.0是最有希望的短期解决方案,它允许CPU和GPU直接共享统一的内存池,绕过了PCIe这条高速公路,但在大规模商业部署上仍需2-3年。
相似文章
AI推理遵循着截然不同的规则(9分钟阅读)
文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。
AI智能体
分析高盛研究,对比AI智能体与人类在编码、支持和数据录入方面的成本,并预测token消耗增长及推理成本下降。讨论生产力提升、岗位替代及医疗健康领域的机遇。
AI科学与经济:系统图谱
本文认为,尽管AI在模式识别和假设生成方面表现出色,但科学和经济的进步需要与现实世界的接地互动以及制度执行,强调了人机协作的必要性。
推理的变革(阅读时长约 8 分钟)
本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。
AI agents 正在改变人们对计算成本的看法
本文讨论了AI代理工作流如何将优化重心从单纯的推理成本转向更广泛的挑战,如延迟、编排开销和可靠性。文章强调了向混合架构和动态模型路由发展的趋势,以应对这些多步骤工作流的复杂性。