@snowboat84: https://x.com/snowboat84/status/2061962883651731602
摘要
本文是AI工程全景系列的上篇,从历史角度梳理了GPU从游戏显卡到AI加速器的演化、CUDA的豪赌、谷歌TPU的独立路径,以及英伟达为何最终胜出,详细剖析了芯片、供应链、网络、电力等AI基础设施的底层逻辑。
查看缓存全文
缓存时间: 2026/06/03 05:45
人工智能的工程全景:模型之外的另一半(上)
引子
前段时间,我花了很多时间整理和讨论AI的模型,特别是大语言模型背后的Transfomer和图片、视频生成背后的扩散模型。
除了模型之外,AI还有极为重要的另一半,那就是工程。
模型那一侧的话题:参数怎么scaling、训练用了什么数据、benchmark上跑出多少分、哪种architecture是赢家。但一个模型真正能跑起来、被用起来,需要的不只是模型本身。它需要一整套工程:芯片、供应链、电力、网络、训练集群、推理引擎、量化、缓存、调度。每一项都是过去十年单独发展出来的一支硬技术,加在一起才是今天AI真正能用的样子。
这一篇是写给非工程师的“工程全景“。读完之后你会知道:英伟达的护城河到底是什么、为什么2026年TPU突然回来了、台积电的CoWoS工艺为什么决定了全世界一年能造多少AI加速器、为什么vLLM比朴素PyTorch推理快几倍、推理优化为什么比换GPU还划算、为什么“让模型多想一会儿“正在重新定义推理的角色。
文章分上下两篇。上篇覆盖基础设施(芯片、供应链、网络、电力)和运行态(训练、推理)。下篇讲改造态(后训练、对齐)和自主态(Agent)。这一篇是上篇。
一、硬件生态的缘起
要理解2026年的AI算力格局,不能从现状切入。今天英伟达80% 的市占率、台积电CoWoS工艺的咽喉地位、TPU在2026年的回归,全部是过去20年一连串具体选择的复利结果。从历史讲起,才能把这套格局的因果链看清楚。
1.1 史前:GPU 本是游戏显卡
回到1990年代看当时的计算生态。CPU是绝对的主角,Intel是绝对的霸主。Intel的x86处理器(386、486、Pentium系列)几乎垄断了所有PC和工作站,“Intel Inside“那个贴纸从1991年开始贴满全世界的电脑机箱,AMD在追但份额很小。一台电脑能做什么,几乎完全由CPU决定。
GPU那时候连这个名字都还没有。1999年英伟达(NVIDIA)发布GeForce 256时才正式造了Graphics Processing Unit这个词。在那之前这块芯片叫“显卡“或“3D加速器“,是一块插在主板上的辅助硬件,专门做一件事:渲染游戏画面。1996-2000这一波3D游戏(雷神之锤、半条命、反恐精英)把显卡市场推起来,3dfx、ATI、NVIDIA几家公司在这块抢市场。NVIDIA 1993年成立,到1999年才靠GeForce 256坐稳第一梯队。
90年代的GPU盒子
90年代的GPU盒子
CPU和GPU在设计哲学上从一开始就完全相反。CPU是“少数核心做复杂任务“,典型现代CPU有8到32个高性能核,每个核能处理复杂的分支逻辑、操作系统调度、数据库事务。GPU是把上千个简单核心塞在一块芯片上,每个核做的事情很简单(基本就是浮点乘加),但能同时处理几千个数据点。这种“少而精vs多而傻“的分工对应两类完全不同的计算需求。
游戏画面恰好是GPU这种架构的最佳应用场景。每一帧要把场景里几百万个三角形从3D投影到2D屏幕,对每个像素算光照。每个像素的计算跟其它像素无关,可以一起算。GPU的几千个核心就是为这件事设计的。
碰巧的是,神经网络的核心运算(矩阵乘法)也是高度并行的。一个1024×1024的矩阵乘以另一个1024×1024的矩阵,本质上是100万次独立的乘加运算。GPU的并行架构在数学上跟这件事完美匹配。
但90年代到2000年代初,没有任何人想到这个匹配。神经网络在学术圈是“过气技术“,被SVM和boosting压着。GPU厂家自己也只盯着游戏市场和工作站3D建模,从来没在产品里给AI留任何位置。CPU是计算,GPU是显示,两个职责分得清清楚楚。
1.2 2006年:CUDA 这一步豪赌
转折发生在2006年。英伟达发布了CUDA(Compute Unified Device Architecture),把GPU从“渲染游戏画面的专用硬件“改造成“任何并行计算都能跑的通用并行处理器“。
CUDA是一套编程接口,让程序员可以用C语言写代码,编译之后能直接在GPU上跑。在CUDA之前,要想用GPU做计算,得用OpenGL这种图形API伪装成渲染任务,门槛极高。CUDA把门槛降到接近写普通C程序。
为什么2006年要做CUDA?跟AI没关系。那时候神经网络还在被嫌弃,AlexNet要到6年后才出现。真正的动机来自另一条线:科学计算社区已经在偷偷用GPU做通用计算了。2000年代初,物理学家、化学家、金融工程师发现GPU的并行架构对数值模拟(流体力学、分子动力学、Monte Carlo期权定价)极其合适。但要用OpenGL把数学问题伪装成“渲染像素“,比如把一个矩阵当成一张纹理图、把矩阵乘当成对纹理图的着色操作,代码极其难写但比CPU快几十倍。2003-2004年Stanford博士生Ian Buck做了一个叫Brook的编程模型,让GPU能更自然地做这种通用计算。NVIDIA把他招了过去,Brook基本变成了CUDA的前身。所以CUDA是NVIDIA把学术圈已经萌芽的GPGPU(General-Purpose GPU computing)需求工程化的产物。
但是回到当年,别人也在做类似的事。AMD 2007年推出Stream SDK / Close to Metal(CTM)。Apple 2008年提出OpenCL标准,希望做跨厂家的通用计算API,Khronos后来标准化,AMD/Intel/ARM都支持。微软2009年在DirectX 11里加了DirectCompute。但这些方案都没追上CUDA。原因有几条:CUDA是NVIDIA专属,能跟硬件深度共同设计(后来的Tensor Core这种AI专用单元只在CUDA里能用)。OpenCL跨厂家兼容的代价是单卡性能跟不上CUDA。NVIDIA在文档、教程、库(cuBLAS、cuDNN、cuFFT)上的持续投入密度,竞争对手十几年都没追上。
这个决定在2006年看是一个赌注。英伟达每年要花大量研发投入维护CUDA生态系统,但当时几乎没有任何商业应用需要它。游戏玩家不在乎GPU能不能做通用计算,他们只在乎帧率。投资人和华尔街反复质疑过这笔投入。2008年金融危机时英伟达股价腰斩,黄仁勋仍然坚持把研发资源砸在CUDA上。
这一坚持坚持了整整10年。从2006到2016,CUDA主要服务于学术界的高性能计算(科学计算、流体力学模拟、金融衍生品定价)。商业用户很少,但生态在慢慢积累:教程、库、开源项目、博士论文。
为什么这件事重要?因为它建立了一个事实:当后来AI起来的时候,所有研究者发现“啊,我要的并行加速CUDA已经做好了“。而英伟达的竞争对手要从零造一套同等成熟度的开发栈,差距是十年。
1.3 谷歌 TPU 的另一条路
CUDA走的是“通用并行“的路。谷歌走的是另一条路:“为单一目的做到极致”。
2013年,谷歌内部意识到深度学习要爆发,自己的搜索、广告、推荐系统都要用神经网络。但用GPU跑这些东西成本太高、能耗太大。谷歌决定自己造一款专门为神经网络设计的芯片,叫TPU(Tensor Processing Unit)。
TPU跟GPU的根本区别在于“通用性vs专用性“。GPU能跑很多种并行任务,神经网络只是其中一种。TPU几乎只能跑神经网络的核心运算(矩阵乘和加法),其它什么也干不了,但能把这一件事做到极致:单位电力下的算力比同期GPU高几倍。
TPU第一代2015年部署到谷歌内部数据中心。这是一个内部产品,不对外销售。谷歌的逻辑是:TensorFlow是开源的,但跑TensorFlow最快的硬件留在自家用。这就是Vertical Integration(垂直整合)。
这条路10年来一直被外界低估。直到2026年大家才意识到,谷歌10年的TPU投入是除了CUDA之外另一条能跟英伟达对抗的硬件路径。这一点是第二章的主线。
1.4 2012 转折点:AlexNet
2012年是AI历史上最关键的一年,也是GPU历史上最关键的一年。
那一年ImageNet计算机视觉比赛上,多伦多大学的Geoffrey Hinton团队(他的两个学生Alex Krizhevsky和Ilya Sutskever)提交了一个深度卷积神经网络,叫AlexNet。它把ImageNet top-5错误率从前一年的约26% 降到15.3%,甩开第二名10个百分点以上。
这个数字本身在ML圈是地震级的。但比这个数字更地震的是:Krizhevsky训练AlexNet用的硬件,是两张消费级英伟达GeForce GTX 580游戏显卡。
GeForce GTX 580是英伟达2010年发布的游戏卡,定价500美元左右,目标客户是高端游戏玩家。Krizhevsky把两张卡塞进自己的PC,用英伟达自家的CUDA写代码,把当时学术界顶级团队的图像识别成绩远远甩开。这个事件证明了两件事:神经网络真的能work,而英伟达的GPU + CUDA组合是跑神经网络最便宜也最快的硬件栈。
之后的故事是连锁反应。2013年百度、谷歌、Facebook各自成立深度学习实验室。2015年开始所有AI论文里的“训练GPU“几乎都是英伟达卡。2017年英伟达数据中心业务超过游戏业务。2020年GPT-3用英伟达V100训练。2023年生成式AI爆发,英伟达股价飞起。
但所有这些故事的起点是一件事:一个加拿大博士生买了两张游戏显卡,证明了它能跑AI。
1.5 为什么是英伟达赢、而非别人
到2026年英伟达占了AI GPU市场约80%。AMD大概5-7%。剩下的是谷歌TPU、AWS Trainium、华为昇腾等。
要理解这个数字怎么形成的,回头看2012到2024这十几年的竞争史。AlexNet 2012年只是开端,英伟达赢下整个AI行业是后面十年默默发生的。
2012到2017年是英伟达悄悄建优势的阶段。AlexNet之后所有AI研究者开始用CUDA。英伟达连续发布Kepler、Maxwell、Pascal几代架构,每一代都强化AI相关算力。2014年发布cuDNN(深度学习加速库),把矩阵乘、卷积、attention这些常用算子写到极致。每个AI框架(Caffe、Theano、Torch、TensorFlow、PyTorch)都先在CUDA上跑通,再考虑别的硬件。
同期谷歌也没闲着。2015年TPU v1内部上线,2017年v2,2018年v3。技术指标上TPU的算力每瓦特比同期英伟达GPU强一档(因为是专为神经网络设计的ASIC)。但TPU有一个致命限制:只能在Google Cloud租用,不能买。这把99%的研究者挡在门外。哪怕TPU技术上更先进,工业界和学术界都用不到。
2017到2020年是英伟达锁定胜局的阶段。V100带来Tensor Core,第一款专为矩阵乘设计的GPU硬件单元。这一步把“通用GPU“变成“AI专用GPU“,单卡训练性能跳一档。BERT、GPT-2、GPT-3 全在V100上训练。
同期PyTorch(2016年Facebook发布)逐渐取代TensorFlow成为AI研究的事实标准框架。PyTorch原生支持CUDA,对TPU的支持远不如TensorFlow。两件事叠加:TPU绑死的TensorFlow失势,Tensor Core让英伟达硬件性能跟上TPU,谷歌的硬件优势被消化掉。
2020到2023年是垄断成型的阶段。A100(2020)、H100(2022)陆续发布,每一代显存、带宽、Tensor Core都大幅升级。2022年底ChatGPT爆发,全行业突然要大量GPU训练大模型。英伟达供不应求,毛利率从60%涨到70%以上。AMD MI系列试图追赶但CUDA生态差距太大,AI公司宁愿排队等H100也不换AMD。谷歌TPU还是只能租用,外部使用门槛高。这段时期英伟达从“首选“变成“事实垄断“。
为什么最终是英伟达?很多人以为是芯片本身的优势。这个理解只对一半。真正的护城河是软件生态。
英伟达的护城河有三层。
第一层是CUDA软件栈。所有主流AI框架(PyTorch、TensorFlow、JAX)都先在CUDA上跑通,再去支持其它硬件。所有顶会论文的开源代码默认是CUDA。所有大公司的AI工程师习惯CUDA。换硬件意味着重写代码、重新调优、踩坑。这个迁移成本对企业来说极高。
第二层是Tensor Core硬件加速。从2017年Volta架构开始,英伟达在每代GPU里加专门的矩阵乘单元(Tensor Core),跑神经网络比通用浮点单元快几倍。这是硬件层的优势。
第三层是NVLink高速互联。多卡训练时卡和卡之间要快速交换数据,英伟达自家的NVLink比通用PCIe总线快几个数量级。后来GB200 NVL72把72张卡用NVLink串成“准单卡“,带宽到1.8 TB/s量级。这是系统层的优势。
三层叠加形成了一个事实垄断。英伟达FY2026数据中心业务收入1937亿美元,毛利率70% 以上。这是历史上罕见的科技公司同时占据份额和利润率制高点的情况。
但2025-2026这个格局开始松动。原因是推理。下一章讲。
二、格局松动
2026年硬件层最大的变化是:第一次出现了有规模的英伟达替代力量。但这件事的形态跟很多人想象的不同。它的来源是几家头部AI公司开始系统性地用第二、第三套硬件分担负载。没有任何新公司在芯片本身上做出了超过英伟达的东西。
先看一张 2026 年 AI 加速器市场份额(按收入估算):
按工作负载拆分,画面更鲜明:训练阶段英伟达占 >90%,推理阶段降到 60-75%,剩下的 25-40% 让给了 ASIC 和 AMD。这个拆分是后面 2.4 节“为什么是推理在松动垄断“的具体来源。
两个内部使用率数据帮助看清规模:Google 自己 >75% 的 Gemini 跑在 TPU 上,AWS Trainium 处理了 >50% 的 Bedrock token 吞吐。两家平台一半以上的核心工作负载已经迁移到自家 ASIC,“NVIDIA 之外没有真生产环境“的旧叙事已经站不住。
2.1 TPU 的规模化回归
2025年10月,Anthropic宣布了一笔重磅交易:跟谷歌签下了规模最大的一份TPU订单。具体数字是:2026年使用最多100万颗Ironwood(TPU v7)芯片,配合超过1 GW算力容量。这笔交易总值在数百亿美元规模。
2026年4月,这笔交易又扩展了一次。Anthropic跟谷歌和Broadcom一起签了一份多年期协议,2027年再加 3.5 GW 的下一代 TPU 容量。Anthropic的年化收入从2025年底约90亿美元跳到2026年4月超过300亿,AI实验室的资本开支已经到了一笔单子上百亿美元的量级。
关键不是订单大。关键是 Gemini 3 和 Claude 4.5 Opus(业界公认 2026 年最强的两个前沿模型)都在 TPU 上训练。这件事的意义是:TPU已经通过了“预训练前沿模型“这个最硬的测试。过去10年外界一直怀疑TPU是不是只能跑推理、能不能跟英伟达GPU在训练这一块抗衡,2026年这两个模型给了肯定的答案。
需求实际有多紧?2026 年中开始出现一个反常画面:Google 自己的研究员要排队等 TPU,排在 Anthropic 这种外部大客户后面。这种“卖到自己人都不够用“的状态,是过去 10 年 TPU 历史上从没有过的。
还有一件事:2026年4月起,谷歌十年来第一次对外出售TPU。之前TPU只能通过谷歌云租用,不能买。开放销售意味着谷歌相信自己的TPU生态已经成熟到可以跟英伟达正面竞争。回顾 1.5 节讲过的“TPU 之前没胜出的关键原因是只租不卖“,这一步正是把当年那个硬伤补上。
2.2 第三极:AWS Trainium 和自研芯片浪潮
TPU不是唯一在挑战英伟达的力量。AWS自研的Trainium(训练)和Inferentia(推理)芯片是另一极,2026 年的扩张速度甚至快过 TPU。
Anthropic 跟 AWS 在 2026 年 4 月签了一份多年期协议:5 GW Trainium 容量 + AWS 100 亿美元承诺投资。Trainium2 在 2026 上半年大规模上线,Trainium3 下半年跟进。AWS Bedrock 上跑的所有 token,>50% 已经在 Trainium 上而不在 NVIDIA GPU 上。这是 AWS 自家平台用户感知不到的内部迁移,但意味着 Trainium 已经在真实生产环境通过了规模化验证。
除了 Anthropic 这个最大锚定客户,2026 年 Apple 也开始用 Trainium 跑自家的 Apple Intelligence 推理负载。OpenAI 也在用:TechCrunch 2026 年 3 月报道证实 OpenAI 在 AWS 上租用 Trainium 容量做部分推理。OpenAI 既在 Azure 上跑 Maia,又在 AWS 上跑 Trainium,跟前面讲的“多平台并存“完全一致。
对 AWS Trainium 接下来 2-3 年的判断,份额会从现在 3-5% 涨到 8-12%。理由有几条。Anthropic 的 5 GW + $100B 锁仓给了 Trainium 一个绝对量级的客户 anchor,从开发到迭代有稳定需求。Trainium 2026 一年发两代,节奏跟得上前沿训练。AWS 销售从 day 1 就开放,没有 TPU 那段“只租不卖“的历史包袱,上手门槛低。AWS 本身就是云计算最大平台,把 Trainium 默认推荐给客户的渠道优势别人没有。
风险点也明确。Trainium 单卡性能比 TPU 弱一档(设计更保守,优先成本),高端训练市场份额会被 TPU 吃掉。另外对 Anthropic 单一客户依赖度极高,如果 Anthropic 出问题或转换平台,影响会很大。
其它 ASIC 玩家也都有动作。微软 Maia 主要给 OpenAI 在 Azure 上跑推理。OpenAI 自己跟 Broadcom 合作的自研芯片预期 2026-2027 出货。Meta MTIA 系列已经在 Facebook 内部推荐和广告系统跑了几年。基本上每一家年 GPU 采购上百亿美元的大厂都在搞自研加速器。
这股自研浪潮的原因不复杂。英伟达 70%+ 的毛利意味着客户每买一张 H200 或 B200,英伟达赚走了大头。对一年 GPU 采购上百亿美元的大厂来说,把毛利留在自家手里有强动力。哪怕自研芯片性能只达到英伟达的 60-70%,只要性价比好,整体账就划得来。
2.3 关键判断:按负载选芯片,多平台并存
要避免一个常见误解:自研芯片的兴起不意味着英伟达倒下。更准确的图景是:多平台并存、按负载精准匹配。
Anthropic是这个范式的标本。它同时用三套硬件:
-
Google TPU(Ironwood):跑大规模训练和推理
-
AWS Trainium:跑训练负载的一部分
-
英伟达GPU(B200、GB200):跑推理服务和部分训练
为什么要三套?因为不同的工作负载在不同硬件上跑的成本/性能不同。Anthropic不依赖任何单一供应商,每种负载放最合适的芯片上。
这种模式在2026年还在扩散。OpenAI、Meta、Google DeepMind都在做类似的多平台架构。结果是:英伟达的份额可能从80% 慢慢往下走,但绝对收入还在涨(因为整个AI算力市场扩张速度远超任何单一替代)。
2.4 撬动垄断的杠杆:为什么是推理
为什么这股替代浪潮在2025-2026才出现?因为撬动垄断的杠杆变了,从训练变成推理。
训练阶段,重点是“能不能跑得动“。一个前沿大模型预训练要几万张顶级GPU跑几个月,关键是峰值算力、内存带宽、跨卡通信速度。英伟达在这三项上长期领先。客户花再多钱也要用H100/B200,因为别的卡跑不动。
推理阶段,重点是“每token多少钱“。模型已经训好了,要做的是一年365天给用户回答问题。一个大型推理服务每秒处理几万个token,关键是每token的电力 + 硬件折旧成本。在这条曲线上,专用ASIC(TPU、Trainium)的性价比优势凸显,TPU v6e对H100大约有4倍的性价比。
一句话总结:推理经济学正在松动英伟达靠训练建立的垄断。
这条逻辑的延伸是:随着2026年推理占总算力消耗超过训练(约2/3 vs 1/3),整个AI行业的硬件支出重心从“性能为先“转向“性价比为先“。这是英伟达份额开始被分薄的根本原因。
2.5 中国线:被管制逼出来的另一套生态
补一条对照线:中国的AI硬件生态。
美国对中国的AI芯片出口管制从2022年开始,2023、2024、2025一路收紧。最严的时候连阉割版的H800、H20都不能卖给中国。
这套管制的本意是延缓中国AI发展。实际效果是加速了国产替代。华为昇腾系列芯片到2026年占国内AI加速器市场约62%。寒武纪、海光、燧原各占一块。中国互联网巨头(阿里、字节、腾讯)都在自研加速器。
DeepSeek是这条路的标志性公司,但仔细看它的硬件账面,“国产替代“远没有外界传的那么彻底。
DeepSeek 的硬件实情(按公开数据):
更微妙的细节:DeepSeek 在 NVIDIA 上做训练时用的是 PTX(NVIDIA 自家比 CUDA 更底层的汇编级指令集)做极致优化,技术上仍然在 NVIDIA 生态内,只是绕过了 CUDA 这一层的 API。华为的 CANN 框架(对标 CUDA 的国产替代品)DeepSeek 花了几个月重写代码移植,但实测只能稳定跑推理,训练经常崩。
这个画面跟想象的不一样。中国 AI 公司 2024-2026 实际跑的是“训练靠走私 NVIDIA + 推理靠华为“的两套栈。华为昇腾 910C 跑 DeepSeek 推理大约能到 H100 的 60% 性能,这一端是真可行的。但训练这一端,CUDA 生态的护城河在中国跟在美国一样深。
中国线的意义因此要重新看。准确的描述是:中国在推理端找到了一个可行的退路(华为昇腾),但训练端还是被 CUDA 卡着,国产替代远没到位。“中国造出了完整的英伟达替代体系“这种说法在 2026 年仍然不成立。这跟 1.5 节讲的“硬件性能能追上,软件生态难追“完全是同一个故事的中国版本。
这件事的存在仍然削弱了“英伟达完全不可替代“的叙事,至少推理端有了 second source。但它没有削弱“训练端 CUDA 锁定“那一层护城河,反而是用一个新案例验证了它。
三、供应链与网络
讲完芯片本身,下一层是供应链。芯片只是终点,真正决定能造出多少算力的,是上游三个卡点:先进制程、HBM内存、CoWoS封装。任何一个短缺都会限制整个AI行业的扩张速度。
讲完供应链,还要讲一层“芯片之间的连接“,也就是网络。万卡集群里,跨卡和跨节点的通信瓶颈比单卡算力更难解决。这一节是基础层里被外界严重低估的一部分。
3.1 三大卡点:晶圆、HBM、CoWoS
先进制程逻辑晶圆(2nm/3nm)。所有顶级AI芯片都用台积电(TSMC)的最先进工艺。英伟达、谷歌、AMD、苹果都是 fabless(无晶圆设计公司),自己设计芯片,制造全部外包给台积电这种代工厂。所以英伟达 B200 和谷歌 TPU 在物理生产环节用的是同一家工厂。2026年台积电2nm已经订满到2027年之后。台积电CEO魏哲家公开说要到2027年“供给才能追上需求“。
HBM高带宽内存(High Bandwidth Memory)。AI加速器跑训练和推理时,瓶颈往往在内存带宽,算力反而够用。芯片要不断从内存读权重和数据,普通DDR内存带宽不够,必须用HBM。HBM是把多片DRAM用TSV工艺垂直堆叠出来的高带宽内存,只有三家公司能造:SK海力士、三星、美光。
2026年全球HBM供应紧张到什么程度?SK海力士直接对外说:2026年全年的HBM产能已经全部预定光了。SK海力士占全球HBM产能约50%。HBM4(下一代)2026年开始送样,量产要等到2026年底到2027。
CoWoS封装(Chip on Wafer on Substrate)。这是台积电的先进封装工艺,把逻辑芯片和HBM堆叠到同一块基板上。几乎所有高端AI加速器都依赖CoWoS:英伟达的H100/B200、谷歌的TPU、AWS的Trainium、AMD的MI300、华为的昇腾,全部走CoWoS或类似的先进封装。
台积电CoWoS产能2024年底约每月3.5万片晶圆,目标2026年底扩到每月13万片(增长271%)。但英伟达独家锁定了一半的产能(约6.5万片每月),剩下的留给所有其它客户分。CoWoS交期已经拉到50周以上。
3.2 结构性短缺:贯穿到 2027
把“短缺“这件事讲清楚。半导体行业历史上的短缺基本都是周期性的:某个产品突然爆款(手机、汽车),需求暴涨,芯片厂家用 18-24 个月扩产能,产能上来后供过于求,价格回落,进入下一个周期。这是过去 30 年半导体行业的标准节奏,2018-2020 的汽车芯片短缺就是这个模式。
AI 这一轮的短缺不是这种节奏。需求曲线的斜率结构性高于产能曲线。具体数字:
-
NVIDIA 数据中心收入从 FY2024 的 $475 亿涨到 FY2026 的 $1937 亿,三年 4 倍
-
同期顶级芯片产能(台积电 2nm/3nm + CoWoS + HBM)增长约 2-3 倍
-
两边速度的剪刀差结构性存在,短期填不上
为什么是结构性的?三个原因。
第一,晶圆厂建设周期长。建一座新的 2nm 厂从动工到量产要 3-5 年。台积电亚利桑那 2nm 厂 2024 年破土,要到 2028 年才能量产。需求曲线两年翻倍,产能曲线五年翻倍,节奏完全对不上。
第二,HBM 不是简单扩产。HBM3 到 HBM4 是工艺大改,要新的 TSV(硅穿孔)技术、新的堆叠层数、新的封装方法。SK 海力士、三星、美光每家都在追赶但都跟不上需求增速。HBM4 量产时间已经从 2025 推到 2026 末再推到 2027。
第三,CoWoS 封装是台积电独家。全球没有第二家能做同等水平的 2.5D 先进封装。扩产受制于一家公司的资本开支节奏,没有竞争性扩产的可能性。
为什么 2027 是拐点?三件事会在那一年同时到位。一是台积电几座新晶圆厂(亚利桑那、熊本、德国)开始量产。二是 HBM4 进入大规模出货。三是 CoWoS 月产能从 2024 年底的 3.5 万片扩到目标 13 万片。台积电 CEO 魏哲家 2026 年初的财报会上明确说:“要到 2027 年,供给才能追上需求”。
实操含义对 AI 行业:2026 这一年所有想买顶级 AI 加速器的公司都要排队。OpenAI、Anthropic、Meta、Google 自家 TPU、xAI 都在抢同一批 CoWoS 产能。这就是为什么 1.5 节讲的“客户宁愿排队等 H100 也不换 AMD“那个现象,看起来像品牌偏好,实际是供给端逼出来的现实。AMD 想卖也卖不出来:台积电没那么多 CoWoS 产能能腾给它。
3.3 地缘集中度:物理咽喉
把上面三个卡点的产能地图画出来,会看到一个令人不安的事实:全球关键AI芯片产能极度集中在两个地方。
先进制程逻辑晶圆几乎全在台湾。台积电的2nm/3nm产线在台南和新竹,三星在韩国华城也有3nm但工艺比台积电落后。美国本土的Intel 18A还没量产,台积电在亚利桑那州的工厂2025年底开始小规模量产4nm,但2nm要等几年。
HBM集中在韩国(SK海力士、三星)和美国(美光)。
CoWoS几乎全在台积电。
这意味着:全世界的AI算力扩张,物理上要依赖台湾和韩国两地的几家公司继续按预期扩产。这套体系任何一个环节出问题(地震、地缘政治、供应链中断),整个AI行业的产能扩张就要打折扣。
2024-2025年这套体系已经被地缘政治直接重塑。美国对中国的出口管制让英伟达把对华H200的产能转向下一代Vera Rubin(美国客户已确定订单)。台积电亚利桑那工厂的扩产被美国政府用CHIPS Act推动。台湾本身的政治风险被反复定价进所有AI公司的资本规划。
3.4 节点之间:网络才是分布式训练/推理的真瓶颈
讲完芯片层和供应链,要讲一个外界严重低估的工程层:网络。
万卡级GPU集群里,单卡再强,如果跨卡通信慢,整个集群也跑不起来。这是大模型时代被忽视但极其关键的一环。
网络分两层。
节点内(scale-up,高带宽短距离):单台服务器内或单个机柜内的GPU互联。英伟达的NVLink和NVSwitch是这一层的统治者。GB200 NVL72把72张GPU用NVLink串成一个“准单卡“,全互联带宽达到每张卡1.8 TB/s的级别。这种带宽下,72张卡能像一张大显存的超级GPU一样工作。
节点间(scale-out,跨数据中心机柜):把几千台服务器(每台8卡)连成一个万卡集群。这一层有两条路线之争:InfiniBand(IB)vs Ethernet。
InfiniBand是英伟达的优势线。英伟达2019年收购Mellanox时把IB拿到手里。IB延迟极低(微秒级),是分布式训练的传统选择。Meta的Llama 3训练集群、xAI的Memphis Colossus集群都用IB。
Ethernet是云厂商的押注。AWS、Google、Microsoft各自在重投高速以太网。理由有两个。一是IB完全锁定在英伟达手里,开放生态选Ethernet。二是Ethernet在云数据中心通用,重用现有运维体系。最新的800G Ethernet加RDMA在带宽上已经接近IB,延迟差距也在收窄。2026年的判断是:开源大模型训练社区在向Ethernet倾斜,闭源大厂还在用IB。
通信瓶颈:all-reduce。万卡训练时每一轮都要做all-reduce,把所有卡上的梯度求平均同步回去。这一步耗时占整个训练时间的30-60%。一批新算法(ZeRO++、gradient compression、ring/tree all-reduce)就是为压这一项。
推理时也要传数据。Ch 7会讲到prefill和decode分离(PD disaggregation),两段跑在不同GPU上,需要把KV cache高速传过去。NIXL(NVIDIA Inference Xfer Library)这类标准化层就是为这件事生的。
判断:网络成本和复杂度在万卡级集群里已经超过单卡算力本身的占比。一个32万卡的xAI Colossus集群,网络硬件投入接近GPU投入的一半。这个数字是5年前的几倍。
四、电力
基础层最被低估的一章。瓶颈已经从硅片转移到电网。
4.1 量级直观化:单机柜 100kW,单设施 1 GW
要直观感受AI算力的耗电量,看几个数字。
一个英伟达B200 GPU满负载约1000瓦。一个机柜装8张到72张GPU。GB200 NVL72一个机柜132 kW。普通办公楼的整层用电量在100-200 kW量级,AI机柜单柜已经相当于一层办公楼。
这种功率密度下,传统风冷已经不够。GB200 NVL72强制液冷,直接把冷却液通到芯片旁边带走热量。液冷在2024年还是少数派,2026年成了大规模AI数据中心的标配。
数据中心整体规模也在跳级。OpenAI跟Oracle合建的得州Stargate园区设计容量5 GW。xAI的Memphis Colossus一期250 MW,扩到2 GW。Meta、谷歌、亚马逊各自规划的2026-2027数据中心容量都在1-2 GW级。
1 GW是什么概念?相当于80万户家庭的用电量。一座大型核电站的输出。
4.2 电网取代芯片成为新瓶颈
2024-2025 年 AI 扩张的真正瓶颈,从 GPU 供给转移到了电、地、冷却、并网。拿到 1 GW 容量比拿到 10 万张 H200 更难。
2026年北美大量已宣布的数据中心产能卡在“拿不到电“上。理由:电力公司需要5-8年才能建一条新的高压输电线,AI数据中心需要的功率密度(单点几百MW)远远超过电网现有规划。在弗吉尼亚、得州、佐治亚等数据中心集群区域,并网申请排队18-36个月起步。
数据中心约占全美电力消耗4%(2025)。Gartner预测到2030年升到7.8%。EPRI(电力研究院)的高位预测是9-12%。McKinsey给的数字到11.7%。整体共识是:未来5年美国电力增长的大头是AI。
电价区域差异极大。美国不同州的工业电价从每千瓦时4美分到16美分相差4倍。AI数据中心选址的最大变量已经从“距离用户近“变成“电价便宜+电网容量大“。弗吉尼亚和得州因此成为数据中心首选。
这种集中也带来副作用。弗吉尼亚、得州、佐治亚的数据中心集群周边居民电价已上涨8-15%。一些州开始考虑“数据中心专属电价“。
4.3 美国选项:核电、SMR、地热
老化电网在短期内不可能跟上AI增长。美国大厂开始转向“表后电力“(behind the meter),绕过传统电网,直接对接发电源。
核电。微软2024年签了一份20年协议重启Three Mile Island核电站给自己用。亚马逊2024年从Talen Energy买了Susquehanna核电站旁边的960 MW数据中心。谷歌跟Kairos Power签了买SMR(小型模块化反应堆)的协议。这些都是2024-2025才出现的玩法,在过去几十年的IT行业里闻所未闻。
SMR(Small Modular Reactor)。比传统核电站小一个量级,模块化制造,理论上更便宜更快。但截止2026年,美国没有一座商业化运行的SMR,所有项目都还在审批或建设阶段。Kairos、NuScale、X-energy是几家热门公司。SMR真正能给AI供电要等到2028-2030。
地热增强系统。Fervo Energy这类公司用类似页岩气的水力压裂技术开发深层地热。谷歌2024年签了第一份地热供电协议,2026年开始小批量供电。
这三条路加起来,2026-2030美国大厂的电力策略已经从“租公网“变成“自建电源 + 抢占核电份额“。这是一个十年级别的变化。
4.4 中美对比:电力可能比芯片更难绕过
中美AI竞赛在芯片这一层有出口管制和国产替代的对峙。在电力这一层,逻辑完全不一样。
中国电力的基本盘是过去20年大规模建设过来的。发电总装机超过3000 GW,约美国2.5倍。新增装机以新能源(风电、光伏)为主,年增装机近400 GW,美国年增不到50 GW。工业电价中位约每千瓦时0.55元人民币(约7.5美分),跟美国便宜州相当。
更关键的是电网容量和审批速度。中国国家电网常态化承诺“先有用电,后建电网“,大型工业园区落地之前电网就先扩容。新数据中心并网审批不超过6个月。这个速度在美国是18-36个月。
判断:未来5年中美AI竞赛里,电力可能成为比芯片更难绕过的长期变量。芯片可以通过工程优化(更小的模型、更高效的推理)部分缓解。电力是硬约束,造不出新发电站就跑不动新算力。
4.5 新指标:tokens per watt
旧的算力指标是FLOPS(每秒浮点运算)。这个指标只衡量算力本身,不考虑电力效率。
2025-2026行业里逐步出现一个新指标:tokens per watt(每瓦每秒能产生多少token)。它同时捕捉两件事:底层硬件的电力效率,工作负载的优化程度。
这个指标对推理服务有特别意义。一家公司的推理基础设施好不好,最终就看每瓦能产生多少token,这等于每美元电费能服务多少用户。把推理优化(Ch 7-10会讲的所有技术)做到极致,能把tokens per watt翻几倍。
tokens per watt也成为基础层(电力)和推理层(优化)之间的桥梁。它把“造数据中心“和“调推理引擎“统一在同一个目标函数下:让每瓦产生尽可能多的token。这是后面Ch 11要回到的视角。
五、训练态:万卡集群的工程
讲完基础层(芯片、供应链、网络、电力),接下来讲怎么用这些基础打仗。AI工程里最资本密集、最难做对的一态是训练态。讲清楚这一章,“推理为什么是另一种工程“才有对照。
5.1 训练态的经济 anchor
先给几个数字让读者有数字上的概念。
GPT-4训练成本。Sam Altman公开说过GPT-4训练花了“超过1亿美元“。其它估算从4000万到7800万美元的纯算力费用不等,加上人力、failed runs、数据采买,总额到1亿以上。
Llama 3.1 405B。Meta公开的数字:训练用了16,384张H100 GPU,跑了54天,总计3084万GPU小时。15万亿token训练数据。54天里出现了419次组件故障,平均每3小时一次。一半故障是GPU或HBM硬件问题。
xAI Memphis Colossus。2024年部署,10万H100启动,2025年扩到20万H200,2026年规划32万GB200。一个集群相当于一个国家级超算中心,全部用于训练Grok。
Anthropic训练支出。2026年估算50亿美元以上仅用于训练(不含推理)。
这些数字解释了一件事:训练态的玩家从2020年的几十家迅速收敛到2026年的5-8家。普通公司根本玩不起。
5.2 4D 并行:把模型切到几千张卡上
训练一个几百亿到几千亿参数的模型,单张卡的显存装不下。必须把模型切分到多张卡上,这叫并行训练(parallel training)。现代大模型训练用的是4种并行策略组合,统称4D并行。
数据并行(Data Parallel, DP)。每张卡有完整模型副本,处理不同的batch数据。最简单。前提是模型能装进单卡显存。当模型太大装不下时DP就不够。
张量并行(Tensor Parallel, TP)。把每个矩阵乘按行或列切到多张卡上。比如一个4096×4096的矩阵乘,可以切成8张卡每张做4096×512。每步都要跨卡通信合并结果,跨卡通信极重,所以TP只能在NVLink节点内做(节点内带宽TB/s级,跨节点IB只有GB/s级)。
流水线并行(Pipeline Parallel, PP)。把模型按层切到不同卡:前几层在卡1,中间几层在卡2,后几层在卡3。Batch数据像流水线一样依次通过。PP的问题是“气泡“,流水线启动和结束时部分卡闲着。Micro-batch技术能减少气泡。
序列并行(Sequence Parallel, SP)。把长序列切到不同卡上。2024年后期长上下文场景(100k+ token)兴起,单卡装不下整个序列,SP成了必需。
现代大模型训练都是DP + TP + PP + SP四种混合。比如Llama 3 405B用了8路TP(在一个8卡NVLink节点内)+ 16路PP(跨16个节点)+ 128路DP(同样的PP × TP复制128份)。调度这套混合并行极难,是Megatron-LM、DeepSpeed、ColossalAI这些训练框架真正的工程价值。
5.3 显存的另一半:ZeRO 和 FSDP
训练显存不只是放权重。一个N参数的模型,训练时显存占用是:
-
权重:N × 2字节(BF16)
-
梯度:N × 2字节
-
Optimizer states:N × 8字节(Adam的m和v)
-
Activations:另算,跟batch size和序列长度有关
加起来一个70B参数模型,单卡光是“权重+梯度+optimizer states“就要840 GB。一张H100只有80 GB显存。
DeepSpeed团队2019年提出的ZeRO(Zero Redundancy Optimizer)解决了这个问题。核心思想:optimizer states、梯度、权重不必每张卡都存完整副本,可以分到多张卡上,按需gather。三阶段:
-
ZeRO Stage 1:分optimizer states
-
ZeRO Stage 2:分optimizer states + 梯度
-
ZeRO Stage 3:分optimizer states + 梯度 + 权重
代价是每步训练要做更多通信。但显存节省是几倍到十几倍。
FSDP(Fully Sharded Data Parallel)是PyTorch原生实现的等价物,更易用,2024年成为开源训练栈的事实标准。
混合精度训练(BF16/FP8)是另一个显存压缩方向。Blackwell架构原生支持FP8训练,权重和激活值用8位浮点表示,显存减半,精度损失可控。FP8训练在2025-2026成为主流。
5.4 Fault tolerance:万卡集群一定会出故障
Llama 3训练54天出419次故障,平均3小时一次。这是万卡集群的常态。MTBF(mean time between failures)跟集群规模成反比,卡越多,整体故障率越高。
如果训练不能容忍故障,每隔3小时全部从零重来,54天的训练永远跑不完。所以容错(fault tolerance)是训练态的核心工程。
Checkpointing。周期性把训练状态(权重、optimizer states、随机数种子等)写到磁盘。出故障后从最近checkpoint续训,损失的是checkpoint间隔的训练进度。典型checkpoint频率是每几小时一次。
Async checkpointing。直接同步写盘会阻塞训练,万卡级别的checkpoint一次要几分钟。现代框架用三级staging:GPU显存 → CPU内存 → 磁盘异步搬运,写盘不阻塞训练。
弹性训练。节点掉了自动重组拓扑接着跑。PyTorch torchelastic这种工具让训练能在节点动态变化时继续。
Health monitoring。Meta公开过Llama 3训练中持续监控的6000+ 个GPU指标,自动隔离行为异常的GPU。这种监控系统是过去5年发展出来的全新一支工程。
5.5 数据 pipeline:被低估的另一半
万卡GPU等不起慢数据。如果数据读取/预处理throughput跟不上训练速度,再多GPU也闲着。Llama 3 405B训练用了15T token,DeepSeek V3 14.8T,GPT-4估计13T左右。当前一代前沿模型训练数据基本都在10-30T这个量级,把这么多数据高效喂给上万张GPU,本身就是一个独立的工程问题。
数据格式先解决。Webdataset、Mosaic streaming这类格式把数据切成shard(一般1-2GB一片),训练时多机并行从对象存储读取。每张GPU只负责自己那份shard,避免所有节点抢同一个文件句柄。容错也内建:某个shard读失败自动跳过,不阻塞训练步。
Tokenization必须前置离线做。原始文本到token id的转换是CPU密集型工作,训练时实时做会让CPU成为瓶颈,GPU等数据等到掉throughput。15T token离线tokenize一遍要几千CPU核小时。训练真正读的是已经token化的二进制流,按sequence length切好直接mmap进GPU内存。
最被低估的是data curation。Llama 3论文专门花了一节讲:去重用minhash加SemDeDup语义去重,质量过滤用小模型给每条样本打分留高分丢低分,混合配比直接决定模型能力分布(代码vs自然语言vs数学的比例不同训出来差别巨大)。DeepSeek在数据curation上的投入是它能在硬件劣势下做出V3/R1的关键之一。
合成数据是2024-2026新出现的一块。Phi-3、Llama 3、DeepSeek V3都大量使用:用一个更强的模型生成训练数据,或者用模型自己过滤现有数据。合成数据让训练数据从“互联网爬什么算什么“走向“按目标能力定向生成“,配比的可控性高一个数量级。
整个pipeline最终是闭环的:训练完用模型评估数据质量,回头调过滤器和配比,下一轮训练。一个前沿模型每轮训练只是一次实验,数据pipeline才是真正在迭代的资产。
六、推理层(Inference)导论
训练态这条线讲到这。硬件、电力、万卡并行、显存、容错、数据pipeline,每一块都是独立的工程子系统,加在一起才能把一个前沿模型从零训出来。
但模型训完只是第一步。把它跑起来回答每个用户的每个问题,才是真正消耗算力、决定产品体验和成本的地方。这一层叫推理层(inference layer),是AI工程栈里跟训练并列的另一半。
推理覆盖的范围比一般人想象的宽:ChatGPT回答你一句话、Claude Code补全一行代码、Grok生成一段视频、Notion AI总结一份文档、特斯拉车端识别一个红绿灯,背后全都是推理。模型本身是同一个模型,区别只是部署形态和调用方式。AI产品好不好用、贵不贵、能不能扩展到亿级用户,几乎全压在推理这一层的工程上。
训练和推理可以用一个工厂类比。训练像是设计和制造一台精密机器,几千个工程师协作几个月,做完就交付。推理像是这台机器投产后的日常运营,7×24接订单、出货、维护,规模随业务量动态起伏。两者用的可能是同一批零件(GPU),但工程方法完全分开。
经济账也跟着分叉。训练成本是一次性资本开支,几亿到几十亿一次性投入。推理是按用户调用次数线性增长的边际成本,每多服务一个用户就多烧一份电、多占一份显存。对做API服务的公司来说,推理成本直接决定毛利能不能为正。
第六到第十一章会沿着推理这条线展开:本章先建立坐标系(算力重心迁移、衡量指标、Prefill和Decode两个阶段),Ch 7讲显存和吞吐(KV cache、PagedAttention、批处理、PD分离),Ch 8讲模型瘦身(量化、蒸馏、剪枝、MoE),Ch 9讲投机解码,Ch 10介绍推理引擎生态(vLLM、SGLang、TensorRT-LLM),Ch 11总结推理的标度关系(成本、延迟、吞吐三角权衡)。具体技术细节都留给后面专章,本章只把推理层的边界和坐标系建立起来。
6.1 重心从训练迁到推理
2025-2026之间AI算力的重心从训练明显转向推理。这是2023年以来行业最大的结构性变化,可以从四个维度观察到。
最直接的指标是算力占比。推理占总AI算力的比例:2023年约三分之一,2025年约一半,2026年达到三分之二。Deloitte、Gartner、Andreessen Horowitz各自的报告给的数字都在这个范围。
云支出更直观。2025年AI云基础设施支出约92亿美元用于推理,2026年跳到206亿美元,占总AI云支出375亿美元的55%。这是历史上推理支出第一次超过训练支出。
用户端看到的是价格曲线。过去两年LLM API的token单价普遍下降一个数量级,背后主力就是推理侧的工程优化(PagedAttention、投机解码、FP8/FP4量化、PD分离,后面专章都会展开)。OpenAI、Anthropic、Google每隔几个月就降一次价,节奏远远快过GPU硬件本身的代际更新。
新公司也在涌现。Together、Fireworks、Anyscale、Lepton、Baseten这类专门做推理服务的公司2024-2025快速融资到独角兽级。它们不训练自己的模型,只把开源大模型(Llama、DeepSeek、Qwen)部署到自家GPU集群对外提供API服务。推理本身已经独立成一个几十亿美元的市场。
迁移的根本原因是AI产品进入了“被广泛使用“的阶段。ChatGPT 5亿周活只是冰山一角,Claude、Gemini、Copilot、Cursor的企业渗透在2025-2026快速扩张,特斯拉FSD全美几百万车实时跑车端推理。一个亿级用户的产品,一年消耗的推理算力可以是一次预训练的几十倍甚至上百倍。
6.2 推理的衡量指标
你按完Enter,要等多久才看到第一个字蹦出来?字开始流出来之后,速度是顺畅还是一卡一卡?同一台GPU每小时能服务多少个并发用户?调一次API要给OpenAI付多少钱?
这四件事,对应推理工程师每天盯着看的四个数字。
最直观的是TTFT(Time To First Token),首token延迟。你按下Enter到第一个字出现之间的那段空白就是它。聊天场景对TTFT特别敏感,超过一秒用户就会觉得“卡了“,几百毫秒以内才算流畅。这背后是Prefill阶段在跑(下一节就展开),把你输入的整段prompt一次性塞进模型。
紧跟着是TPOT(Time Per Output Token),每输出一个token要多久。它决定字流出来的速度,快的体感是“打字机般连贯“,慢的体感是“一个字一个字蹦“。慢于50毫秒/token就能明显感觉到卡顿。这对应推理的Decode阶段。
再看throughput,单位时间内系统能处理多少token。延迟是单个用户的体验,throughput是整个系统的产能。一台GPU每秒能吐多少token,直接决定它能同时服务多少个并发用户,进而决定每用户分摊到的硬件成本。
最后一个是每token成本。前三个是工程指标,这个是会计指标,把电力、GPU折旧、运维全摊到每个token上算出来。OpenAI、Anthropic公布的API token价格背后就是这个数字往上加毛利。
不同应用对这四个数字的权重完全不同。对话场景TTFT和TPOT优先,因为用户在屏幕前等。批处理类任务(夜间跑一万份文档分析)只看throughput和成本,延迟无所谓,反正没人盯着看。Agent类应用又不一样,链路里每一步推理的TPOT叠加成总延迟,所以对单步TPOT尤其敏感。
6.3 推理的两个阶段
理解后面所有优化技术之前,要先把推理拆成两个阶段看,因为它们的瓶颈正好相反。
你输入一段prompt发给ChatGPT,模型不会从第一个字直接开始回答。它先要把你输入的整段话“读“一遍:每个token都过一遍所有层,算出对应的注意力中间结果,存进一个叫KV cache的结构里,然后才输出第一个回答token。这一步叫Prefill(预填充)。Prefill是算力密集的:几千个token并行过几百亿参数,GPU的Tensor Core满负荷在跑矩阵乘。
输出第一个token之后,进入Decode(解码)阶段。模型从第二个token开始一个一个往外蹦,每生成一个新token都要回头把整个KV cache(你的prompt加已经输出的部分)重新查一遍,把新token的注意力算出来。Decode跟Prefill恰好相反,它是显存带宽密集的:算一个token的算力很少(就一行矩阵乘),但需要把整个KV cache从显存搬到计算单元里转一遍。GPU算力此时大量闲置,瓶颈卡在显存带宽。
这种“前算力后带宽“的非对称是推理优化的核心矛盾。同一张H100,跑Prefill的时候算力打满,跑Decode的时候算力大幅闲置但显存带宽打满。如果两个阶段在同一张卡上轮流跑,必然有一头浪费。
Ch 7的PD分离(Prefill/Decode分离部署)就是为了解决这个矛盾。后面几章的优化技术大半针对Decode阶段,因为用户感知到的等待时间绝大部分来自Decode。
记住这条:Prefill卡算力,Decode卡显存带宽。后面所有推理优化技术都是围绕这条非对称展开的。
七、显存与吞吐
上一章6.3给了一个核心洞察:Prefill卡算力,Decode卡显存带宽,而Decode占用户感知到的等待时间的绝大部分。推理优化的主战场就在Decode这一侧,这一章讲的就是怎么打这场仗。
Decode阶段每生成一个新token,都要回头查一遍前面所有token的中间结果(叫KV cache)。模型本身的算力够用,但GPU要不断从显存里把KV cache搬到计算单元里,瓶颈卡在显存容量和显存带宽两头。所以推理优化的具体手段,几乎全围绕KV cache和并发请求展开。
vLLM、SGLang、TensorRT-LLM这些主流推理引擎能比朴素PyTorch推理快几倍到十几倍,背后主力是这一层显存和调度的工程精雕,算法本身没有大变化。本章沿着KV cache和并发请求两条线展开:7.1讲KV cache本身是什么、为什么是省算力的根本机制,7.2讲PagedAttention把KV cache当虚拟内存管,7.3讲KV cache自身还能怎么压缩(量化、驱逐、分层),7.4讲批处理把多请求合并喂GPU,7.5讲Prefill和Decode干脆分卡部署。
读完这一章会理解:为什么ChatGPT同样跑在H100上,2026年的单token成本比2023年低一个数量级。
7.1 KV cache:推理省算力的根本机制
回到6.3讲的Decode阶段:模型一个一个吐token,瓶颈卡在显存带宽上。这个阶段算力开销具体有多大?按Transformer自注意力机制的定义,每生成一个新token都要跟前面所有token计算一次注意力(第N个token跟前N-1个token都比一次)。算笔账就知道这有多耗。
假设你输入200 token,模型回答800 token,加起来1000 token。朴素实现下,每生成一个新token都要把前面所有token的中间结果重新算一遍,整段对话总计算量是1+2+…+1000 = 50万次注意力计算,跟token数的平方(O(N²))成正比。几百字对话就要做几十万次重复计算,绝大部分都是上一步刚算过的东西。
KV cache就是为了避免这种重复算。Transformer的自注意力里,每个token在每一层都会算出三个张量:query(Q)、key(K)、value(V)。K和V只跟这个token本身有关,跟后面会生成什么token无关。所以把每个token算过的K和V存下来,下次生成新token时直接从缓存里取,就不用重算。
有了KV cache,生成第N个token时只需要算1次注意力(新token自己的Q跟缓存里所有K、V算一次),而不是N次。整段对话的算力开销从O(N²)降到O(N),几百字对话从几十万次注意力降到几百次。没有KV cache,今天的LLM推理成本要高几个数量级,绝大部分商业场景根本跑不起来。这就是“KV cache是推理省算力的根本机制“这句话的意思。
代价是显存。每存一个token的K和V都要占空间,总量随对话长度线性增长。一个70B模型,单请求的KV cache在8K上下文时约1.6 GB,128K上下文时约25 GB。长上下文场景下KV cache甚至比模型权重本身还占显存。
现代推理系统通常给KV cache预留GPU显存的40-60%,剩下的留给模型权重和中间计算。怎么把这块宝贵的显存用到极致,就是7.2到7.5几节要展开的事。
7.2 PagedAttention:把显存当虚拟内存管
KV cache是省算力的关键,但显存管理是个工程灾难。
朴素做法是每个请求预分配“最大可能长度“的连续显存。比如系统支持最大128k上下文,每个请求就分25 GB。实际上多数请求只用几千token,剩下的几百MB到几十GB全部浪费。实测平均显存利用率只有20-40%。
vLLM团队2023年发了一篇SOSP论文(《Efficient Memory Management for Large Language Model Serving with PagedAttention》),提出PagedAttention算法。
核心思路类比操作系统的虚拟内存:
-
把KV cache切成固定大小的小块(block,默认16 token一块)
-
按需分配block,逻辑上连续、物理上不连续
-
用block table维护逻辑地址到物理地址的映射
这相当于把“连续显存“的限制改成“按需分块显存“。结果是浪费几乎为零,同样显存能塞2-4倍的并发请求。
PagedAttention是vLLM的核心,也是2023年以来所有主流推理引擎的标配。SGLang、TensorRT-LLM、TGI都实现了PagedAttention或等价物。
7.3 KV cache 进一步压缩
PagedAttention解决了“不浪费显存“,但KV cache本身还是太大。2024-2026出现了三条进一步压缩的路线。
低精度量化。把cache从BF16量化到FP8或INT4。显存减半(FP8)或减到四分之一(INT4),精度损失小于1%。Hopper(H100)和Blackwell(B200)都有原生FP8支持,量化没有额外开销。
语义级压缩。在“语义块“层面压缩,比简单按位压缩走得更深。比如把一段长上下文压缩到几个“概念向量“,激进压缩比下仍保留语义信息。这条路还在研究阶段,没成为生产标准。
重要性驱逐(importance-based eviction)。基于注意力分数判断哪些token重要,重要的留着,不重要的丢掉。PagedEviction这类方法可以让显存随驱逐率线性下降,代价是某些场景下少量精度损失。
分层缓存。LMCache这种系统把KV cache在GPU显存、CPU内存、SSD之间动态调度。显存不够时把cache下放到CPU内存,需要时再换回来。这套架构2025年开始在生产环境普及。
7.4 批处理:把 GPU 喂饱
KV cache之外,第二大推理优化主题是批处理(batching),把多个请求合并成一个batch一起算。批越大GPU利用率越高,吞吐越好。
静态批处理。最朴素做法:收到N个请求一起算,全部算完一起返回。问题是“队头阻塞“,短请求要等长请求算完才能释放槽位。实测短请求平均等长请求等掉60% 的时间,GPU大半时间在闲等。
连续批处理(continuous batching)。在token级别调度:每生成一个token检查一次,哪个请求完成了就立刻释放槽位、把下一个请求插进来。这种细粒度调度让GPU几乎不闲。
vLLM论文里实测,连续批处理比静态批吞吐高10-20倍(这里“10-20倍“是行业里常被引用的数字,原paper在特定场景下报告了23倍)。
连续批处理也是所有主流推理引擎的标配。
7.5 Prefill 与 Decode 分离
前面讲到prefill和decode的瓶颈不同。但传统推理引擎让它们跑在同一张GPU上。结果是两者互相干扰:长prompt的prefill阻塞了其它请求的decode,平均延迟显著上升。
2024-2026的前沿做法是 PD分离(disaggregation):
-
Prefill节点:跑prompt编码,算力密集,用算力强的卡
-
Decode节点:跑token生成,显存带宽密集,用显存大、带宽高的卡
-
两个节点通过高速网络传KV cache
NVIDIA Dynamo(2024年发布的推理框架)和llm-d(K8s原生分布式推理)是这条路的代表实现。跨节点传cache的标准化协议(NIXL、LMCache的协议)也在2025-2026成形。
Chunked prefill 是PD分离的另一种实现:把长prompt切成小块,跟decode任务交替调度,防止单个长prompt阻塞整个系统。
PD分离让推理系统的整体延迟和吞吐都上一档。这是2026年大规模推理服务(比如ChatGPT这种5亿用户级)的标准架构。
待续
到这里上篇收官。从1990s的游戏显卡讲到2026年的万卡集群,从晶圆和HBM讲到核电和SMR,从4D并行讲到KV cache和PagedAttention,我们沿着一条线走完了AI工程栈的“运行态“:硬件怎么来、电力怎么供、模型怎么训、推理怎么跑。
但上篇留了一个问题没解释完:同一张H100、同一个模型,2026年的单token成本比2023年低一个数量级。这十倍是怎么来的?
更深一层,2024年下半年OpenAI o1、DeepSeek R1这些模型打开了一条新路:推理时多花算力,模型能力还能再上一个台阶。如果这条路成立,“模型“和“工程“的边界就要重新画。
下一篇,我们首先讨论这这两个问题。
作者其它文章
-
什么是 Diffusion Model?图片视频生成模型全网最详细介绍
-
美国税收制度完全指南
-
当物理遇上AI:深度学习里的物理元素(上)
-
一文看懂美国的法律系统
-
教宗良十四世论人工智能(精华版)
-
廉颇老矣,尚能饭否:现代数学史(下)
-
一篇文章讲清楚美国的移民系统
-
大航海时代2的逆向工程实验
-
量子计算机有前途吗?
-
祖父积分学概论
-
我见青山多妩媚:二十世纪数学史(上)
-
一文讲清楚美国医疗系统
-
AI 如何打进美国教育生态?
-
一篇文章看懂美国教育全生态
-
马斯克把 xAI 并入 SpaceX,到底意味着什么?
-
Vibe Learning:AI 时代,学习这件事被重新组织了
-
福特经济学和 AI 经济学
-
数学照妖镜:AI 能发现新的数学定理吗?
-
一篇文章讲清大语言模型发展史
-
Vibe Reading:AI 时代读书的系统化方法
-
长篇分析:Manus 案折射出的中国 AI 创业生态
-
两万字科普:AI 为什么会编程——原理、历史与未来
-
全网最详细的AI学习路线图
-
AI将如何颠覆教育,普通人又应该如何抢夺教育新的生态位
-
学物理的八方英雄们,物理学已死,请转行搞AI
-
兄弟们想清楚:究竟是你为X打工,还是X为你打工?
-
重返星辰大海:这次绕月飞行有意义吗?
本文参考文献
-
NVIDIA FY2026 Annual Report (10-K) - NVIDIA FY2026数据中心收入1937亿美元
-
NVIDIA AI GPU Market Share 2026 - Silicon Analysts 2026 GPU份额估算
-
Anthropic-Google TPU partnership announcement - Anthropic跟Google/Broadcom多GW TPU合作
-
Anthropic Google Cloud TPU deal CNBC - 1M TPU + 1GW 2026协议
-
Inside the AI Bottleneck: CoWoS, HBM, and 2–3nm Capacity Constraints Through 2027 - 三大卡点详解
-
TSMC Foundry Allocation Status Q1 2026 - CoWoS 50+ 周交期、N3订满
-
HBM Supply Crunch Until 2027 - AICERTs - SK Hynix 2026 HBM全部预订
-
Gartner: Data center electricity demand to double by 2030 - 数据中心电力翻倍预测
-
IEA Data Center Energy Forecast - IEA全球数据中心耗电预测
-
Deloitte: More compute for AI, not less - 推理占比2026升至2/3
-
CES 2026: AI compute sees a shift from training to inference - 训练到推理重心迁移
-
Llama 3.1 405B training details (Meta) - 16,384 H100, 54天, 419故障
-
Faulty H100 GPUs caused half of Llama 3 training failures - Tom’s Hardware - Meta故障细节
-
Sam Altman GPT-4 training cost - Altman自述 $100M+ 训练成本
-
Efficient Memory Management for LLM Serving with PagedAttention (arXiv:2309.06180) - vLLM PagedAttention原paper, SOSP 2023
-
AlexNet ImageNet 2012 - AlexNet top-5错误率15.3%
-
CUDA history NVIDIA - CUDA 2006发布
-
EAGLE-3 speculative decoding - 投机解码最新进展
-
OpenAI o1 system card - 测试时计算reasoning模式
-
Microsoft Three Mile Island deal - 微软Three Mile Island核电协议
、
相似文章
@seclink: https://x.com/seclink/status/2056711091129118741
黄仁勋深度访谈,回顾英伟达从赌上公司存亡推出CUDA到成为AI霸主的历史,阐述AI四个缩放定律和未来十年发展方向,强调算力瓶颈和极致协同设计理念。
@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理,而 CUDA Graph 是 vLLM server 的一个核心部分,直接关系到 GPU 利用率。 可以一起发到知乎和 X 上,用 LLM 翻译一下就好,好文章应该让更多人看到。 Every A…
A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.
@GoSailGlobal: https://x.com/GoSailGlobal/status/2058405413737857497
一篇中文文章,整理并翻译了@sairahul1创作的20张手绘AI科普图,覆盖从神经网络到Agent的核心概念,适合初学者系统了解AI技术栈。
@VincentLogic: 这视频简直是 AI 工程师的“必修课”清单! 从最基础的 Transformer 架构,到 LoRA 微调、RAG、Agents,甚至最新的 MCP 协议,把这 10 篇塑造了当今 AI 行业的核心论文讲得明明白白。 如果你也想深入理解大…
该文章推荐了一个视频,系统讲解了塑造当今AI行业的10篇核心论文,涵盖Transformer、LoRA、RAG、Agents及MCP协议,旨在帮助工程师理清技术脉络。
@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052
这篇文章介绍了Superpowers,一套基于Claude Code的AI工作流Skills,提供自动化的头脑风暴、计划、子代理开发和测试驱动开发,能显著提升AI交付效率。