推理的变革(阅读时长约 8 分钟)

TLDR AI 新闻

摘要

本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。

Cerebras 飙升的 IPO 预示着“答案式推理”(针对 token 速度优化)与“智能体推理”(针对内存层级优化)之间即将出现分化。Cerebras 的 WSE-3 拥有 44GB 的片上 SRAM,带宽高达 21 PB/s,大约是 H100 内存带宽的 6000 倍。这使其非常适合面向人类的低延迟应用(包括语音和 AI 可穿戴设备),但当 KV 缓存和模型权重超出片上容量时,则不再适用。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 00:21

# 推理范式的转变 来源:https://stratechery.com/2026/the-inference-shift/ 如果你在寻找理想的上市时机,2026年5月的芯片公司几乎无法超越。路透社在周末报道(https://www.reuters.com/legal/transactional/cerebras-raise-ipo-price-range-150-160-demand-surges-sources-say-2026-05-10/): > 据两位知情人士周日告诉路透社,Cerebras Systems 计划最早在下周一提高其首次公开募股(IPO)的规模和定价,因为这家人工智能芯片制造商的股票需求持续攀升。消息人士称,该公司正在考虑将 IPO 价格区间调整为每股 150 至 160 美元,高于此前的 115 至 125 美元,并将发售股份数量从 2800 万股增加到 3000 万股。这些消息人士要求匿名,因为该信息尚未公开。 半导体股票持续飙升的根本驱动力当然是人工智能(AI),特别是人们意识到智能体(agents)将需要大量的计算资源(https://stratechery.com/2026/agents-over-bubbles/)。然而,Cerebras 代表的是一种更广泛的趋势:虽然 AI 的计算故事在很大程度上围绕 GPU(尤其是 Nvidia 的 GPU)展开,但未来将呈现出越来越异构的特征。 ### GPU 时代 图形处理单元(GPU)如何成为 AI 核心的故事已是老生常谈,但简要概括如下: - 就像在计算机屏幕上绘制像素是一个并行过程一样,这意味着处理单元数量与图形速度之间存在直接联系;进行 AI 相关计算同样是一个并行过程,这意味着处理单元数量与计算速度之间存在直接联系。 - Nvidia 通过使其图形处理器可编程实现了这种双重用途,并创建了一个名为 CUDA 的完整软件生态系统,以使这种编程变得触手可及。 - 图形处理与 AI 之间的主要区别在于所解决问题规模的大小——模型比游戏纹理大得多——这导致了每个 GPU 的高带宽内存(HBM)的大幅扩张,以及在芯片间联网方面的巨大创新,允许多个芯片作为一个可寻址的系统协同工作。Nvidia 在这两方面均处于领先地位。 GPU 的首要用例是训练,这尤其强调了第三点。虽然每个训练步骤内的计算是高度并行的,但步骤本身是串行的:在下一步开始之前,每个 GPU 都必须与其他所有 GPU 共享其结果。这就是为什么万亿参数模型需要适应数万块 GPU 的聚合内存,并且这些 GPU 能够作为一个系统进行通信的原因。Nvidia 在这两个问题空间中都占据主导地位,首先是比行业其他部分更早地确保了 HBM 供应,其次是得益于其在联网方面的投入。 当然,训练并非唯一的 AI 工作负载:另一种是推理。推理主要有三个部分: - 预填充(Prefill)将大型语言模型(LLM)需要知道的所有内容编码为可理解的状态;这一过程高度可并行化,计算能力至关重要。 - 解码(Decode)的第一部分涉及读取 KV 缓存——其中存储上下文,包括预填充步骤的输出——以进行注意力计算。这是一个串行步骤,带宽至关重要,但内存需求是可变的且越来越大。 - 解码的第二部分是对模型权重的前馈计算;这同样是一个串行步骤,带宽至关重要,且内存需求由模型大小决定。 模型的每一层都会交替执行这两个解码步骤(它们是交织的,而非顺序执行),也就是说,解码是串行的且受限于内存带宽。对于生成的每个令牌(token),必须读取两个不同的内存池:存储上下文并随每个令牌增长的 KV 缓存,以及模型权重本身。为了生成单个输出令牌,必须完整读取这两者。 GPU 满足所有这些需求:预填充所需的高计算能力、用于 KV 缓存和模型权重的丰富 HBM,以及当单个 GPU 不足时通过芯片间联网池化内存。换句话说,适合训练的技术也适合推理——无需多说,看看 SpaceX 与 Anthropic 达成的交易即可。来自 Anthropic 博客(https://www.anthropic.com/news/higher-limits-spacex): > 我们已与 SpaceX 签署协议,使用其 Colossus 1 数据中心的所有计算容量。这使得我们能够在一个月内访问超过 300 兆瓦的新容量(超过 220,000 块 NVIDIA GPU)。这种额外容量将直接提升 Claude Pro 和 Claude Max 订阅用户的容量。 SpaceX 保留了 Colossus 2—— presumably 用于未来模型的训练和现有模型的推理——并且能够在一个数据中心同时完成这两项任务,恰恰是因为 xAI 的模型使用量不多;更与本文相关的是,他们能在同一个数据中心完成这两项任务,是因为训练和推理都可以在 GPU 上完成。事实上,Anthropic 在 Colossus 1 合约中的 GPU 最初也用于训练;GPU 如此灵活是一个巨大的优势。 ### 理解 Cerebras Cerebras 制造的是完全不同的东西。虽然硅晶圆的直径为 300 毫米,但“光罩限制”(reticle limit)——光刻工具在该晶圆上可曝光的最大区域——约为 26 毫米 x 33 毫米。这是芯片的实际尺寸限制;超过这一限制意味着需要通过芯片间中介层(interposer)将两个独立的芯片连接起来,这正是 Nvidia 在 B200 中所做的。另一方面,Cerebras 发明了一种方法,可以在所谓的光罩曝光边界“切割线”(scribe lines)上铺设布线,使整个晶圆成为一个单一的芯片,无需相对较慢的芯片间链路。 其结果是一个拥有大量计算能力和大量 SRAM 的芯片,访问速度极快。用数字来说,WSE-3(Cerebras 的最新芯片)拥有 44GB 的片上 SRAM,带宽为 21 PB/s;而 H100 拥有 80GB 的 HBM,带宽为 3.35 TB/s。换句话说,WSE-3 的内存仅比 H100 多出一半左右,但内存带宽高出 6,000 倍。 将 WSE-3 与 H100 进行比较的原因是,H100 是最常用于推理的芯片——而推理显然是 Cerebras 最适合的领域。你可以使用 Cerebras 芯片进行训练,但其芯片间联网的故事并不吸引人,也就是说,所有的计算和片上内存大部分都闲置着;更有趣的是,以比 GPU 快得多的速度获取令牌流的想法。 然而,请注意,训练方面的限制在推理方面也可能适用:只要所有内容都能容纳在片上内存中,Cerebras 的速度就是令人惊叹的体验;一旦你需要更多内存,无论是用于更大的模型还是更可能的更大 KV 缓存,那么考虑到价格因素,Cerebras 就显得不太合理了。这种整晶圆作为芯片的技术意味着高良率是一个巨大的挑战,这极大地推高了成本。 与此同时,我认为 Cerebras 风格的芯片会有市场:目前公司正在强调速度对编码的有用性(https://www.cerebras.ai/blog/why-the-ai-race-shifted-to-speed)——推理意味着大量的令牌,这意味着大幅扩展每秒令牌数等于更快的思考速度——但我认为这是一个暂时性的用例,原因我稍后解释。真正重要的是人类等待答案的时间,随着 AI 可穿戴设备等产品变得更加普遍,交互速度(特别是语音,这将取决于令牌生成速度)将对用户体验产生切实影响。 ### 智能体推理 我此前曾提出过论点,包括在《智能体胜过泡沫》(Agents Over Bubbles)(https://stratechery.com/2026/agents-over-bubbles/)中,我们在 LLM 时代经历了三个拐点: - ChatGPT 展示了令牌预测的实用性。 - o1 引入了推理的概念,即更多的令牌意味着更好的答案。 - Opus 4.5 和 Claude Code 引入了首批可用的智能体,它们实际上可以完成任务,结合推理模型和利用工具、验证工作等的框架。 所有这些都归入“推理”的大类之下,但我认为将越来越明显的是,提供答案——我称之为“答案推理”——与执行任务——我称之为“智能体推理”——之间存在差异。Cerebras 的目标市场是“答案推理”;从长远来看,我认为“智能体推理”的架构将看起来大不相同,不仅与 Cerebras 的方法不同,也与 GPU 的方法不同。 我在上面提到,快速推理用于编码是一个暂时性的用例。具体来说,使用 LLM 进行编码需要人类参与循环。是人类定义要编码的内容、检查工作、提交拉取请求等;然而,不难想象一个所有这些完全由机器处理的未来。这将适用于广泛的智能体工作:智能体的真正力量不在于它们为人类工作,而在于它们完全无需人类参与就能工作。 由此延伸,这意味着解决智能体推理的最佳方法将看起来与答案推理大不相同。答案推理最重要的方面是令牌速度;然而,智能体推理最重要的方面是内存。智能体需要上下文、状态和历史记录。其中一些将作为活跃的 KV 缓存存在;一些将驻留在主机内存或 SSD 中;大部分将驻留在数据库、日志、嵌入和对象存储中。重要的点是,智能体推理将较少涉及 GPU 回答问题,而更多涉及围绕模型的内存层次结构。 关键的是,这种针对智能体的特定内存层次结构的阐述意味着速度换取容量的必要权衡。不过,这里有个事情:如果没有人类参与循环,较低的速度就不是那么重要的考虑因素。如果智能体正在等待一个在夜间运行的任务,智能体并不知道或关心对用户体验的影响;最重要的是能够完成任务,如果全新的内存方法使这成为可能,那么延迟是可以接受的。 同时,如果延迟是可以接受的,那么对所有纯粹计算能力和高带宽内存的关注似乎就不太恰当了:如果延迟不是首要任务,那么更慢、更便宜的内存——例如传统 DRAM——就显得更有意义。如果整个系统大部分时间都在等待内存,那么芯片也不需要像尖端技术那样快。这代表了未来架构的深刻转变,但这并不意味着当前架构会消失: - 训练将继续至关重要,Nvidia 当前的架构,包括高速计算、大量高带宽内存和高速联网,将继续占据主导地位。 - 答案推理将是一个有意义的市场,尽管相对较小,来自 Cerebras 或 Groq 等芯片的速度将非常有用(我曾在此处解释 Nvidia 如何部署 Groq 的 LPU(https://stratechery.com/2026/jensen-huang-and-andy-grove-groq-lpus-and-vera-cpus-hotel-california/))。 - 智能体推理将逐渐解耦 GPU,GPU 在预填充过程中闲置高带宽内存,在解码过程中闲置计算能力;取而代之的是日益复杂的内存层次结构,由高容量和相对较低成本的内存类型主导,辅以“足够好”的计算能力;事实上,如果有的话,CPU 在工具使用等方面的速度将比 GPU 的速度更重要。 同时,这些类别在规模或重要性上并不平等。具体来说,智能体推理将是迄今为止最大的市场,因为这是不会受限于人类或时间的市场。今天的智能体是花哨的答案推理;在未来,真正的智能体推理将是计算机根据其他计算机的指令完成的工作,市场规模不与人类挂钩,而与计算能力挂钩。 ### 智能体推理对计算的影响 迄今为止,“随计算能力扩展”的提法隐含了对 Nvidia 的看多情绪。然而,Nvidia 迄今为止的相对优势在很大程度上是延迟的函数:Nvidia 芯片拥有快速计算,但保持这种计算忙碌需要在不断扩展的 HBM 内存和联网方面进行大量投资。然而,如果延迟不是关键约束,那么 Nvidia 的方法似乎不值得支付溢价。 Nvidia 确实认识到这一转变:该公司推出了一种名为 Dynamo(https://www.nvidia.com/en-us/ai/dynamo/)的推理框架,有助于将推理的不同部分 disaggregate(解耦),并推出独立内存和 CPU 机架等产品,以启用越来越大的 KV 缓存和更快的工具使用,从而更好地保持其昂贵的 GPU 忙碌。然而,最终,很容易看出成本和简单性对于非 GPU 绑定的智能体推理来说,对超大规模云提供商将日益具有吸引力。 与此同时,中国尽管缺乏领先的尖端计算能力,但拥有智能体推理所需的一切:足够快(但不是尖端)的 GPU、足够快(但不是尖端)的 CPU、DRAM、硬盘等。当然,挑战在于训练的算力;也有可能在国家安全方面,特别是军事应用方面,答案推理更为重要。 另一个有趣的视角是太空:较慢的芯片实际上出于多种原因使太空数据中心更具可行性。首先,如果内存可以卸载,芯片可以制造得更简单并运行得更凉爽。其次,较旧的节点由于物理尺寸更大,将更好地抵御太空辐射。第三,较旧的节点需要的功率较少,这意味着需要通过辐射散失的热量较少。第四,不处于最前沿将意味着更高的可靠性,鉴于卫星无法维修,这是一个重要的考虑因素。 Nvidia CEO 黄仁勋经常说“摩尔定律已死”;他的意思是计算速度提升的未来将是系统创新的函数,而这正是 Nvidia 所做的。然而,无需人类参与循环即可行动的智能体最深远的影响也许是摩尔定律不再重要,而我们获得更多计算能力的方式是认识到我们现有的计算能力已经足够好了。

相似文章

AI推理遵循着截然不同的规则(9分钟阅读)

TLDR AI

文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。

追求 AI 独立之旅 (23 分钟阅读)

TLDR AI

作者分析了 GitHub Copilot 转向按用量计费的策略,认为这是为了建立用户依赖,并分享了自身转向高内存硬件进行本地 AI 推理的经验,以此降低成本并保持工作流的独立性。

AI淘金热进入最危险阶段

Reddit r/artificial

谷歌通过向外部客户开放TPU并瞄准推理市场,正激进挑战英伟达在AI芯片领域的霸主地位,或将重塑全球AI经济格局。