@LinQingV: 之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataf…

X AI KOLs Timeline 2026/05/09 10:56 新闻

摘要

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataflow架构 + 确定性调度，核心差异在NoC拓扑、内存层级、编译器抽象这些维度上展开。 Cerebras是里面让我真正被震惊到的一家，而它却这四家里马上第一个拿到IPO结果的。这家公司的选择比其他三家都激进一个量级：不做芯片，直接做整片wafer。单颗WSE-3，21.5cm × 21.5cm的整片晶圆，90万个PE通过scribe-line stitching在物理上连成一片连续的silicon。这个工艺是Cerebras和TSMC联合定制的，把原本用于晶圆切割的窄条改造成跨reticle的金属导线，让所有reticle在物理上拼接成一整块芯片。（配图二展示了单颗WSE-3内部结构：左半边是整片晶圆的reticle网格和scribe-line拼接，右半边放大了单个PE的微架构。）单个PE的结构极简：8-wide FP16 SIMD计算核，48KB本地SRAM直连，没有cache层级，所有数据访问都是确定性的单周期。加上一个5端口路由器（N/S/E/W + loopback），相邻PE之间的通信延迟也是单周期。关键在于，跨reticle边界的mesh在物理参数上和reticle内部完全一致，编译器和runtime完全不需要感知reticle边界的存在。从LLM推理的视角看，这个均匀性的价值非常大。 LLM推理的瓶颈在decode阶段。每生成一个token，模型权重要被完整读取一次，计算量却很小，典型的memory-bound场景。GPU集群在这个环节的核心问题是数据搬运：HBM带宽有限，多卡之间还要经过NVLink → NVSwitch → InfiniBand → Ethernet四层互联，每一层带宽和延迟都差几个量级，编程模型必须显式处理每一层的拓扑边界。 Cerebras的做法完全绕开了这个问题。单片wafer内部fabric带宽27 PB/s，权重从外部的MemoryX存储集群通过SwarmX流入wafer后，在PE之间按数据流模式传播执行，同一套placement和routing算法跑遍整片wafer。（配图一展示了这个系统级架构：MemoryX参数存储集群到SwarmX互联fabric，再到底层最多2048台CS-3节点，权重广播和梯度规约的数据流方向一目了然。） 90万个PE各自带48KB SRAM，合计约42GB片上存储，每个PE对自己本地SRAM的访问是单周期确定性的，PE间通信每跳single-cycle，延迟和曼哈顿距离成正比。对于推理场景，前提是weight streaming的编译器能把权重有效地分配到对应的PE上，这42GB分布式片上SRAM的聚合带宽远超GPU的HBM方案，没有cache层级带来的访问不确定性，没有跨芯片搬运的开销。回到我自己的体感。做推理芯片架构的时候，NoC拓扑和内存层级的权衡花了大量精力，因为芯片边界是硬约束，跨芯片通信的成本和片内通信之间永远存在断层。Cerebras的做法等于从片内通信的角度消除了这个断层，代价是整条制造和封装链都要重新定义。这也解释了Cerebras的工程取舍。所有架构创新集中在wafer内部，scale-out方向直接复用100GbE + RoCE的以太网生态。wafer内27 PB/s对比跨CS-3的SwarmX在Tbps量级，几个数量级的差距全部交给商品化网络承担。推理场景下单wafer内部的带宽和延迟优势可以直接转化成token生成速度。 OpenAI选择和Cerebras合作做推理，从架构层面看逻辑是通的。大规模在线推理需要低延迟、高吞吐、确定性时延，这三点恰好是wafer-scale架构在片上通信均匀性方面的结构性优势。但这套架构也有几个结构性的问题值得正视。良率和成本是绕不开的。整片wafer做单颗芯片，任何一个reticle的缺陷都影响整体。Cerebras靠冗余PE和路由绕行来应对，但冗余比例和良率数据从未公开过。一片wafer的制造成本本身就远高于切割后卖单颗die的模式，叠加23kW、15U的单系统功耗和体积，部署密度和TCO在大规模推理集群的经济性上面临考验。最关键的是KV cache的容量瓶颈。42GB片上SRAM看起来很大，但长上下文推理场景下KV cache随序列长度线性增长。以Llama 70B为参考，FP16下128K上下文的KV cache就要吃掉约40GB，即使做KV cache量化，长序列场景下的容量压力仍然显著。片上放不下的部分必须依赖MemoryX做外部存储，数据要经过SwarmX回传，这条路径的带宽在Tbps量级，和wafer内部27 PB/s的差距意味着长序列场景下decode速度会被外部带宽卡住。这可能是Cerebras在推理场景面临的最核心的架构约束。

查看原文

相似文章

@QingQ77: 用纯 Rust 实现 LLM 推理引擎，针对每种硬件×模型×量化组合定制 CUDA 内核，跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…

X AI KOLs Timeline

Atlas 是一个纯 Rust 实现的 LLM 推理引擎，通过为每种硬件×模型×量化组合定制 CUDA 内核，实现了比 vLLM 和 TensorRT-LLM 更快的推理速度。

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

X AI KOLs Timeline

A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

X AI KOLs Timeline

SwiftLM is a Swift-native LLM inference server for Apple Silicon that runs large models without Python, using SSD streaming to load MoE weights and enabling 122B models on 64 GB Macs.

@TheAhmadOsman：LLM 推理引擎栈拆解与负载/瓶颈速查表，来自即将发布的《推理引擎全解》…

X AI KOLs Timeline

Ahmad Osman 分享了一张速查表，提前拆解 LLM 推理引擎栈及常见负载瓶颈，为即将发布的深度文章预热。

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释，压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快"，是新范式过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…

X AI KOLs Timeline

本文总结了Karpathy在Sequoia Ascent大会上的核心观点，指出AI是重塑任务流的新范式而非单纯加速工具，通过可验证性与经济价值划分了模型能力的“参差不齐边界”，并预言未来软件将演变为以LLM为逻辑层、传统代码为传感器/执行器的智能体原生架构。

相似文章

@QingQ77: 用纯 Rust 实现 LLM 推理引擎，针对每种硬件×模型×量化组合定制 CUDA 内核，跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。 可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

@TheAhmadOsman：LLM 推理引擎栈拆解与负载/瓶颈速查表，来自即将发布的《推理引擎全解》…

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释，压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快"，是新范式 过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…

提交意见反馈

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释，压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快"，是新范式过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…