Cerebras芯片组似乎针对LLM应用进行优化

Reddit r/ArtificialInteligence 2026/05/25 20:20 新闻

cerebras llm ai-hardware inference training nvidia specialization

摘要

文章指出，Cerebras芯片针对LLM推理和训练进行了优化，而非通用AI工作负载，并提醒不要过度炒作其能在所有AI领域挑战NVIDIA的能力。

我认为在Cerebras的炒作周期中，有一个区别被忽略了：Cerebras主要是一个LLM/生成式AI基础设施的故事，而不是一个通用的“全AI”芯片故事。这并非对Cerebras的批评。他们的晶圆级方法确实很有趣，对于大型模型的训练和推理，其设计很有吸引力。[Cerebras自己的公开推理材料](https://inference-docs.cerebras.ai/models/overview)讨论的应用主要集中在开源LLM上，例如[Llama、Qwen、GLM和GPT-OSS](https://www.cerebras.ai/infcamp)。推理指标以[每秒令牌数](https://www.cerebras.ai/press-release/cerebras-launches-the-worlds-fastest-ai-inference)表示，这从根本上讲是一个语言模型/生成式推理框架，而非机器人或工业控制框架。 **什么样的AI计算？** 但“AI计算”并非一个无差异化的市场。LLM推理是一类AI计算。机器人、自动驾驶、无人机、工业控制、实时视觉、嵌入式感知、视频流水线以及传感器融合系统则是截然不同的AI计算类别。因此，从Cerebras自己的材料来看，他们的芯片组似乎并未针对LLM之后的技术（如JEPA风格的世界模型或其他后Transformer架构）进行优化。这些系统不仅仅是问“我生成令牌的速度有多快？”它们通常关心功耗范围、边缘部署、加固性、延迟确定性、摄像头/雷达/激光雷达集成、反馈回路、安全认证以及实时物理控制。相比之下，[Cerebras自己的CS-3宣传](https://www.cerebras.ai/blog/cerebras-cs3)将系统框架定位为加速“最新的大型AI模型”，测试数据来自Llama 2、Falcon 40B、MPT-30B和多模态模型，同样以每秒令牌数的吞吐量来衡量。 **芯片层级** 这也是硬件区别所在。专用ASIC通常是最狭窄的押注：如果工作负载与芯片匹配，它们可以非常高效，但这种[效率来自专业化](https://www.synopsys.com/glossary/what-is-asic-design.html)。Cerebras[看起来比狭窄的单用途ASIC更广泛](https://inference-docs.cerebras.ai/models/overview)，但仍然更集中于数据中心大型模型的训练和推理。相比之下，NVIDIA GPU[不那么专用](https://www.nvidia.com/en-us/)，但在跨AI工作负载方面[更为通用](https://developer.nvidia.com/cuda)，包括LLM、视觉、机器人、仿真、[自动驾驶系统](https://www.nvidia.com/en-us/industries/robotics/)、边缘AI和工业应用。因此，问题不仅仅是Cerebras比NVIDIA“更好”还是“更差”。问题在于我们谈论的是AI硬件市场的哪一部分？ **挑战NVIDIA？** 这就是为什么我认为人们在说Cerebras将“挑战NVIDIA”时应该谨慎，而不指明战场。在什么方面挑战NVIDIA？高速LLM推理？大型模型训练？数据中心生成式AI工作负载？这是一个更合理、更具体的说法。Cerebras甚至[发表并推广了](https://www.cerebras.ai/whitepapers)专门针对大型语言模型训练的工作，[独立的基准测试文献](https://arxiv.org/abs/2409.00287)也从LLM训练和推理性能角度评估了Cerebras WSE。 **必要的区分** 重点不是Cerebras被过度炒作。重点是它在AI的特定部分很重要，这一区别应该被明确。如果市场继续奖励更快、更便宜的LLM推理，Cerebras可能会成为LLM基础设施中的一个重要参与者。但这并不意味着它在非LLM AI领域处于同等地位。当前的炒作周期往往将“LLM”与通用“AI”计算混为一谈，这使得硬件讨论不那么有用和清晰。因此，最终，投资Cerebras看起来更像是对当前LLM基础设施的押注，而不是对AI未来形态的广泛押注。这可能是个好赌注，但人们应该理解这是何种性质的押注。

查看原文

相似文章

推理的变革（阅读时长约 8 分钟）

TLDR AI

本文分析了 Cerebras 即将进行的 IPO，将其视为 AI 硬件领域“推理变革”的信号。文章指出，尽管 Nvidia 在基于 GPU 的训练领域占据主导地位，但为了支持推理工作负载，AI 算力的未来正变得越来越异构。

OpenAI与Cerebras合作

OpenAI Blog

OpenAI与Cerebras合作，将750MW超低延迟AI计算能力整合到其平台中，旨在加速推理，并在各种工作负载中实现更快的实时AI响应。

@LinQingV: 之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

Cerebras 首席财务官表示，他们正在其芯片上内部运行 GPT5.4 和 GPT5.5，并将很快向公众发布。（想象一下那种速度下的智能）

Reddit r/singularity

Cerebras 首席财务官宣布，公司正在其芯片上内部运行 GPT5.4 和 GPT5.5，并即将向公众发布这些模型，承诺提供高速 AI 推理。

AI记忆产品优化方向错误

Reddit r/AI_Agents

本文指出，当前的AI记忆产品优先考虑个性化而非真实性和可问责性，导致系统积累矛盾且无法可靠修正；文章质疑个性化是否足以用于生产环境。