Cerebras芯片组似乎针对LLM应用进行优化

Reddit r/ArtificialInteligence 新闻

摘要

文章指出,Cerebras芯片针对LLM推理和训练进行了优化,而非通用AI工作负载,并提醒不要过度炒作其能在所有AI领域挑战NVIDIA的能力。

我认为在Cerebras的炒作周期中,有一个区别被忽略了:Cerebras主要是一个LLM/生成式AI基础设施的故事,而不是一个通用的“全AI”芯片故事。这并非对Cerebras的批评。他们的晶圆级方法确实很有趣,对于大型模型的训练和推理,其设计很有吸引力。[Cerebras自己的公开推理材料](https://inference-docs.cerebras.ai/models/overview)讨论的应用主要集中在开源LLM上,例如[Llama、Qwen、GLM和GPT-OSS](https://www.cerebras.ai/infcamp)。推理指标以[每秒令牌数](https://www.cerebras.ai/press-release/cerebras-launches-the-worlds-fastest-ai-inference)表示,这从根本上讲是一个语言模型/生成式推理框架,而非机器人或工业控制框架。 **什么样的AI计算?** 但“AI计算”并非一个无差异化的市场。LLM推理是一类AI计算。机器人、自动驾驶、无人机、工业控制、实时视觉、嵌入式感知、视频流水线以及传感器融合系统则是截然不同的AI计算类别。因此,从Cerebras自己的材料来看,他们的芯片组似乎并未针对LLM之后的技术(如JEPA风格的世界模型或其他后Transformer架构)进行优化。这些系统不仅仅是问“我生成令牌的速度有多快?”它们通常关心功耗范围、边缘部署、加固性、延迟确定性、摄像头/雷达/激光雷达集成、反馈回路、安全认证以及实时物理控制。相比之下,[Cerebras自己的CS-3宣传](https://www.cerebras.ai/blog/cerebras-cs3)将系统框架定位为加速“最新的大型AI模型”,测试数据来自Llama 2、Falcon 40B、MPT-30B和多模态模型,同样以每秒令牌数的吞吐量来衡量。 **芯片层级** 这也是硬件区别所在。专用ASIC通常是最狭窄的押注:如果工作负载与芯片匹配,它们可以非常高效,但这种[效率来自专业化](https://www.synopsys.com/glossary/what-is-asic-design.html)。Cerebras[看起来比狭窄的单用途ASIC更广泛](https://inference-docs.cerebras.ai/models/overview),但仍然更集中于数据中心大型模型的训练和推理。相比之下,NVIDIA GPU[不那么专用](https://www.nvidia.com/en-us/),但在跨AI工作负载方面[更为通用](https://developer.nvidia.com/cuda),包括LLM、视觉、机器人、仿真、[自动驾驶系统](https://www.nvidia.com/en-us/industries/robotics/)、边缘AI和工业应用。因此,问题不仅仅是Cerebras比NVIDIA“更好”还是“更差”。问题在于我们谈论的是AI硬件市场的哪一部分? **挑战NVIDIA?** 这就是为什么我认为人们在说Cerebras将“挑战NVIDIA”时应该谨慎,而不指明战场。在什么方面挑战NVIDIA?高速LLM推理?大型模型训练?数据中心生成式AI工作负载?这是一个更合理、更具体的说法。Cerebras甚至[发表并推广了](https://www.cerebras.ai/whitepapers)专门针对大型语言模型训练的工作,[独立的基准测试文献](https://arxiv.org/abs/2409.00287)也从LLM训练和推理性能角度评估了Cerebras WSE。 **必要的区分** 重点不是Cerebras被过度炒作。重点是它在AI的特定部分很重要,这一区别应该被明确。如果市场继续奖励更快、更便宜的LLM推理,Cerebras可能会成为LLM基础设施中的一个重要参与者。但这并不意味着它在非LLM AI领域处于同等地位。当前的炒作周期往往将“LLM”与通用“AI”计算混为一谈,这使得硬件讨论不那么有用和清晰。因此,最终,投资Cerebras看起来更像是对当前LLM基础设施的押注,而不是对AI未来形态的广泛押注。这可能是个好赌注,但人们应该理解这是何种性质的押注。
查看原文

相似文章

推理的变革(阅读时长约 8 分钟)

TLDR AI

本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。

OpenAI与Cerebras合作

OpenAI Blog

OpenAI与Cerebras合作,将750MW超低延迟AI计算能力整合到其平台中,旨在加速推理,并在各种工作负载中实现更快的实时AI响应。

@LinQingV: 之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

AI记忆产品优化方向错误

Reddit r/AI_Agents

本文指出,当前的AI记忆产品优先考虑个性化而非真实性和可问责性,导致系统积累矛盾且无法可靠修正;文章质疑个性化是否足以用于生产环境。