@bookwormengr: https://x.com/bookwormengr/status/2072421710692028900

X AI KOLs Following 新闻

摘要

美团的长颈鹿实验室(LongCat Lab)如何利用华为的910C AI芯片和CloudMatrix超级集群训练出长颈鹿2.0(LongCat 2.0)模型的分析,展现了中国AI生态系统如何克服美国出口管制。文章强调了美团向AI驱动的超级生活应用的战略转型,以及华为在AI工厂基础设施方面的创新。

https://t.co/4vkjrPsyPw
查看原文
查看缓存全文

缓存时间: 2026/07/02 04:18

华为的AI工厂与一家外卖公司AI实验室的惊人崛起

这是一个关于中国AI生态系统如何协同努力,克服美国出口管制带来的技术限制的故事。这也是一个关于一家外卖巨头如何最终建立一个注定伟大的前沿实验室的故事。这个故事还包含了技术深度解析。

虽然X社区已经注意到了LongCat 2.0模型,但他们大大忽略了LongCat实验室的巧思,以及支持他们的华为团队的巧思。本文旨在弥合这一差距。

背景:

本周,美团旗下的LongCat实验室发布的LongCat 2.0成为了城中热议的话题。这是公开已知的第一个在华为910C芯片上训练而成的模型,很可能使用了CloudMatrix 384超级集群,每个集群拥有384个ASIC/NPU(相比之下,英伟达的NNVL72机架只有72个)。LongCat的博客声称使用了总计5万个ASIC。从他们以及华为的文献中,有两件事脱颖而出:

  • LongCat团队表明他们愿意做出大胆的架构押注并取得成功。1. 他们掌握了难以训练的稀疏MoE。2. 他们发明了更好的Transformer注意力机制。3. 他们通过开发基于N-gram的方法,用廉价的CPU DRAM来换取ASIC的FLOPs和HBM,进一步发展了新的稀疏维度。 这很有趣,因为LongCat实验室属于中国的外卖巨头美团。想象一下Uber、DoorDash、Instacart做出这样的壮举!那该有多出色!

  • 华为表明他们能够绕过出口管制并进行创新。他们还表明了他们多么理解LLM的预训练和推理,并为他们的超级集群架构设计了UB-Mesh,实现了内存池化和许多其他创新,使训练能够抵御硬件故障。 华为不仅提供AI服务器,还提供“AI工厂“级别的解决方案。现在是时候审视一下了,它将成为全球重要的参与者。

首先是美团的故事——为什么要建立一个基础模型实验室?

美团 - 超级应用

美团 - 超级应用

想象一下,将Uber Eats、DoorDash、Yelp、Groupon、TripAdvisor和Lime融合到一个智能手机应用程序中。这就是美团的日常现实,它是中国领先的“超级应用“生活方式平台。当西方消费者在几十个碎片化的应用之间切换来处理不同的差事时,美团作为一个统一的日常生活数字基础设施运行。在其单一界面内,用户可以订购30分钟的午餐外卖,解锁共享单车,购买电影票,预订酒店房间,并为理发店获得团购折扣。通过利用像外卖这样的超高频互动来锚定用户习惯,这家科技巨头无缝地交叉销售利润率更高的生活服务。它处理数百万笔日交易,并充当实体商务的主要数字守门人。

真正巩固美团作为超级应用主导地位的是其积极转型为AI驱动的“生活方式门户“,这由其庞大的专有LongCat大型语言模型提供支持。当西方科技公司主要将聊天机器人用于文本生成或编码时,美团利用对话式AI代理,如其原生助手小美,从根本上重塑消费者与物理世界的互动方式。用户无需手动输入“拉面“并滚动浏览页面列表,只需告诉AI代理他们的预算、地点和计划。然后,AI会立即将请求与美团超过7亿实时商家库存和13亿用户评论的数据库进行交叉引用,自主预订餐桌或下单配送。面对因国内电商激烈竞争而不断缩小的利润率,美团正投入数十亿美元用于应用型商业AI,以作为不可或缺的基础设施层,不仅处理点击,还能动态执行日常现实世界的决策。

AI对美团来说不是可选项,而是生存必需品。 他们与META拥有完全相同的逻辑,即拥有自己的LLM层。这太重要了,不能交给其他公司来提供。预计他们将继续发布令人惊叹的模型和研究论文。

从“光年之外“到“LongCat实验室“

美团的LongCat实验室(LongCat AI) 是由美团联合创始人兼CEO 王兴 建立的雄心勃勃的企业研究计划。该实验室主要通过美团在2023年年中收购光年之外(一家最初由美团联合创始人王慧文创立的AI初创公司)而成立。

这里有一个有点暖心的故事(引用@kevinsxu的推文):“2023年初,ChatGPT推出后不久,王慧文(美团联合创始人) 创办了自己的实验室,旨在打造**‘中国的OpenAI’。他自掏腰包投入了5000万美元**,吸引了包括CEO王兴在内的其他美团联合创始人的投资,并建立了一个不错的团队。**可以说,他开启了中国AI实验室与OpenAI、Anthropic竞争的浪潮,现在包括DeepSeek、Moonshot、Z等。这个实验室被称为’光年之外’。**不幸的是,它没有持续多久。到2023年6月,王慧文因压力过大出现心理健康问题,美团出手相助并收购了它。”(来源:Kevin的推文,SCMP)

今天,王慧文 应该会对他打下的基础感到相当满意。当然,现在在LongCat上工作的团队不完全是原来的团队,但他领导了创建LongCat 2.0的基础!真正的远见者!

来源:SCMP

来源:SCMP

美团有资金维持吗?

美团是一家在香港证券交易所上市的上市公司,股票代码为3690。其市值约为535亿至650亿美元,过去十二个月(TTM)收入约为500亿美元

虽然收入看起来很大,但该公司在过去十二个月的净利润基础上目前尚未盈利。虽然其核心外卖和到店业务已经成熟并产生高交易量,但为了抵御竞争对手(如阿里巴巴和京东)而投入的巨额补贴支出,以及向新市场(例如以Keeta品牌在中东扩张)的扩张损失,挤压了其净利润率。尽管如此,这家公司拥有巨大的现金流和技术技能,并且知道如何融资。他们是中中国科技行业的大玩家。

万亿参数模型时代

LongCat 2.0是一个1.6万亿参数的模型。相比之下,GLM 5.2只有它的一半大小,接近7000亿参数。训练大型模型变得越来越难——而这家来自外卖供应商美团的实验室已经表明他们完全有能力做到这一点。不仅如此,根据基准测试数据,这个模型也相当不错,包括在Terminal Bench 2上获得了70.8%的分数!

来源:LongCat

来源:LongCat

可以肯定的是,LongCat团队并不是中国第一个达到1万亿参数大关的。DeepSeek V4 Pro是1.6万亿参数;Moonshot团队据传也有一个基于线性注意力的1万亿参数模型。所以中国的实验室知道如何训练大规模模型。新的是,我们现在有了一个完全在中国国产芯片昇腾910C上从头训练的模型——在这个过程中,实验室和硬件供应商都展示了许多创新思维。 LongCat团队还采取了像N-gram这样大胆的架构押注并取得了成功——我们将在下面讨论更多。

地缘技术影响

根据SemiAnalysis的分析,华为在用完库存组件之前可以生产多达160万颗昇腾910C芯片。考虑到LongCat 2.0仅仅用了5万颗这样的芯片就训练完成,这对于实现AGI来说相当足够了!

此外,中国的中芯国际一直在基于7纳米工艺节点为华为制造新的芯片。所以他们的逻辑芯片可能永远不会用完。HBM仍然是一个瓶颈,但160万颗芯片对于实现AGI来说已经很多了。 长鑫存储也在积极努力,至少生产出HBM3。

与此同时,像DeepSeek这样的实验室正专注于减少HBM和HBM带宽需求。 他们的技术,如MLA、DSA、CSA、HCA,已被更广泛的中国实验室生态系统采用,包括LongCat实验室。我过去在以下这篇文章中深入介绍过这些技术:DeepSeek的10万亿美元战略

LongCat实验室使用了DeepSeek的MLA和一个可能更高效的DSA变体。很可能受到DeepSeek Engram方法(用CPU内存换取ASIC计算和HBM)的启发, 他们还添加了一个N-gram嵌入模块,通过N-gram令牌组合将嵌入空间扩大了约100倍,捕获更丰富的局部上下文并增强令牌级表示。这消耗了更多的CPU附加内存,但节省了ASIC计算和HBM带宽——这两者对于中国生态系统来说都是稀缺资源。 公平地说,LongCat团队——他们的论文LongCat Flash在DeepSeek的Engram发表后不到两周内发布,并且他们的方法有关键变化。所以他们可能是独立发明的。但想法是一样的——用一点DRAM内存来换取更昂贵的资源:ASIC FLOPs和HBM带宽。 我强烈建议你阅读LongCat Flash论文以及DeepSeek的Engram论文。下面我包含了LongCat和DeepSeek的关键图表。

来源:Longcat

来源:Longcat

来源:DeepSeek,展示了Engram嵌入如何存储和使用。计算通信重叠可以巧妙地用于此目的。

来源:DeepSeek,展示了Engram嵌入如何存储和使用。计算通信重叠可以巧妙地用于此目的。

另一方面,华为还实现了内存池化,以便在关键用例(如模型加载和KV缓存)中高效使用DRAM内存。

更重要的是,华为将系统设计为具有容错性。华为的方法基本上是大规模的低性能组件并行工作。 华为深知,对于给定的系统容量,拥有大量组件会因为某些组件必然发生故障而更频繁地中断训练,而且他们的系统相比英伟达的等效系统拥有更多的组件。

Nvidia Blackwell 快速回顾

在深入探讨昇腾910C之前,回顾一下Nvidia的Blackwell是很有用的。Blackwell提供了全球大部分的训练和推理FLOPs。它有两种变体:B200和B300(增强版)。B200和B300的主要区别在于HBM(每GPU 192GB vs 288GB)、FP4 FLOPs(10PF vs 15PF)和扩展带宽(400 Gbps vs 800 Gbps)。其他方面几乎相同。请注意,每个GPU有两个芯片。

下面的图表列出了各种关键的带宽指标。请仔细注意它们,因为我们之后会与昇腾910C进行比较。

来源:Nvidia

来源:Nvidia

与Blackwell相比的华为昇腾910C

华为910C也由两个芯片组成,就像Blackwell一样。它是只有单个芯片的910B的下一代版本。这里没有什么特别/不同之处。

来源:华为中央

来源:华为中央

主要区别在于各种带宽,如下表所示(来源:华为:在华为CloudMatrix384上服务大型语言模型)。Nvidia通常引用双向带宽,而行业标准是单向带宽报告(“黄氏数学”)。因此,我将Nvidia的数字转换为单向。另外,Nvidia报告的是两个芯片的总带宽。我已将其拆分为与昇腾芯片进行一对一比较。红色数字是Blackwell GPU的数据。

来源:华为(红色数字由我添加,代表Blackwell的数据)

来源:华为(红色数字由我添加,代表Blackwell的数据)

Die-to-Die带宽: 虽然其他带宽在数量级上相似,但我不得不注意到910C的die-to-die带宽相当低(270GB/s vs Blackwell的5TB/s)。

CPU-GPU带宽: 此外,没有专门的NVLink CC类型的专用网络用于GPU和CPU之间的通信。这种连接从Grace-Hopper一代开始存在。对于Grace-Hopper和Grace-Blackwell来说,它是900GB/s(单向450GB/s),对于Vera-Rubin来说,它是1800GB/s(单向900GB/s)。下面是一个展示Vera Rubin的图表(抱歉没有找到Grace Blackwell的类似图表)。

来源:Nvidia。

来源:Nvidia。

对于华为服务器——为了提供CPU和GPU之间的高带宽——CPU和GPU通过UB交换机和UB协议连接。 华为使用其UnifiedBus (UB)UB-Mesh协议 作为通用架构来扩展并连接CPU、GPU和NPU。该协议旨在取代传统的互连技术,如PCIe、NVLink和TCP/IP,将大量处理器池化到一个单一的、逻辑上的’超级节点’内存空间中。 在下图中,昇腾910C被称为’NPU’。它展示了CloudMatrix 384的一个节点——这样的节点有48个,每个节点有8个NPU,因此总数为384。每个节点有4个CPU,所以一个超级集群中共有192个CPU。

来源:华为

来源:华为

Nvidia的创新:机架级系统

NVL72是一个机架级系统,拥有18个计算托盘,每个托盘有2个CPU和4个GPU,总共72个GPU。这72个GPU通过NVLink和NVSwitch(交换机放置在机架中央)相互连接。这使得这72个GPU能够像一个巨大的单一GPU一样工作。任何GPU都可以访问任何其他GPU的HBM。 NVLink互连基于铜线(廉价)和高带宽。这就是Nvidia设计的高明之处:

来源:HPE

来源:HPE

华为的回应:多机架系统CloudMatrix 384

Nvidia的Grace Blackwell NVL72机架将72个GPU置于一个单扩展域中,任何GPU都可以与任何其他GPU通信,并以极高的带宽(Grace Blackwell为900GB/s,Vera Rubin为单向1800GB/s)轻松访问彼此的HBM内存。每颗华为910C具有较低的FLOPs、HBM和各种带宽。尽管如此,华为的多机架系统CloudMatrix 384在容量(FLOPs和内存)以及各种带宽上设法击败了NVL72。如何做到的?

通过将384个NPU置于一个单扩展域中。这是一个巨大的成就。 这就是华为作为一家巨型网络公司的专长所在。

引用华为的话:“CloudMatrix384的一个定义性特征是,它通过UB协议连接所有NPU和CPU,形成一个对等、全互连、超高带宽的网络。CloudMatrix384的UB设计是UB-Mesh的前身。384个NPU和192个CPU中的每一个都通过UB交换机连接,使得节点间的通信性能非常接近节点内的水平。节点间带宽下降低于3%,节点间延迟增加小于1微秒。考虑到现代AI工作负载主要是带宽密集型而非延迟敏感型,这种边际延迟开销对AI任务的端到端性能影响微乎其微。 总体而言,这种设计使CloudMatrix384能够作为一个紧密耦合的大规模逻辑节点运行,具有全局可寻址的计算和内存,便于统一资源池化和高效的工作负载编排。”(来源:在华为CloudMatrix384上服务大型语言模型)

因此,当Nvidia用NVL72的72个GPU创建一个巨型服务器时,华为借助UB协议,用384颗昇腾芯片做到了这一点。

来源:华为

来源:华为

这个超级集群看起来相当庞大,因为它有多个机架!有什么缺点?这个世界上没有免费的午餐。超级集群需要比NVL72多得多的电力,并且其扩展网络的成本要高得多。 但好处是中国有大量的电力,并且从中国的角度来看,超级集群的供应链是国内自给的。

来源:华为

来源:华为

相似文章