@MaxForAI: http://Z.ai和清华这篇ZCube,做Infra的家人们值得看下。 很多人聊AI infra,第一反应还是GPU、显存、量化、推理框架。 但到长上下文和Prefill-Decode分离之后,网络已经不再是机房里的「配角」了。 每一…

X AI KOLs Timeline 论文

摘要

ZCube是一种新的网络架构,通过打平拓扑并混合单/多轨接入,优化了长上下文和PD分离场景下的KV Cache传输,在GLM-5.1生产集群中实现了交换机/光模块成本降低33%、GPU推理吞吐提升15%、TTFT P99下降40.6%。

http://Z.ai和清华这篇ZCube,做Infra的家人们值得看下。 很多人聊AI infra,第一反应还是GPU、显存、量化、推理框架。 但到长上下文和Prefill-Decode分离之后,网络已经不再是机房里的「配角」了。 每一次KV Cache跨节点传输,都会穿过GPU之间的网络。 如果拓扑不匹配真实流量,表面上总带宽够,局部链路照样会堵,最后反映到吞吐、TTFT和单token成本上。 ZCube在GLM-5.1 coding inference生产集群里,在GPU没换,软件栈没换,应用没改,只改网络架构的情况下。 拿到了交换机和光模块CapEx降低33%,平均GPU推理吞吐提升15%,TTFT P99下降40.6%的结果。 这篇解决的不是一个很花哨的问题,而是一个越来越现实的问题: 推理集群越大,长上下文越多,PD分离越普遍,KV Cache流量就越不规则。 传统ROFT/Fat-Tree这种架构,很容易在某些Leaf switch和链路上形成热点。 ZCube干的事,是把网络拓扑打平,用single-rail/multi-rail混合接入,把PD流量分散到更大的路径空间里,从源头减少拓扑导致的拥塞。 我觉得这类工作之后会越来越重要。 下一阶段的AI推理降本,肯定不只发生在模型本身,也会发生在数据中心的交换机、光模块、路由策略和通信库里。 最后大家卷的可能不是谁有更多GPU,而是谁能把同一批GPU榨出更多token。 还是那句话,Model本身比的不是什么算法balabala的,其实拼的就是各家Infra的水平。
查看原文

相似文章

@Zai_org: https://x.com/Zai_org/status/2057216685040443743

X AI KOLs Timeline

本文介绍了ZCube,一种由Z.ai、Harnets.AI和清华大学提出的新型网络架构,用于解决Prefill-Decode分离式LLM推理集群中由拓扑引起的拥塞问题。在GLM-5.1编码工作负载的生产部署中,网络CapEx降低了33%,吞吐量提升了15%,TTFT P99延迟降低了40.6%。

@snowboat84: https://x.com/snowboat84/status/2061962883651731602

X AI KOLs Timeline

本文是AI工程全景系列的上篇,从历史角度梳理了GPU从游戏显卡到AI加速器的演化、CUDA的豪赌、谷歌TPU的独立路径,以及英伟达为何最终胜出,详细剖析了芯片、供应链、网络、电力等AI基础设施的底层逻辑。

@LinQingV: 之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

@berryxia: 兄弟们,我后背没有发凉。 但,我看到这个模型架构后高兴不已! 大家还在疯狂堆参数、卷通用大模型的时候,Interfaze直接用一个全新混合架构。 把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…

X AI KOLs Timeline

Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.