@MaxForAI: http://Z.ai和清华这篇ZCube，做Infra的家人们值得看下。很多人聊AI infra，第一反应还是GPU、显存、量化、推理框架。但到长上下文和Prefill-Decode分离之后，网络已经不再是机房里的「配角」了。每一…

X AI KOLs Timeline 2026/05/21 06:51 论文

ai-infra network-architecture kvcache long-context prefill-decode gpu-cluster cost-optimization

摘要

ZCube是一种新的网络架构，通过打平拓扑并混合单/多轨接入，优化了长上下文和PD分离场景下的KV Cache传输，在GLM-5.1生产集群中实现了交换机/光模块成本降低33%、GPU推理吞吐提升15%、TTFT P99下降40.6%。

http://Z.ai和清华这篇ZCube，做Infra的家人们值得看下。很多人聊AI infra，第一反应还是GPU、显存、量化、推理框架。但到长上下文和Prefill-Decode分离之后，网络已经不再是机房里的「配角」了。每一次KV Cache跨节点传输，都会穿过GPU之间的网络。如果拓扑不匹配真实流量，表面上总带宽够，局部链路照样会堵，最后反映到吞吐、TTFT和单token成本上。 ZCube在GLM-5.1 coding inference生产集群里，在GPU没换，软件栈没换，应用没改，只改网络架构的情况下。拿到了交换机和光模块CapEx降低33%，平均GPU推理吞吐提升15%，TTFT P99下降40.6%的结果。这篇解决的不是一个很花哨的问题，而是一个越来越现实的问题：推理集群越大，长上下文越多，PD分离越普遍，KV Cache流量就越不规则。传统ROFT/Fat-Tree这种架构，很容易在某些Leaf switch和链路上形成热点。 ZCube干的事，是把网络拓扑打平，用single-rail/multi-rail混合接入，把PD流量分散到更大的路径空间里，从源头减少拓扑导致的拥塞。我觉得这类工作之后会越来越重要。下一阶段的AI推理降本，肯定不只发生在模型本身，也会发生在数据中心的交换机、光模块、路由策略和通信库里。最后大家卷的可能不是谁有更多GPU，而是谁能把同一批GPU榨出更多token。还是那句话，Model本身比的不是什么算法balabala的，其实拼的就是各家Infra的水平。

查看原文

相似文章

@Zai_org: https://x.com/Zai_org/status/2057216685040443743

X AI KOLs Timeline

本文介绍了ZCube，一种由Z.ai、Harnets.AI和清华大学提出的新型网络架构，用于解决Prefill-Decode分离式LLM推理集群中由拓扑引起的拥塞问题。在GLM-5.1编码工作负载的生产部署中，网络CapEx降低了33%，吞吐量提升了15%，TTFT P99延迟降低了40.6%。

@snowboat84: https://x.com/snowboat84/status/2061962883651731602

X AI KOLs Timeline

本文是AI工程全景系列的上篇，从历史角度梳理了GPU从游戏显卡到AI加速器的演化、CUDA的豪赌、谷歌TPU的独立路径，以及英伟达为何最终胜出，详细剖析了芯片、供应链、网络、电力等AI基础设施的底层逻辑。

@LinQingV: 之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

X AI KOLs Timeline

A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.

@berryxia: 兄弟们，我后背没有发凉。但，我看到这个模型架构后高兴不已！大家还在疯狂堆参数、卷通用大模型的时候，Interfaze直接用一个全新混合架构。把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…

X AI KOLs Timeline

Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.

相似文章

@Zai_org: https://x.com/Zai_org/status/2057216685040443743

@snowboat84: https://x.com/snowboat84/status/2061962883651731602

@LinQingV: 之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataf…

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。 可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

提交意见反馈

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…