亚马逊大规模扁平数据中心网络
摘要
亚马逊讨论了扁平数据中心网络拓扑结构的演进,从理论上的扩张图到实际实现(如VL2和Jellyfish),以及在AWS中基于彭罗斯铺砌设计的当前研究。
暂无内容
查看缓存全文
缓存时间: 2026/06/10 00:22
# 大规模扁平数据中心网络 – 观点
来源:https://perspectives.mvdirona.com/2026/06/flat-datacenter-networks-at-scale/
[](https://perspectives.mvdirona.com/wp-content/uploads/2026/06/RNGNetworkTestLab-1.jpg)
寻找“最优路由”网络的研究根源可追溯到20世纪70年代末。数学家们定义了一种特殊类型的网络,称为“扩展器”。这些图具有强连通性,保证没有子集能够与其余部分隔离。1976年,Leslie Valiant 最早讨论了这类图(https://www.sciencedirect.com/science/article/pii/S0022000076800414)。随后,关于 Alon-Boppana 界限(https://en.wikipedia.org/wiki/Alon%E2%80%93Boppana_bound)的研究试图理解最佳“可能”的扩展器,数学家们(特别是 Lubotzky、Phillips 和 Sarnak)给出了这种最优扩展器的构造。这些构造设计精巧,使用了高级数论,并且仅适用于特定的网络规模和度数。
是否存在更简单、通用的构造?1991年,Friedman 证明(https://link.springer.com/article/10.1007/BF01275669)随机布线的网络有很高的概率与最佳显式构造几乎一样优秀。(2023年的一项最新数学结果(https://arxiv.org/abs/2412.20263)实际上证明了随机图能够匹配这个界限。)这意味着一个令人向往的推论:如果你想要一个路由最优的网络,你完全可以随机布线。
与此同时,网络行业走上了完全不同的道路。受交换机中 Clos 互连的启发,自20世纪80年代中期以来,通信网络一直基于“胖树”拓扑(一种折叠的 Clos)构建,使用两层、三层或更多层交换机。随着21世纪后期云计算的爆发,胖树以越来越复杂的方式扩展。2009年,由 Albert Greenberg 领导的我们九个人发表了“*VL2:一种可扩展且灵活的数据中心网络*(https://dl.acm.org/doi/10.1145/1594977.1592576)”,通过引入扁平寻址以及——值得注意的是——随机化的*Valiant负载均衡*来均匀分布网络路径上的流量,将胖树架构推向了新高度。2019年,VL2论文获得了SIGCOMM测试时间奖(https://www.sigcomm.org/awards/acm-sigcomm-test-of-time-paper-award)。VL2的工作表明,即使在结构化拓扑中,对*流量*(如果不是拓扑结构)随机化也能改善性能。但底层网络仍然是分层的、僵化的,且布线复杂。
2012年,伊利诺伊大学的研究人员在一项名为*Jellyfish*(https://www.usenix.org/conference/nsdi12/technical-sessions/presentation/singla)的提案中将随机图与数据中心网络联系起来。这项工作引发了许多后续研究。由于基于简单的理论模型和模拟,它留下了一些关键难题待解。随机图中的路由很棘手,因为数据可以走更多样化的路径;布线更困难,因为端点随机选择;运营也变得不可预测。大规模构建随机网络仍是一个难以实现的目标:*路由*、*布线和运营*是三个未解决的挑战。
**RNG(弹性网络图)的历史**
2023年,AWS首席科学家 Giacomo Bernardi 开始研究是否可以将数据中心路由器按照 Penrose 铺砌排列成扁平网络——这是一种几何构造,形状可以拼接但从不完全重复。亚马逊学者、华盛顿大学教授 Ratul Mahajan 对此产生了兴趣。两人花了数月时间探索这个想法,建立模拟,并尽可能推动这一概念。
到2024年年中,他们的研究遇到了瓶颈:Penrose 铺砌在纸面上很有前景,但模拟的网络不可靠,效率提升也不够。当他们用随机性取代结构时,结果显著改善。这成了一个内部笑话:“*只管随机!*”
但仍然存在差距:现有理论无法解决如何在亚马逊规模上*构建*这种扁平网络的问题。需要开发新的模型来预测性能、保证弹性,并使设计可操作。于是,Bernardi 和 Mahajan 在一个内部频道上发了一条Slack消息:“*这里有随机图专家吗?*”亚马逊学者、理论计算机科学教授 Seshadhri Comandur 热情地加入了这项工作。
该团队直接解决了三大障碍。针对*路由*,他们开发了 Spraypoint——一种利用图扩展属性来分发流量的转发方案,而不会用转发状态压垮路由器内存。针对*布线*,他们开发了 ShuffleBox——一种无源光学设备,其内部布线结合随机化的 ShuffleBox到 ShuffleBox 布线,生成表现如同真正随机图的“准随机”图。针对*运营*,他们将 RNG 设计成与胖树数据中心中已部署的完全相同的路由器和光模块兼容,构建了将抽象图转化为逐端口安装说明和诊断信息的软件工具,并开发了模型(详见研究论文(https://arxiv.org/abs/2604.15261)),用于从设计参数预测网络性能——从而在物理构建之前就可以通过数学验证部署。
三人现在有了一个理论上可行的设计,但没有证据表明它能在实践中工作。网络工程副总裁 Matt Rehder 提出了一个挑战:“*如果你们想证明它有效,就去一个实际的数据中心建造提议的设计。*”于是,在一个小团队的帮助下,他们照做了。第一个 RNG 数据中心于2024年在爱尔兰都柏林附近建成。
到2025年,团队从数据中心实验中收获甚多,以至于做出了一个大胆的决定:拆除网络,完善设计,再建设两个数据中心网络——一个在德国,一个在西班牙。结果令人瞩目:与传统的胖树网络相比,RNG**减少了69%的路由器**,实现了**33%更高的吞吐量**,降低网络功耗**40%**,并将运营成本降低了**27%**。2026年初,RNG 成为亚马逊全球大多数新建数据中心的默认设计。
**RNG 相对于胖树的优势**
1. *弹性*:在 RNG 网络中,没有哪个路由器比其他的更重要。损失1%的路由器大约会导致1%的容量损失——性能下降是成比例且可预测的,而非灾难性的。在胖树网络中,丢失一个错误的脊交换机可能会导致不成比例的容量损失。
2. *效率*:由于网络中所有路径在统计上是等效的,容量是可交换的。不存在锁定在特定层中的“孤立带宽”——任何可用容量都可以满足任何流量需求。
3. *增量可扩展性*:与胖树不同(胖树的大小由交换机端口数和层数决定),RNG 网络可以持续扩展。您只需添加路由器和连接,而无需重新设计拓扑或遭遇容量悬崖——图只是简单地增长。
**RNG 的相对局限性(及缓解措施)**
1. *运营复杂性*:随机图中的路径不如树中可预测,使用传统工具进行故障排除更加困难。我们通过专门构建的诊断软件来缓解这一问题,即使在缺乏层次结构的情况下,该软件也能让操作员看到流量分布和故障定位。
2. *性能保证*是随机的,而非确定性的。最坏情况性能(如跳数和超额认购)是已知的,但对于 RNG,我们的模型是随机的(即,最坏情况性能以高概率已知)。这其实是一个比看起来更弱的限制。如果考虑现实世界中频繁出现的大规模故障,胖树的保证实际上也是随机的。RNG 只是让随机性变得明确,并从一开始就为此进行设计。
**参考文献**
1. RNG 研究论文:https://arxiv.org/abs/2604.15261
2. About Amazon 故事:https://www.aboutamazon.com/stories/aws-random-graph-theory-data-center-network-design?&utm_term=36
3. Amazon Science 故事:https://www.amazon.science/blog/how-flat-is-replacing-fat-in-aws-data-center-networks
4. YouTube 解释视频:https://www.youtube.com/watch?v=yDoRYRRPOA0
5. 相关图片:https://amazongca.getbynder.com/share/B6E5A14E-AFFB-43AD-83599AFEABCBAB6A/?viewType=grid
6. “VL2: A Scalable and Flexible Data Center Network”(https://dl.acm.org/doi/10.1145/1594977.1592576)作者:Albert Greenberg, James R. Hamilton, Navendu Jain, Srikanth Kandula, Changhoon Kim, Parantap Lahiri, Dave A. Maltz, Parveen Patel, 和 Sudipta Sengupta。SIGCOMM 2009。
相似文章
Amazon 推出了“Resilient Network Graphs”(RNG),一种数据中心网络,可将硬件需求降低 69%,并将吞吐量提升 33%。
Amazon 推出了“Resilient Network Graphs”(RNG),这是一种数据中心网络设计,可将硬件需求降低 69%,并将吞吐量提升 33%。自去年悄然部署以来,现已成为大多数 AWS 工作负载的默认网络。
再见,叶脊网络?
对AWS一篇声称提出全新网络设计并超越叶脊架构的论文的批判性分析。作者认为该构想并非新颖,将其与Plexxi失败的方法进行比较,并指出其在吞吐量和随机性主张上的缺陷。
如何在太空中建造数据中心
探索在太空中建造数据中心的概念与挑战,以实现更高的数据处理能力和更低的延迟。
@Zai_org: https://x.com/Zai_org/status/2057216685040443743
本文介绍了ZCube,一种由Z.ai、Harnets.AI和清华大学提出的新型网络架构,用于解决Prefill-Decode分离式LLM推理集群中由拓扑引起的拥塞问题。在GLM-5.1编码工作负载的生产部署中,网络CapEx降低了33%,吞吐量提升了15%,TTFT P99延迟降低了40.6%。
@jhleath: https://x.com/jhleath/status/2065408690992148698
作者解释了如何构建一个能够在恒定时间内每秒启动数百万个沙箱的计算平台,重点介绍了使用Cassandra和S3进行解耦调度和能力聚合。