标签
OpenAI 发布了 MRC(Multipath Reliable Connection),这是一种与行业合作伙伴共同开发的全新网络协议,旨在提升大规模 AI 训练集群的性能和可靠性。该规范通过 Open Compute Project 发布,以标准化基础设施,实现高效的超级计算机运行。
Emerald AI 展示了电力柔性AI工厂如何自主调节电力消耗以稳定电网需求,该方案依托伦敦数据中心的 NVIDIA GPUs 及相关基础设施,在不干扰关键工作负载的前提下吸收峰值功率激增。
# Kubernetes 扩展到 7,500 个节点 来源:[https://openai.com/index/scaling-kubernetes-to-7500-nodes/](https://openai.com/index/scaling-kubernetes-to-7500-nodes/) OpenAI将单个 Kubernetes 集群扩展到这个规模很少见,需要特殊的关注,但好处是提供了一个简单的基础设施,让我们的机器学习研究团队能够更快地迭代并扩展,而无需改变代码。从我们之前关于[扩展到 2,500 个节点](https://openai.com/index/scaling-kube)的文章以来