Decoupled DiLoCo:弹性分布式 AI 训练的新前沿
摘要
DeepMind 推出 Decoupled DiLoCo,这是一种新型分布式 AI 训练架构,通过隔离硬件故障,实现大型模型在全球分散数据中心之间的弹性、低带宽训练。
查看缓存全文
缓存时间: 2026/05/08 09:06
# Decoupled DiLoCo:面向弹性分布式 AI 训练的新前沿
来源:https://deepmind.google/blog/decoupled-diloco/
我们全新的分布式架构助力在相隔遥远的数据中心之间训练 LLM——带宽更低,硬件弹性更强。
训练前沿 AI 模型传统上依赖于大型、紧耦合的系统,其中相同的芯片必须保持近乎完美的同步。这种方法对当今最先进的模型非常有效,但随着我们展望未来更大规模的代际,在数千个芯片之间维持这种同步水平成为重大的物流挑战。
今天,在一篇新论文(https://arxiv.org/abs/2604.21428v1)中,我们很高兴分享一种解决这一问题的新方法,称为 Decoupled DiLoCo(Distributed Low-Communication,分布式低通信)。通过将大型训练运行划分为解耦的计算"岛屿",并在它们之间实现异步数据流动,这种架构将局部干扰隔离,使系统的其他部分能够继续高效学习。
这是一种更具弹性和灵活性的方式,用于在全球分布的数据中心之间训练先进模型。关键的是,Decoupled DiLoCo 不会受到通信延迟的困扰,而这种延迟曾使数据并行(Data-Parallel)等先前的分布式方法在全球规模下难以实施。
随着前沿模型在规模和复杂性上持续增长,我们正在探索多样化的方法,以在更多计算资源、更多地点和更多样化的硬件上训练模型。
图 1:将训练运行解耦为独立的计算"岛屿"(学习单元),使得在相同水平的硬件故障下仍能保持基本不间断的训练,因为这些故障的影响被隔离了。
## 大规模开发更具容错性的异步训练
Decoupled DiLoCo 建立在两项早期进展之上:Pathways(https://blog.google/innovation-and-ai/products/introducing-pathways-next-generation-ai-architecture/),它引入了基于异步数据流的分布式 AI 系统;以及 DiLoCo(https://arxiv.org/abs/2311.08105),它大幅降低了分布式数据中心之间的带宽需求,使在遥远地点训练大型语言模型变得可行。
Decoupled DiLoCo 将这些理念结合起来,以更灵活地大规模训练 AI 模型。它构建在 Pathways 之上,支持跨独立计算岛屿(称为学习单元)的异步训练,因此一个区域的芯片故障不会中断其他区域的进展。
这一基础设施还具有自修复能力。在测试中,我们使用了一种称为"混沌工程"的方法,在训练运行期间引入人为硬件故障。Decoupled DiLoCo 在失去整个学习单元后继续训练过程,并在它们重新上线时无缝重新整合。
使用 Gemma 4 模型测试 Decoupled DiLoCo 表明,当硬件故障时,该系统比传统训练方法保持了更高的学习集群可用性——同时最终交付了相同的机器学习(ML)性能基准水平。
图 2:**左图**:Decoupled DiLoCo 方法所需的带宽比传统训练方法低几个数量级,使其非常高效。**中图**:随着硬件故障水平的增加,Decoupled DiLoCo 继续提供高水平的"有效吞吐量"(goodput),即有价值的训练,而其他方法的有效吞吐量则急剧下降。(前两个图表基于模拟训练运行)。**右图**:在真实世界实验中,使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法达到的性能相当。
Decoupled DiLoCo 不仅对故障更具弹性,而且适用于执行生产级的完全分布式预训练。我们成功地在四个独立的美国区域训练了一个 120 亿参数的模型,使用 2-5 Gbps 的广域网络(这一水平利用现有数据中心设施之间的互联网连接即可相对容易地实现,而无需在设施之间建设新的定制网络基础设施)。值得注意的是,该系统实现这一训练结果的速度比传统同步方法快 20 倍以上。这是因为我们的系统将所需的通信整合到更长的计算周期中,避免了"阻塞"瓶颈,即系统的一个部分必须等待另一个部分。
## 推动 AI 训练基础设施的演进
在 Google,我们采用全栈方法进行 AI 训练,涵盖硬件、软件基础设施和研究。越来越多的收益来自于重新思考这些层次如何协同工作。
Decoupled DiLoCo 就是一个例子。通过支持互联网规模带宽的训练作业,它可以利用任何闲置的计算资源,无论其位于何处,将搁浅的资源转化为有用的产能。
除了效率和弹性之外,这种训练范式还解锁了在单次训练运行中混合不同代际硬件的能力,例如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命,还增加了模型训练可用的总计算量。在我们的实验中,不同代际以不同速度运行的芯片仍然与单一芯片类型训练运行的 ML 性能相匹配,确保即使是较旧的硬件也能有意义地加速 AI 训练。
此外,由于新一代硬件不会同时到达所有地方,能够跨代际训练可以缓解反复出现的物流和产能瓶颈。
在我们今天推进 AI 基础设施前沿的同时,我们还在继续探索弹性系统所需的方法,以解锁下一代 AI。
## 致谢
这项工作由 Google DeepMind 和 Google Research 的成员团队完成。
Decoupled DiLoCo 的负责人和核心贡献者是 Arthur Douillard、Keith Rush、Yani Donchev、Zachary Charles、Ayush Dubey、Blake Woodworth、Ionel Gog、Josef Dean、Nova Fallen、Zachary Garrett。运营支持由 Nate Keating 和 Jenny Bishop 完成。
我们还要感谢 Jeff Dean、Marc'Aurelio Ranzato、Raia Hadsell、Arthur Szlam、Edouard Yvinec、Henry Prior、Paul Barham、Michael Isard、Daniel Ramage、Brendan McMahan、Chase Hensel 和 Zoltan Egyed 的额外支持和指导。
相似文章
网络上的大型语言模型:资源受限下的协作智能
本文探讨了分布式大型语言模型(LLMs)如何在设备和云端之间协同工作以应对资源限制的协作智能范式。文章涵盖了垂直方向的设备-云端协作、水平方向的多智能体协作、路由策略,以及在可扩展且可信的协作式人工智能方面的开放研究挑战。
AI训练能否像比特币挖矿那样去中心化?[D]
本文探讨了AI训练能否像比特币挖矿那样去中心化,参与者贡献GPU资源训练开源模型以换取代币,并引发了关于验证、虚假梯度和效率等问题的讨论。
@ickma2311: Efficient AI 第19讲:分布式训练(第一部分)这一讲让我更清楚地了解了自注意力……
第19讲高效AI分布式训练总结,涵盖数据、流水线、张量和序列并行方法,并附有关内存和通信瓶颈的说明。
@tom_doerr: 将AI训练分布到点对点代理网络中 https://github.com/hyperspaceai/agi…
Hyperspace推出了一种点对点代理网络,用于跨消费设备进行分布式AI训练,实现高压缩且无需中央基础设施的协作模型训练。
DualOptim+:桥接共享与解耦优化器状态以改进大型语言模型中的机器遗忘
介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。