distributed-training

#distributed-training

Decoupled DiLoCo：弹性分布式 AI 训练的新前沿

Google DeepMind Blog ↗ · 2026-04-22 缓存

DeepMind 推出 Decoupled DiLoCo，这是一种新型分布式 AI 训练架构，通过隔离硬件故障，实现大型模型在全球分散数据中心之间的弹性、低带宽训练。

0 人收藏 0 人点赞

#distributed-training

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

Reddit r/MachineLearning ↗ · 2026-04-16

ResBM提出了一种基于Transformer的架构，采用残差编码器-解码器瓶颈用于流水线并行训练，在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销，推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞

#distributed-training

保持 Token 流动：16 个开源 RL 库的经验教训

Hugging Face Blog ↗ · 2026-03-10 缓存

Hugging Face 发布了对 16 个开源强化学习库的全面分析，研究异步 RL 训练的架构模式，并为 TRL 的异步训练器设计经验教训，以解决生成瓶颈和权重同步挑战。

0 人收藏 0 人点赞

#distributed-training

Ulysses 序列并行：百万Token上下文训练

Hugging Face Blog ↗ · 2026-03-09 缓存

Ulysses 序列并行是一种用于训练具有百万Token上下文的大语言模型的技术，通过将序列块分布在多个GPU上来降低内存需求，实现高效的长上下文训练。它与HuggingFace Accelerate、Transformers Trainer和TRL集成，支持Flash Attention和DeepSpeed ZeRO。

0 人收藏 0 人点赞

#distributed-training

大规模神经网络的训练技术

OpenAI Blog ↗ · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术，涵盖数据并行、管道并行、张量并行和专家混合等方法，以克服工程和可扩展性挑战。

0 人收藏 0 人点赞

#distributed-training

PyTorch分布式：加速数据并行训练的实践经验

Papers with Code Trending ↗ · 2020-06-28 缓存

本文详细介绍了PyTorch分布式数据并行模块的设计与优化，重点阐述了梯度分桶（gradient bucketing）和计算-通信重叠等技术，这些技术使系统在使用256个GPU时实现了接近线性的可扩展性。

0 人收藏 0 人点赞

distributed-training

Decoupled DiLoCo：弹性分布式 AI 训练的新前沿

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

保持 Token 流动：16 个开源 RL 库的经验教训

Ulysses 序列并行：百万Token上下文训练

大规模神经网络的训练技术

PyTorch分布式：加速数据并行训练的实践经验

提交意见反馈