distributed-training

标签

Cards List
#distributed-training

Decoupled DiLoCo:弹性分布式 AI 训练的新前沿

Google DeepMind Blog · 2026-04-22 缓存

DeepMind 推出 Decoupled DiLoCo,这是一种新型分布式 AI 训练架构,通过隔离硬件故障,实现大型模型在全球分散数据中心之间的弹性、低带宽训练。

0 人收藏 0 人点赞
#distributed-training

ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]

Reddit r/MachineLearning · 2026-04-16

ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞
#distributed-training

保持 Token 流动:16 个开源 RL 库的经验教训

Hugging Face Blog · 2026-03-10 缓存

Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。

0 人收藏 0 人点赞
#distributed-training

Ulysses 序列并行:百万Token上下文训练

Hugging Face Blog · 2026-03-09 缓存

Ulysses 序列并行是一种用于训练具有百万Token上下文的大语言模型的技术,通过将序列块分布在多个GPU上来降低内存需求,实现高效的长上下文训练。它与HuggingFace Accelerate、Transformers Trainer和TRL集成,支持Flash Attention和DeepSpeed ZeRO。

0 人收藏 0 人点赞
#distributed-training

大规模神经网络的训练技术

OpenAI Blog · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术,涵盖数据并行、管道并行、张量并行和专家混合等方法,以克服工程和可扩展性挑战。

0 人收藏 0 人点赞
#distributed-training

PyTorch分布式:加速数据并行训练的实践经验

Papers with Code Trending · 2020-06-28 缓存

本文详细介绍了PyTorch分布式数据并行模块的设计与优化,重点阐述了梯度分桶(gradient bucketing)和计算-通信重叠等技术,这些技术使系统在使用256个GPU时实现了接近线性的可扩展性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈