gpu-scalability

#gpu-scalability

PyTorch分布式：加速数据并行训练的实践经验

Papers with Code Trending ↗ · 2020-06-28 缓存

本文详细介绍了PyTorch分布式数据并行模块的设计与优化，重点阐述了梯度分桶（gradient bucketing）和计算-通信重叠等技术，这些技术使系统在使用256个GPU时实现了接近线性的可扩展性。

0 人收藏 0 人点赞