PyTorch分布式：加速数据并行训练的实践经验

Papers with Code Trending 2020/06/28 20:39 论文

摘要

本文详细介绍了PyTorch分布式数据并行模块的设计与优化，重点阐述了梯度分桶（gradient bucketing）和计算-通信重叠等技术，这些技术使系统在使用256个GPU时实现了接近线性的可扩展性。

本文介绍了PyTorch分布式数据并行模块的设计、实现与评估。PyTorch是一个广泛应用于深度学习研究和科学计算的软件包。深度学习的最新进展凸显了大型数据集和大型模型的价值，这要求能够将模型训练扩展到更多的计算资源。数据并行因其原理简单、适用性广而成为分布式训练的流行方案。一般而言，分布式数据并行技术在每个计算资源上复制模型以独立生成梯度，然后在每次迭代时通信这些梯度以保持模型副本的一致性。尽管该技术概念简单，但计算与通信之间的微妙依赖关系使得优化分布式训练效率并非易事。从v1.5版本开始，PyTorch原生提供了多项技术来加速分布式数据并行，包括梯度分桶、计算与通信重叠以及跳过梯度同步等。评估结果表明，在配置得当的情况下，PyTorch分布式数据并行模块使用256个GPU时达到了接近线性的可扩展性。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:57

论文页面 - PyTorch Distributed: Experiences on Accelerating Data Parallel Training

来源：https://huggingface.co/papers/2006.15704 发布日期：2020年6月28日

摘要

PyTorch 分布式数据并行模块通过梯度分桶（gradient bucketing）、计算与通信重叠以及选择性同步等技术，优化大规模模型训练，实现了接近线性的可扩展性。

本文介绍了 PyTorch (https://huggingface.co/papers?q=PyTorch) 分布式数据并行 (https://huggingface.co/papers?q=distributed%20data%20parallel) 模块的设计、实现与评估。PyTorch (https://huggingface.co/papers?q=PyTorch) 是一个在深度学习研究和应用中被广泛采用的科学计算库。近年来深度学习的进展凸显了大数据集和大模型的价值，这要求能够将模型训练扩展到更多的计算资源上。数据并行因其原理简单、适用性广，已成为分布式训练的流行方案。一般而言，分布式数据并行 (https://huggingface.co/papers?q=distributed%20data%20parallel) 技术在每个计算资源上复制模型以独立生成梯度，然后在每次迭代时通信这些梯度以保持模型副本的一致性。尽管该技术概念简单，但计算与通信之间的微妙依赖关系使得优化分布式训练效率并非易事。截至 v1.5 版本，PyTorch (https://huggingface.co/papers?q=PyTorch) 原生提供了多项技术来加速分布式数据并行，包括梯度分桶、计算与通信重叠以及跳过梯度同步。评估表明，在配置得当的情况下，PyTorch (https://huggingface.co/papers?q=PyTorch) 分布式数据并行 (https://huggingface.co/papers?q=distributed%20data%20parallel) 模块在使用 256 个 GPU 时达到了接近线性的可扩展性。

查看 arXiv 页面 (https://arxiv.org/abs/2006.15704)查看 PDF (https://arxiv.org/pdf/2006.15704)GitHub 99.7k 星标 (https://github.com/pytorch/pytorch)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2006.15704)

在您的智能体中获取这篇论文：

hf papers read 2006.15704

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2006.15704 即可从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2006.15704 即可从此页面链接。

引用此论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2006.15704 即可从此页面链接。

包含此论文的收藏 2

相似文章

@PyTorch: At #PyTorchCon Europe 2026, @ezyang (@Meta) explains why many developers find tensor parallelism difficult to work with…

X AI KOLs Following

At PyTorchCon Europe 2026, Edward Yang explains PyTorch's new pre-compilation support for distributed training and SPMD type system to help developers write correct tensor parallelism code, addressing common pitfalls in gradient correctness.

PyTorch分布式：加速数据并行训练的实践经验

论文页面 - PyTorch Distributed: Experiences on Accelerating Data Parallel Training

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 2

相似文章

@PyTorch: At #PyTorchCon Europe 2026, @ezyang (@Meta) explains why many developers find tensor parallelism difficult to work with…

@yukangchen_: 很高兴分享我们的新博客：利用并行化扩展视频训练 https://research.nvidia.com/labs/eai/blogs/scali…

大规模神经网络的训练技术

@PyTorch: PyTorch 2.12 在编译、导出、分布式训练和加速器支持方面引入重大更新。亮点…

@ickma2311: Efficient AI 第19讲：分布式训练（第一部分）这一讲让我更清楚地了解了自注意力……

提交意见反馈