PyTorch 中的分布式数据并行 - 视频教程¶

创建时间： 2022年9月27日 |上次更新时间：2024 年 11 月 15 日 |上次验证： Nov 05， 2024

请跟随下面的视频或在 youtube 上观看。

本系列视频教程将引导您完成分布式训练 PyTorch 通过 DDP。

该系列从一个简单的非分布式训练作业开始，到一个简单的非分布式训练作业结束在集群中的多台计算机上部署训练作业。在此过程中，您还将了解 torchrun for 容错分布式训练。

本教程假定您对 PyTorch 中的模型训练有基本的了解。

运行代码¶

您需要多个 CUDA GPU 才能运行教程代码。通常这可以在具有多个 GPU 的云实例上完成（教程使用具有 4 个 GPU 的 Amazon EC2 P3 实例）。

教程代码托管在此 github 存储库中。克隆存储库并跟我一起作！