目录

简介 ||什么是 DDP ||单节点多 GPU 训练 ||容错 ||多节点训练 ||minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程

创建时间: 2022年9月27日 |上次更新时间:2024 年 11 月 15 日 |上次验证: Nov 05, 2024

作者: Suraj Subramanian

请跟随下面的视频或在 youtube 上观看。

本系列视频教程将引导您完成分布式训练 PyTorch 通过 DDP。

该系列从一个简单的非分布式训练作业开始,到一个简单的非分布式训练作业结束 在集群中的多台计算机上部署训练作业。 在此过程中,您还将了解 torchrun for 容错分布式训练。

本教程假定您对 PyTorch 中的模型训练有基本的了解。

运行代码

您需要多个 CUDA GPU 才能运行教程代码。通常 这可以在具有多个 GPU 的云实例上完成(教程 使用具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在此 github 存储库中。 克隆存储库并跟我一起操作!

教程部分

  1. 简介 (本页)

  2. 什么是 DDP?轻轻介绍 DDP 正在做什么 揭秘

  3. 单节点多 GPU 训练训练模型 在单台计算机上使用多个 GPU

  4. 容错分布式训练使用 torchrun 使您的分布式训练作业更加健壮

  5. 多节点训练训练模型 多台计算机上的多个 GPU

  6. 使用 DDP 训练 GPT 模型“真实世界” 使用 DDP 训练 minGPT 模型的示例

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源