目录

介绍 || 什么是DDP || 单节点多GPU训练 || 容错性 || 多节点训练 || minGPT训练

PyTorch中的分布式数据并行 - 视频教程

创建时间:2022年9月27日 | 最后更新时间:2024年11月15日 | 最后验证时间:2024年11月5日

作者: Suraj Subramanian

请跟随下方视频或在 YouTube 上观看。

这一系列视频教程将通过DDP向您介绍如何在PyTorch中进行分布式训练。

该系列从一个简单的非分布式训练任务开始,最终结束于在集群中多台机器上部署训练任务。 在此过程中,您还将学习 torchrun 用于 容错分布式训练。

本教程假设您对 PyTorch 中的模型训练有一定的基础了解。

运行代码

您需要多个 CUDA GPU 来运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用的是配备 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在这个 GitHub 仓库中。 克隆仓库并跟随操作!

教程部分

  1. 简介(本页)

  2. 什么是DDP? 轻松介绍DDP的工作原理

  3. 单节点多GPU训练 使用单台机器上的多个GPU训练模型

  4. 容错分布式训练 使用 torchrun 使你的分布式训练任务更加稳健

  5. 多节点训练 使用多台机器上的多个GPU训练模型

  6. 使用DDP训练GPT模型 使用DDP训练minGPT模型的“真实世界”示例

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源