介绍 || 什么是DDP || 单节点多GPU训练 || 容错性 || 多节点训练 || minGPT训练
PyTorch中的分布式数据并行 - 视频教程¶
创建时间:2022年9月27日 | 最后更新时间:2024年11月15日 | 最后验证时间:2024年11月5日
请跟随下方视频或在 YouTube 上观看。
这一系列视频教程将通过DDP向您介绍如何在PyTorch中进行分布式训练。
该系列从一个简单的非分布式训练任务开始,最终结束于在集群中多台机器上部署训练任务。 在此过程中,您还将学习 torchrun 用于 容错分布式训练。
本教程假设您对 PyTorch 中的模型训练有一定的基础了解。