分布式和并行训练教程¶
创建时间: 2022年10月4日 |上次更新时间:2024 年 10 月 31 日 |上次验证: Nov 05, 2024
分布式训练是一种模型训练范式,涉及 因此,将训练工作负载分散到多个 worker 节点 显著提高训练速度和模型准确性。而 分布式训练可用于任何类型的 ML 模型训练,它 最有利于将其用于大型模型和计算要求 任务作为深度学习。
有几种方法可以在 PyTorch 中,每种方法在某些用例中都有其优势:
在 Distributed Overview 中阅读有关这些选项的更多信息。
学习 DDP¶
有关如何开始使用 DistributedDataParallel 并进入更复杂的主题的分步视频系列
本教程对 PyTorch 进行了简短而温和的介绍 DistributedData 并行。
本教程介绍了 Join 上下文管理器和 演示了它与 DistributedData Parallel 的配合使用。
学习 FSDP¶
本教程演示如何执行分布式训练 在 MNIST 数据集上使用 FSDP。
在本教程中,您将学习如何微调 HuggingFace (HF) T5 带有 FSDP 的模型,用于文本摘要。
学习 Tensor Parallel (TP)¶
本教程演示了如何使用 Tensor Parallel 和 Fully Sharded Data Parallel 跨数百到数千个 GPU 训练大型 Transformer 类模型。
学习 DeviceMesh¶
在本教程中,您将了解 DeviceMesh 以及它如何帮助进行分布式训练。
学习 RPC¶
本教程演示如何开始使用基于 RPC 的分布式 训练。
本教程将引导您完成一个实现 参数服务器使用 PyTorch 的分布式 RPC 框架。
在本教程中,您将构建批处理 RPC 应用程序 使用 @rpc.functions.async_execution 装饰器。
在本教程中,您将学习如何合并分布式数据 Parallelism 与 Distributed Model Parallelism 的匹配。
自定义扩展¶
在本教程中,您将学习如何实现自定义 ProcessGroup 后端,并使用 cpp 扩展名。