多处理最佳实践¶

torch.multiprocessing是 Python 的multiprocessing模块。它支持完全相同的作，而是扩展它，以便所有通过multiprocessing.Queue，将他们的数据移动到共享内存，并且只会将句柄发送到另一个进程。

注意

当Tensor发送到另一个进程时，Tensor数据被共享。如果torch.Tensor.grad是 not ，它也是共享的。在NoneTensor没有一个torch.Tensor.grad字段被发送到另一个进程，则创建特定于 Process 的标准.grad Tensor那不会在所有进程之间自动共享，这与Tensor的数据已共享。

这允许实施各种训练方法，例如 Hogwild、A3C 或任何其他需要异步作的。

多进程中的 CUDA¶

CUDA 运行时不支持 start 方法;或 start 方法为在子进程中使用 CUDA 所需的。forkspawnforkserver

注意

可以通过使用或直接使用创建上下文来设置 start 方法。multiprocessing.get_context(...)multiprocessing.set_start_method(...)

与 CPU 张量不同，发送过程需要保留原始张量只要接收进程保留 Tensor 的副本即可。它已实现在后台，但要求用户遵循该计划的最佳实践才能正常运行。例如，只要 Consumer 进程具有对 Tensor 的引用，而 refCounting 不能如果使用者进程通过 Fatal 信号异常退出，则 Save You。请参阅此部分。

另请参阅：使用 nn.parallel.DistributedDataParallel 而不是 multiprocessing 或 nn。DataParallel 数据并行

最佳实践和提示¶

避免和对抗死锁¶

当生成新进程时，有很多事情可能会出错，其中死锁的最常见原因是后台线程。如果有线程，并且被调用，则非常子进程可能处于损坏状态并死锁，或者以不同的方式失败。请注意，即使你不这样做，Python 内置的库可以 - 无需再深入研究forkmultiprocessing.multiprocessing.Queue实际上是一个非常复杂的类，则生成多个用于序列化、发送和接收对象的线程，它们也可能导致上述问题。如果您发现自己处于这种情况尝试使用，它不会使用任何其他线程。SimpleQueue

我们正在尽最大努力让您轻松，并确保这些死锁不会但有些事情超出了我们的控制范围。如果您有任何问题，则无法应付一段时间，尝试在论坛上联系，我们会看看它是否是一个我们可以修复的问题。

重用通过 Queue 传递的缓冲区¶

请记住，每次您放置Tensor转换为multiprocessing.Queue，则必须将其移动到共享内存中。如果已经共享，则为 no-op，否则将产生额外的内存复制可能会减慢整个过程。即使您有一个进程将数据发送到单个 Broker 中，使其将缓冲区发送回去 - 这个几乎是免费的，并且可以让您在发送下一批时避免复制。

异步多进程训练（例如 Hogwild）¶

用torch.multiprocessing，可以训练模型异步，参数要么一直共享，要么定期同步。在第一种情况下，我们建议将整个 model 对象，而在后者中，我们建议只发送state_dict().

我们建议使用multiprocessing.Queue为了传递各种的 PyTorch 对象。例如，可以继承张量以及共享内存中已有的存储，当使用 start 方法时，但是，它很容易出错，应谨慎使用，并且只能由 Advanced 用户。队列，即使它们有时是一个不那么优雅的解决方案，也会起作用在所有情况下都是正确的。fork

警告

您应该小心使用不受保护的 global 语句替换为 .如果使用的 start 方法不同，它们将在所有子进程中执行。if __name__ == '__main__'fork

霍格维尔德¶

具体的 Hogwild 实现可以在 examples 存储库中找到，但为了展示代码的整体结构，还有一个 minimal 示例如下：

import torch.multiprocessing as mp
from model import MyModel

def train(model):
    # Construct data_loader, optimizer, etc.
    for data, labels in data_loader:
        optimizer.zero_grad()
        loss_fn(model(data), labels).backward()
        optimizer.step()  # This will update the shared parameters

if __name__ == '__main__':
    num_processes = 4
    model = MyModel()
    # NOTE: this is required for the ``fork`` method to work
    model.share_memory()
    processes = []
    for rank in range(num_processes):
        p = mp.Process(target=train, args=(model,))
        p.start()
        processes.append(p)
    for p in processes:
        p.join()

多进程中的 CPU¶

不适当的多处理会导致 CPU 超额订阅，从而导致不同的进程争夺 CPU 资源，导致效率。

本教程将解释什么是 CPU 超额订阅以及如何避免它。

CPU 超额订阅¶

CPU 超额订阅是一个技术术语，指的是一种情况其中分配给系统的 vCPU 总数超过总数硬件上可用的 vCPU 数量。

这会导致对 CPU 资源的严重争用。在这种情况下，有在进程之间频繁切换，这会增加进程数切换开销并降低整体系统效率。

请参阅 CPU 超额订阅以及 Hogwild 中的代码示例在示例中找到的实现存储库。

在 CPU 上使用以下命令运行训练示例时使用 4 个进程：

python main.py --num-processes 4

假设计算机上有 N 个 vCPU 可用，执行上述作 command 将生成 4 个子进程。每个子进程将分配 N vCPU，因此需要 4*N 个 vCPU。但是，计算机只有 N 个 vCPU 可用。因此，不同的进程会争夺资源，导致进程频繁开关。

以下观察结果表明存在 CPU 超过订阅：

CPU 使用率高：使用命令可以观察 CPU 利用率始终较高，通常达到或超过其最大容量。这表明对 CPU 资源超过可用的物理内核，导致进程之间对 CPU 时间的争用和竞争。htop
频繁的上下文切换，系统效率低下：在超额订阅的 CPU 方案，进程争夺 CPU 时间，并且作系统需要在不同进程之间快速切换公平分配资源。这种频繁的上下文切换增加了开销并降低整体系统效率。

避免 CPU 超额订阅¶

避免 CPU 超额订阅的一个好方法是适当的资源分配。确保并发运行的进程或线程数不超过可用的 CPU 资源。

在这种情况下，解决方案是指定适当数量的子进程中的线程。这可以通过设置数字来实现使用 subprocess 中的函数的每个进程的线程数。torch.set_num_threads(int)

假设计算机上有 N 个 vCPU，并且 M 个进程将为生成，则每个进程使用的最大值将是。为避免 CPU 超额订阅mnist_hogwild example，示例中的文件需要进行以下更改存储库。num_threadsfloor(N/M)train.py

def train(rank, args, model, device, dataset, dataloader_kwargs):
    torch.manual_seed(args.seed + rank)

    #### define the num threads used in current sub-processes
    torch.set_num_threads(floor(N/M))

    train_loader = torch.utils.data.DataLoader(dataset, **dataloader_kwargs)

    optimizer = optim.SGD(model.parameters(), lr=args.lr, momentum=args.momentum)
    for epoch in range(1, args.epochs + 1):
        train_epoch(epoch, args, model, device, train_loader, optimizer)

使用为每个进程设置。其中，将 N 替换为可用 vCPU 的数量和 M 与所选的进程数。这适当的值将根据具体任务在手。但是，作为一般准则，的最大值应该是避免 CPU 超额订阅。在 mnist_hogwild 训练示例中，在避免 CPU 超额订阅，您可以实现 30 倍的性能提升。num_threadtorch.set_num_threads(floor(N/M))num_threadnum_threadfloor(N/M)