泛型连接上下文管理器¶

通用连接上下文管理器有助于在不均匀上进行分布式训练输入。本页概述了相关类的 API：、和。有关教程，请参阅使用 Join Context Manager 进行输入不均匀的分布式训练。JoinJoinableJoinHook

类 torch.distributed.algorithms 中。Join（joinables， enable=True， throw_on_early_termination=False， **kwargs）[来源]¶

此类定义了通用连接上下文管理器，它允许在进程连接后调用自定义钩子。

这些钩子应该隐藏未加入的进程的集体通信，以防止挂起和错误并确保算法的正确性。指JoinHook了解有关 Hook 定义的详细信息。

警告

上下文管理器要求每个参与Joinable自调用方法notify_join_context()在它自己的 per- iteration collective 通信来确保正确性。

警告

上下文管理器要求将这process_groupJoinHook对象是相同的。如果有多个JoinHookobjects，则使用第一个的。进程组和设备信息用于检查非加入的进程和通知进程在启用时引发异常，这两者都使用全减少。devicethrow_on_early_termination

参数

joinables （List[Joinable]） – 参与Joinables;它们的钩子在给定的次序。
enable （bool） – 启用不均匀输入检测的标志;设置为将禁用上下文管理器的功能，并且应该仅当用户知道输入不会不均匀时才设置（默认值：）。FalseTrue
throw_on_early_termination （bool） – 控制是否抛出检测到不均匀的输入时出现异常（默认值：）。False

例：

>>> import os
>>> import torch
>>> import torch.distributed as dist
>>> import torch.multiprocessing as mp
>>> import torch.nn.parallel.DistributedDataParallel as DDP
>>> import torch.distributed.optim.ZeroRedundancyOptimizer as ZeRO
>>> from torch.distributed.algorithms.join import Join
>>>
>>> # On each spawned worker
>>> def worker(rank):
>>>     dist.init_process_group("nccl", rank=rank, world_size=2)
>>>     model = DDP(torch.nn.Linear(1, 1).to(rank), device_ids=[rank])
>>>     optim = ZeRO(model.parameters(), torch.optim.Adam, lr=0.01)
>>>     # Rank 1 gets one more input than rank 0
>>>     inputs = [torch.tensor([1.]).to(rank) for _ in range(10 + rank)]
>>>     with Join([model, optim]):
>>>         for input in inputs:
>>>             loss = model(input).sum()
>>>             loss.backward()
>>>             optim.step()
>>>     # All ranks reach here without hanging/erroring

静态notify_join_context（可加入）[来源]¶

通知连接上下文管理器调用进程尚未加入。

然后，如果，则检查是否检测到不均匀的输入（即，如果一个进程已经加入），如果是这样，则抛出异常。throw_on_early_termination=True

此方法应从Joinable对象它的每次迭代集体通信。例如，这应该在中的前向传递开始时调用。DistributedDataParallel

只有第一个Joinable对象传递到上下文中 manager 在此方法中执行集体通信，并且对于其他人来说，这种方法是空洞的。

参数: joinable （Joinable） – 该Joinable对象调用此方法。
返回: all-reduce 的异步工作句柄，用于通知上下文进程尚未加入的 manager （如果为第一个传递到上下文管理器中; 否则。joinableNone

类 torch.distributed.algorithms 中。可加入[来源]¶

这为可连接类定义了一个抽象基类。

可加入的类（继承自Joinable）应实现join_hook(), ，它返回一个JoinHook实例，除了join_device()和join_process_group()返回设备并 process group 信息。

抽象属性 join_device： device¶: 返回从中执行连接上下文管理器所需的集体通信的设备。

摘要 join_hook（**kwargs）[来源]¶

返回一个JoinHook实例Joinable.

参数: kwargs （dict） – 一个dict包含任何关键字参数在运行时修改 Join 钩子的行为;都Joinable共享相同 Join 上下文的实例 manager 将转发相同的值。kwargs
返回类型: JoinHook 连接

抽象属性 join_process_group：Any¶: 返回连接上下文管理器本身所需的集体通信的进程组。

类 torch.distributed.algorithms 中。JoinHook[来源]¶

这定义了一个 join hook，它在 join context manager 中提供了两个入口点。

入口点：一个主钩子，当存在非连接时被重复调用 process 和 post-hook，在所有进程都加入后调用。

要为通用连接上下文管理器实现连接钩子，请定义一个继承自JoinHook并酌情覆盖和。main_hook()post_hook()

main_hook（）[来源]¶

当存在未加入的进程时调用此钩子，以在训练迭代中影子集体通信。

训练迭代，即在一个前向传递、向后传递和优化器步骤中。

post_hook（is_last_joiner）[来源]¶

在所有进程都加入后调用 hook。

它传递了一个附加参数，该参数指示排名是否是最后加入的排名之一。boolis_last_joiner

参数: is_last_joiner （bool） – 如果排名是最后一个加入; 否则。TrueFalse

泛型连接上下文管理器¶

文档

教程

资源