FullyShardedDataParallel¶

类 torch.distributed.fsdp 中。FullyShardedDataParallel（module， process_group=无， sharding_strategy=无， cpu_offload=无， auto_wrap_policy=无，backward_prefetch=BackwardPrefetch.BACKWARD_PRE，mixed_precision=无，ignored_modules=无，param_init_fn=无、device_id=无、sync_module_states=False、forward_prefetch=False、limit_all_gathers=False、use_orig_params=False， ignored_parameters=None）[来源]¶

用于跨数据并行工作程序对 Module 参数进行分片的包装器。这的灵感来自 Xu 等人以及 DeepSpeed 的 ZeRO Stage 3。 FullyShardedDataParallel 通常简称为 FSDP。

例：

>>> import torch
>>> from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
>>> torch.cuda.set_device(device_id)
>>> sharded_module = FSDP(my_module)
>>> optim = torch.optim.Adam(sharded_module.parameters(), lr=0.0001)
>>> x = sharded_module(x, y=3, z=torch.Tensor([1]))
>>> loss = x.sum()
>>> loss.backward()
>>> optim.step()

警告

优化器必须在模块包装后初始化，因为 FSDP 将就地分片参数，这将破坏任何以前初始化的优化器。

警告

如果目标 CUDA 设备具有 ID ，则（1）应已放置在该设备上，（2）设备应该使用，进行设置，或者（3）应该传递到构造函数中论点。此 FSDP 实例的计算设备将是该目标装置。对于（1）和（3），FSDP 初始化始终在 GPU 上进行。对于（2），FSDP 初始化发生在的当前 device，可能是 CPU。dev_idmoduletorch.cuda.set_device(dev_id)dev_iddevice_idmodule

警告

FSDP 目前不支持在使用 CPU 卸载时在外部进行梯度累积。尝试这样做会产生结果不正确，因为 FSDP 将使用新降低的梯度而不是与任何现有梯度累积。no_sync()

警告

构造后更改原始参数变量名称将导致未定义的行为。

警告

传入 sync_module_states=True 标志需要将 module 在 GPU 上，或使用参数指定 CUDA 设备 FSDP 将 move module to.这是因为需要 GPU 通信。device_idsync_module_states=True

警告

从 PyTorch 1.12 开始，FSDP 仅提供对共享参数的有限支持（例如，将一个图层的权重设置为另一个图层的权重）。在特别是，共享参数的模块必须包装为相同的 FSDP 单元。如果您的使用案例，请 ping https://github.com/pytorch/pytorch/issues/77724Linear

注意

FSDP 函数的输入将移动到计算设备（同一设备 FSDP 模块开启）之前，因此用户执行不必手动从 CPU > GPU 移动输入。forwardforward

参数

模块（nn.Module） – 这是要使用 FSDP 包装的模块。
process_group （optional[Union[ProcessGroup， Tuple[ProcessGroup， ProcessGroup]]]） – 可选[Union[ProcessGroup， Tuple[ProcessGroup， ProcessGroup]]] 这是用于集体通信的进程组，模型分片的那个。对于混合分片策略，例如用户可以传入一个进程组元组，这些进程组表示要分片和复制的组，分别。ShardingStrategy.HYBRID_SHARD
sharding_strategy （Optional[ShardingStrategy]） – 配置 FSDP 使用的分片策略，该策略可以交易关闭内存节省和通信开销。看ShardingStrategy了解详情。（默认：FULL_SHARD)
cpu_offload （Optional[CPUOffload]） – 配置 CPU 卸载。如果此项设置为，则不会发生 CPU 卸载。看NoneCPUOffload了解详情。（默认：None)
auto_wrap_policy （可选[Union[Callable[[nn.模块， bool， int]， bool]， _FSDPPolicy]]） –
这是、、或的可调用对象固定签名。如果是，则包装只有一个顶级 FSDP 实例，没有任何嵌套包装。如果它是一个，则换行遵循给定的政策。 in 就是一个例子。如果它是一个可调用的，那么它应该接受三个 arguments ，，和 and 应返回一个指定的传入的 Conf-In 是否应该被包装，如果遍历应该继续向下遍历 subtree 如果 .其他自定义参数可以是添加到 callable 中。in 给出了一个 callable 示例，如果模块的子树中的参数超过 100M numel，则包装模块。一个好的做法是在包装后打印模型并调整为需要。None_FSDPPolicyNonemodule_FSDPPolicyModuleWrapPolicytorch.distributed.fsdp.wrap.pymodule: nn.Modulerecurse: boolnonwrapped_numel: intboolmodulerecurse=Falserecurse=Truesize_based_auto_wrap_policytorch.distributed.fsdp.wrap.py

例：
```
>>> def custom_auto_wrap_policy(
>>>     module: nn.Module,
>>>     recurse: bool,
>>>     nonwrapped_numel: int,
>>>     # Additional custom arguments
>>>     min_num_params: int = int(1e8),
>>> ) -> bool:
>>>     return nonwrapped_numel >= min_num_params
>>> # Configure a custom `min_num_params`
>>> my_auto_wrap_policy = functools.partial(custom_auto_wrap_policy, min_num_params=int(1e5))
```
backward_prefetch （Optional[BackwardPrefetch]） – 这将配置所有收集的显式向后预取。看BackwardPrefetch了解详情。（默认：BACKWARD_PRE)
mixed_precision （Optional[MixedPrecision]） – 这将为 FSDP 配置本机混合精度。如果设置为，则不使用混合精度。否则，参数 buffer 和 gradient reduction dtypes 的 d类型。看NoneMixedPrecision了解详情。（默认：None)
ignored_modules （Optional[Iterable[torch.nn.Module]]） – 其自己的 parameters 和子模块的 parameters 和 buffer 是被此实例忽略。直接输入的模块都不应该是ignored_modulesFullyShardedDataParallel实例和任何已经构建的子模块FullyShardedDataParallel如果它们嵌套在此实例下。此参数可用于在使用 OR 参数的分片未由 FSDP.（默认：auto_wrap_policyNone)
param_init_fn （可选[Callable[[nn.模块]，无]]） –
一个指定当前位于 meta 设备上的模块应如何初始化拖动到实际设备上。请注意，从 v1.12 开始，我们在 meta device 并应用默认初始化，该初始化在传入的 if 上调用方法，否则我们运行以初始化传入的在。具体而言，这意味着如果对于任何 module 参数，则假定你的模块正确实现了 a，否则将引发错误。请注意，我们还提供对模块的支持使用 torchdistX 的（https://github.com/pytorch/torchdistX） API 初始化。在这种情况下，将初始化延迟的模块通过调用 torchdistX 的默认初始化函数，如果不是，则调用传入的。这同样适用于初始化所有 meta 模块。请注意，此初始化函数在执行任何 FSDP 分片之前应用逻辑。Callable[torch.nn.Module] -> Noneis_metareset_parametersnn.Moduleparam_init_fnparam_init_fnnn.Moduleis_meta=Trueparam_init_fnreset_parameters()deferred_initmaterialize_moduleparam_init_fnNoneCallable

例：
```
>>> module = MyModule(device="meta")
>>> def my_init_fn(module):
>>>     # responsible for initializing a module, such as with reset_parameters
>>>     ...
>>> fsdp_model = FSDP(module, param_init_fn=my_init_fn, auto_wrap_policy=size_based_auto_wrap_policy)
>>> print(next(fsdp_model.parameters()).device) # current CUDA device
>>> # With torchdistX
>>> module = deferred_init.deferred_init(MyModule, device="cuda")
>>> # Will initialize via deferred_init.materialize_module().
>>> fsdp_model = FSDP(module, auto_wrap_policy=size_based_auto_wrap_policy)
```
device_id （Optional[Union[int， torch.device]]） – 描述 FSDP 模块应移动到的 CUDA 设备的或，以确定 FSDP 模块的位置进行分片等初始化。如果未指定此参数并且位于 CPU 上，我们会发出警告，指出此参数可以指定以加快初始化速度。如果指定，则生成的 FSDP 实例将驻留在此设备上，包括移动被忽略的模块的参数需要。请注意，如果指定了 if 但已在不同的 CUDA 设备，则会引发错误。（默认：inttorch.devicemoduledevice_idmoduleNone)
sync_module_states （bool） – 如果，每个单独包装的 FSDP 单元将广播 module 参数，以确保它们在 0 之后的所有等级中都相同初始化。这有助于确保模型参数在不同等级之间相同，但至少会给增加通信开销每个单独包装的 FSDP 单元触发一次广播。这也有助于以内存高效的方式加载 Takes Taken 和 To be loading 的 checkpoint。有关此示例，请参阅文档。（默认：True__init__state_dictload_state_dictFullStateDictConfigFalse)
forward_prefetch （bool） – 如果，则 FSDP 显式预取在 forward pass 中执行时，下一个即将到来的 all-gather。这可能会改善 CPU 的通信和计算重叠绑定工作负载。这应该仅用于静态图形模型由于正向顺序是根据第一次迭代的执行。（默认：TrueFalse)
limit_all_gathers （bool） – 如果，则 FSDP 允许 CPU thread 来调度 all-gathers，而无需任何额外的同步。如果，则 FSDP 将 CPU 线程显式同步到防止过多的 In-Running All-Gathers。这只会影响安排 All-Gather 的分片策略。启用此功能可以帮助减少 CUDA malloc 重试次数。FalseTruebool
ignored_parameters （Optional[Iterable[torch.nn.Parameter]]） – 忽略 parameters 将不受此 FSDP 实例的管理，这意味着这些参数不会被 FSDP 扁平化和分片，它们的梯度也不会同步。有了这个新添加的参数，可能很快就会被弃用。为了向后兼容，两者都暂时保留，但 FSDP 只允许将其中一个指定为 not 。ignored_modulesignored_parametersignored_modulesNone

apply（fn）[来源]¶

递归应用于每个子模块（由）以及自我。典型用途包括初始化模型的参数（另请参见 torch.nn.init）。fn.children()

与相比，此版本还收集了应用之前的完整参数。它不应从在另一个上下文中。torch.nn.Module.applyfnsummon_full_params

参数

fn （ -> None） – 要应用于每个子模块的函数Module

结果

自我

返回类型：

模块

clip_grad_norm_（max_norm， norm_type=2.0）[来源]¶

剪辑所有参数的渐变范数。范数是通过所有参数的梯度都视为单个向量，并且渐变是就地修改的。

参数

max_norm （float or int） - 梯度的最大范数
norm_type （float or int） - 使用的 p-norm 的类型。可以是无穷大范数。'inf'

结果

参数的总范数（视为单个向量）。

返回类型：

张肌

注意

如果每个 FSDP 实例都使用，则表示没有 gradients 跨等级分片，那么您可以直接使用NO_SHARDtorch.nn.utils.clip_grad_norm_().

注意

如果至少有一些 FSDP 实例使用分片策略（即一个 else than ），那么你应该使用这个方法而不是NO_SHARDtorch.nn.utils.clip_grad_norm_()由于此方法处理渐变跨等级分片的事实。

注意

返回的总范数将具有“最大”的 dtype PyTorch 的类型提升定义的所有参数/梯度语义学。例如，如果所有参数/梯度都使用低 precision dtype 的 vtype 中，则返回的 norm 的 dtype 将如此之低 precision dtype，但如果至少存在一个 parameter/ gradient 一起使用 FP32，则返回的 norm 的 dtype 将为 FP32。

警告

这需要在所有等级上调用，因为它使用集体通信。

static flatten_sharded_optim_state_dict（sharded_optim_state_dict， model， optim）[来源]¶

API 类似于shard_full_optim_state_dict().唯一的区别在于 input 应该是返回自sharded_optim_state_dictsharded_optim_state_dict().因此，将在每个等级上调用 All-gather 以收集 S。ShardedTensor

参数

sharded_optim_state_dict （Dict[str， Any]） – 优化器状态 dict 对应于未展平的参数，并按住 sharded optimizer 状态。
model （torch.nn.Module） – 请参阅：meth：。shard_full_optim_state_dict
optim （torch.optim.Optimizer） – 的 Optimizermodel
参数。–

结果

指shard_full_optim_state_dict().

返回类型：

Dict[str，任意]

forward（*args， **kwargs）[来源]¶

运行包装模块的正向传递，插入特定于 FSDP 的前向和后向分片逻辑。

返回类型：: 任何

static fsdp_modules（module， root_only=False）[来源]¶

返回所有嵌套的 FSDP 实例，可能包括其自身并且仅在 .moduleroot_only=True

参数

module （torch.nn.Module） – 根模块，可以是模块，也可以是模块。FSDP
root_only （bool） – 是否仅返回 FSDP 根模块。（默认：False)

结果

嵌套在输入 .module

返回类型：

列表[FullyShardedDataParallel]

static full_optim_state_dict（model， optim， optim_input=None， rank0_only=True， group=None）[来源]¶

合并排名 0 上的完整优化器状态并返回它作为dict遵循torch.optim.Optimizer.state_dict()，即带有键和 .模块中扁平化的参数包含在中，则映射回其未拼合的参数。"state""param_groups"FSDPmodel

警告

这需要在所有等级上调用，因为它使用集体通信。但是，如果，则状态 dict 仅在排名 0 和所有其他排名上填充返回一个空的rank0_only=Truedict.

警告

与不同，此方法使用完整的参数名称作为键，而不是参数 ID。torch.optim.Optimizer.state_dict()

注意

点赞torch.optim.Optimizer.state_dict()、张量包含在优化器状态 dict 中，因此可能会有是别名惊喜。对于最佳实践，请考虑将立即返回 Optimizer state dict，例如使用 .torch.save()

参数

model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数传递到 Optimizer 中。optim
optim （torch.optim.Optimizer） – 的 Optimizer 参数。model
optim_input （Optional[Union[List[Dict[str， Any]]， Iterable[torch.nn.Parameter]]]） – 传入优化器的输入，表示optimlistof 参数组或参数的可迭代对象; 如果，则此方法假定输入为。此参数已弃用，并且无需再传入。（默认：Nonemodel.parameters()None)
rank0_only （bool） – 如果，则保存填充的Truedict仅在 0 级上;if ，则将其保存在所有等级上。（默认：FalseTrue)
组（dist.ProcessGroup） – 模型的进程组，或者如果使用默认进程组。（默认：NoneNone)

结果

一个dict包含的原始未拼合参数的优化器状态，并包含键 “state” 和 “param_groups” 遵循modeltorch.optim.Optimizer.state_dict().如果则非零 ranks 返回一个空的rank0_only=Truedict.

返回类型：

Dict[str，任意]

static load_optim_state_dict_pre_hook（model， optim， optim_state_dict， group=None）[来源]¶

此钩子旨在由 . 除了不同的参数外，函数性与相同。torch.distributed.NamedOptimizer:meth:optim_state_dict_to_load

参数

model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数传递到 Optimizer 中。optim
optim （torch.optim.Optimizer） – 的 Optimizer 参数。model
optim_state_dict （Dict[str， Any]） – 要加载的优化器状态。
组（dist.ProcessGroup） – 模型的流程组，参数分片，或者使用默认进程组。( 违约：NoneNone)

返回类型：

Dict[str，任意]

property module：模块¶: 返回包装的模块（如）。DistributedDataParallel

named_buffers（*args， **kwargs）[来源]¶

重写named_buffers()拦截缓冲区名称，并使用删除所有出现的特定于 FSDP 的扁平化缓冲区前缀当在summon_full_params()上下文管理器。

返回类型：: Iterator[Tuple[str，张量]]

named_parameters（*args， **kwargs）[来源]¶

重写named_parameters()拦截参数名称，并删除所有出现的特定于 FSDP 的扁平化参数前缀当在summon_full_params()上下文管理器。

返回类型：: Iterator[Tuple[str，参数]]

no_sync（）[来源]¶

用于禁用跨 FSDP 的梯度同步的上下文管理器实例。在此上下文中，梯度将在 module 中累积变量，稍后将在第一个 forward-backward 传递。这应该只是在根 FSDP 实例上使用，并将递归地应用于所有子 FSDP 实例。

注意

这可能会导致更高的内存使用率，因为 FSDP 会累积完整的模型梯度（而不是梯度分片）直到最终同步。

注意

当与 CPU 卸载一起使用时，梯度不会在 Context Manager 中卸载到 CPU。相反，他们只会在最终同步后立即卸载。

返回类型：: 发电机

static optim_state_dict（model， optim， group=None）[来源]¶

返回的状态 dict 为（部分）由 FSDP 分片。状态可以分片、合并或合并排名 0 时，仅取决于optimmodelstate_dict_typeset_state_dict_type()或state_dict_type().

例：

>>> from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
>>> from torch.distributed.fsdp import StateDictType
>>> from torch.distributed.fsdp import FullStateDictConfig
>>> from torch.distributed.fsdp import FullOptimStateDictConfig
>>> # Save a checkpoint
>>> model, optim = ...
>>> FSDP.set_state_dict_type(
>>>     model,
>>>     StateDictType.FULL_STATE_DICT,
>>>     FullStateDictConfig(rank0_only=False),
>>>     FullOptimStateDictConfig(rank0_only=False),
>>> )
>>> state_dict = model.state_dict()
>>> optim_state_dict = FSDP.optim_state_dict(model, optim)
>>> save_a_checkpoint(state_dict, optim_state_dict)
>>> # Load a checkpoint
>>> model, optim = ...
>>> state_dict, optim_state_dict = load_a_checkponit()
>>> FSDP.set_state_dict_type(
>>>     model,
>>>     StateDictType.FULL_STATE_DICT,
>>>     FullStateDictConfig(rank0_only=False),
>>>     FullOptimStateDictConfig(rank0_only=False),
>>> )
>>> model.load_state_dict(state_dict)
>>> optim_state_dict = FSDP.optim_state_dict_to_load(
>>>     optim_state_dict, model, optim
>>> )
>>> optim.load_state_dict(optim_state_dict)

参数

model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数传递到 Optimizer 中。optim
optim （torch.optim.Optimizer） – 的 Optimizer 参数。model
组（dist.ProcessGroup） – 模型的流程组，参数分片，或者使用默认进程组。( 违约：NoneNone)

结果

一个dict包含的优化器状态。优化器状态的分片基于。modelstate_dict_type

返回类型：

Dict[str，任意]

static optim_state_dict_post_hook（model， optim， optim_state_dict， group=None）[来源]¶

此钩子旨在由 . 函数性与 except 对于不同的参数。torch.distributed.NamedOptimizer:meth:optim_state_dict

参数

model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数传递到 Optimizer 中。optim
optim （torch.optim.Optimizer） – 的 Optimizer 参数。model
（Dict[str （optim） – 要覆盖的optim_state_dict。价值通常由 .NamedOptimizer.state_dict()
Any]– 要覆盖的optim_state_dict。价值通常由 .NamedOptimizer.state_dict()
组（dist.ProcessGroup） – 模型的流程组，参数分片，或者使用默认进程组。( 违约：NoneNone)

结果

一个dict包含的优化器状态。优化器状态的分片基于。modelstate_dict_type

返回类型：

Dict[str，任意]

static optim_state_dict_to_load（optim_state_dict， model， optim， is_named_optimizer=False， group=None）[来源]¶

给定一个 saved ，将其转换为优化器 state_dict ，可以加载到中，它是的优化器。由 FullyShardedDataParallel （部分）分片。optim_state_dictoptimmodelmodel

>>> from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
>>> from torch.distributed.fsdp import StateDictType
>>> from torch.distributed.fsdp import FullStateDictConfig
>>> from torch.distributed.fsdp import FullOptimStateDictConfig
>>> # Save a checkpoint
>>> model, optim = ...
>>> FSDP.set_state_dict_type(
>>>     model,
>>>     StateDictType.FULL_STATE_DICT,
>>>     FullStateDictConfig(rank0_only=False),
>>>     FullOptimStateDictConfig(rank0_only=False),
>>> )
>>> state_dict = model.state_dict()
>>> optim_state_dict = FSDP.optim_state_dict(model, optim)
>>> save_a_checkpoint(state_dict, optim_state_dict)
>>> # Load a checkpoint
>>> model, optim = ...
>>> state_dict, optim_state_dict = load_a_checkponit()
>>> FSDP.set_state_dict_type(
>>>     model,
>>>     StateDictType.FULL_STATE_DICT,
>>>     FullStateDictConfig(rank0_only=False),
>>>     FullOptimStateDictConfig(rank0_only=False),
>>> )
>>> model.load_state_dict(state_dict)
>>> optim_state_dict = FSDP.optim_state_dict_to_load(
>>>     optim_state_dict, model, optim
>>> )
>>> optim.load_state_dict(optim_state_dict)

参数

optim_state_dict （Dict[str， Any]） – 要加载的优化器状态。
model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数传递到 Optimizer 中。optim
optim （torch.optim.Optimizer） – 的 Optimizer 参数。model
is_named_optimizer （bool） – 这个优化器是 NamedOptimizer 还是 KeyedOptimizer 的 API 中。仅当 TorchRec 的 KeyedOptimizer 或 torch.distributed 的 NamedOptimizer 的 NamedOptimizer 中。optim
组（dist.ProcessGroup） – 模型的流程组，参数分片，或者使用默认进程组。( 违约：NoneNone)

返回类型：

Dict[str，任意]

register_comm_hook（state， hook）[来源]¶

注册一个通信钩子，这是一个增强功能，它提供了一个灵活的钩子，用户可以在其中指定 FSDP 如何聚合梯度跨多个 worker。这个钩子可以用来实现多种算法，比如 GossipGrad 和梯度压缩其中涉及不同的沟通策略参数同步FullyShardedDataParallel.

警告

在运行初始正向传递之前，应注册 FSDP 通信钩子而且只有一次。

参数

状态（对象） –
传递给 hook 以在训练过程中维护任何状态信息。示例包括梯度压缩中的误差反馈、 peer 来与 gossipGrad 中的 next 通信，等等。它由每个 worker 本地存储并由 worker 上的所有梯度张量共享。
hook （Callable） – 可调用，具有以下签名之一： 1) : 此函数接受一个 Python 张量，该张量表示相对于所有变量的完整、扁平化、未分片的梯度对应于此 FSDP 单元正在包装的模型（未被其他 FSDP 子单位包裹）。然后，它执行所有必要的处理并返回 ; 2) : 此函数接受两个 Python 张量，第一个表示相对于所有变量的完整、扁平化、未分片的梯度对应于此 FSDP 单元正在包装的模型（未被其他 FSDP 子单位包裹）。后者表示一个预先调整大小的张量，用于在减少。在这两种情况下， callable 都会执行所有必要的处理并返回。签名为 1 的可调用对象应处理 NO_SHARD 情况下的梯度通信。签名为 2 的可调用对象应处理分片 case 的梯度通信。hook: Callable[torch.Tensor] -> NoneNonehook: Callable[torch.Tensor, torch.Tensor] -> NoneNone

static rekey_optim_state_dict（optim_state_dict， optim_state_key_type， model， optim_input=None， optim=None）[来源]¶

重新对优化器 state dict 进行 key作以使用 key 类型。这可以用来实现来自 FSDP 的模型的优化器 state dict 之间的兼容性实例和没有的实例。optim_state_dictoptim_state_key_type

要重新键入 FSDP 完整优化器状态 dict（即从full_optim_state_dict()）使用参数 ID 并可加载到非包装模型：

>>> wrapped_model, wrapped_optim = ...
>>> full_osd = FSDP.full_optim_state_dict(wrapped_model, wrapped_optim)
>>> nonwrapped_model, nonwrapped_optim = ...
>>> rekeyed_osd = FSDP.rekey_optim_state_dict(full_osd, OptimStateKeyType.PARAM_ID, nonwrapped_model)
>>> nonwrapped_optim.load_state_dict(rekeyed_osd)

要将普通优化器 state dict 从未包装模型重新生成密钥，请将其设置为 loadable to a wrapped model 的

>>> nonwrapped_model, nonwrapped_optim = ...
>>> osd = nonwrapped_optim.state_dict()
>>> rekeyed_osd = FSDP.rekey_optim_state_dict(osd, OptimStateKeyType.PARAM_NAME, nonwrapped_model)
>>> wrapped_model, wrapped_optim = ...
>>> sharded_osd = FSDP.shard_full_optim_state_dict(rekeyed_osd, wrapped_model)
>>> wrapped_optim.load_state_dict(sharded_osd)

结果: 优化器状态 dict 使用由指定的参数键。optim_state_key_type
返回类型：: Dict[str，任意]

static scatter_full_optim_state_dict（full_optim_state_dict， model， optim_input=None， optim=None， group=None）[来源]¶

将完整的优化器状态字典从等级 0 分散到所有其他等级，返回每个排名的分片优化器状态 dict。回归 value 与shard_full_optim_state_dict()和 rank 0，则第一个参数应为full_optim_state_dict().

例：

>>> from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
>>> model, optim = ...
>>> full_osd = FSDP.full_optim_state_dict(model, optim)  # only non-empty on rank 0
>>> # Define new model with possibly different world size
>>> new_model, new_optim, new_group = ...
>>> sharded_osd = FSDP.scatter_full_optim_state_dict(full_osd, new_model, group=new_group)
>>> new_optim.load_state_dict(sharded_osd)

注意

双shard_full_optim_state_dict()和scatter_full_optim_state_dict()可用于获取分片优化器状态 dict 来加载。假设 full optimizer state dict 驻留在 CPU 内存中，前者需要每个 rank 在 CPU 内存中拥有完整的 dict，其中每个 rank 单独对 dict 进行分片而不进行任何通信，而后者只需要 rank 0 即可在 CPU 内存中拥有完整的 dict，其中，排名 0 将每个分片移动到 GPU 内存（对于 NCCL），并且适当地将其传达给 Rank。因此，前者具有更高的总 CPU 内存成本，而后者具有更高的通信成本。

参数

full_optim_state_dict （Optional[Dict[str， Any]]） – 优化器状态 dict 对应的未扁平化参数，并按住如果处于 rank 0 上，则为完整的非分片优化器状态;参数在非零等级上被忽略。
model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数对应于中的优化器状态。full_optim_state_dict
optim_input （Optional[Union[List[Dict[str， Any]]， Iterable[torch.nn.Parameter]]]） – 传入优化器的输入，表示listof 参数组或参数的可迭代对象; 如果，则此方法假定输入为。此参数已弃用，并且无需再传入。（默认：Nonemodel.parameters()None)
optim （Optional[torch.optim.Optimizer]） – 将加载的优化器此方法返回的 state dict。这是首选参数以用于。（默认：optim_inputNone)
组（dist.ProcessGroup） – 模型的进程组，或者如果使用默认进程组。（默认：NoneNone)

结果

完整的优化器状态 dict 现在重新映射到展平参数而不是未展平参数，以及 restricted 以仅包含此 rank 的 Optimizer 状态部分。

返回类型：

Dict[str，任意]

static set_state_dict_type（module， state_dict_type， state_dict_config=None， optim_state_dict_config=None）[来源]¶

设置和相应的（可选）目标模块的所有后代 FSDP 模块的配置。目标模块不必是 FSDP 模块。如果目标 module 是 FSDP 模块，它也会被更改。state_dict_typestate_dict_type

注意

此 API 应仅针对顶级（root）调用模块。

注意

此 API 使用户能够透明地使用传统 API 来获取模型检查点，在这种情况下，根 FSDP 模块由另一个 .例如以下内容将确保在所有非 FSDP 上调用实例，同时分派到sharded_state_dict实现对于 FSDP：state_dictnn.Modulestate_dict

例：

>>> model = DDP(FSDP(...))
>>> FSDP.set_state_dict_type(
>>>     model,
>>>     StateDictType.SHARDED_STATE_DICT,
>>>     state_dict_config = ShardedStateDictConfig(offload_to_cpu=True),
>>>     optim_state_dict_config = OptimStateDictConfig(offload_to_cpu=True),
>>> )
>>> param_state_dict = model.state_dict()
>>> optim_state_dict = FSDP.optim_state_dict(model, optim)

参数

module （torch.nn.Module） – 根模块。
state_dict_type （StateDictType） – 要设置的。state_dict_type
state_dict_config （Optional[StateDictConfig]） – 目标。state_dict_type

结果

一个 StateDictSettings，其中包含前面的 state_dict 类型和模块的配置。

返回类型：

StateDict设置

static shard_full_optim_state_dict（full_optim_state_dict， model， optim_input=None， optim=None）[来源]¶

按以下方式对完整的优化器 state dict 进行分片将状态重新映射到 flattened 参数，而不是 unflattened 参数参数，并限制为仅优化器的此 rank 部分州。第一个参数应该是full_optim_state_dictfull_optim_state_dict().

例：

>>> from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
>>> model, optim = ...
>>> full_osd = FSDP.full_optim_state_dict(model, optim)
>>> torch.save(full_osd, PATH)
>>> # Define new model with possibly different world size
>>> new_model, new_optim = ...
>>> full_osd = torch.load(PATH)
>>> sharded_osd = FSDP.shard_full_optim_state_dict(full_osd, new_model)
>>> new_optim.load_state_dict(sharded_osd)

注意

双shard_full_optim_state_dict()和scatter_full_optim_state_dict()可用于获取分片优化器状态 dict 来加载。假设 full optimizer state dict 驻留在 CPU 内存中，前者需要每个 rank 在 CPU 内存中拥有完整的 dict，其中每个 rank 单独对 dict 进行分片而不进行任何通信，而后者只需要 rank 0 即可在 CPU 内存中拥有完整的 dict，其中，排名 0 将每个分片移动到 GPU 内存（对于 NCCL），并且适当地将其传达给 Rank。因此，前者具有更高的总 CPU 内存成本，而后者具有更高的通信成本。

参数

full_optim_state_dict （Dict[str， Any]） – 优化器状态 dict 对应于未展平的参数，并按住 full non-sharded optimizer 状态。
model （torch.nn.Module） – 根模块（可能是也可能不是FullyShardedDataParallel实例），其参数对应于中的优化器状态。full_optim_state_dict
optim_input （Optional[Union[List[Dict[str， Any]]， Iterable[torch.nn.Parameter]]]） – 传入优化器的输入，表示listof 参数组或参数的可迭代对象; 如果，则此方法假定输入为。此参数已弃用，并且无需再传入。（默认：Nonemodel.parameters()None)
optim （Optional[torch.optim.Optimizer]） – 将加载的优化器此方法返回的 state dict。这是首选参数以用于。（默认：optim_inputNone)

结果

完整的优化器状态 dict 现在重新映射到展平参数而不是未展平参数，以及 restricted 以仅包含此 rank 的 Optimizer 状态部分。

返回类型：

Dict[str，任意]

static sharded_optim_state_dict（model， optim， group=None）[来源]¶

API 类似于full_optim_state_dict()但是这个 API 块所有非零维状态以节省内存。此 API 应仅在派生模型时使用与 Context Manager 一起使用。ShardedTensorstate_dictwith state_dict_type(SHARDED_STATE_DICT):

详细使用方法请参考full_optim_state_dict().

警告

返回的 state dict 包含和不能被常规直接使用。ShardedTensoroptim.load_state_dict

返回类型：: Dict[str，任意]

static state_dict_type（module， state_dict_type， state_dict_config=None， optim_state_dict_config=None）[来源]¶

一个上下文管理器，用于设置所有 descendant 目标模块的 FSDP 模块。此上下文管理器具有相同的函数设置为state_dict_typeset_state_dict_type().阅读set_state_dict_type()了解详情。

例：

>>> model = DDP(FSDP(...))
>>> with FSDP.state_dict_type(
>>>     model,
>>>     StateDictType.SHARDED_STATE_DICT,
>>> ):
>>>     checkpoint = model.state_dict()

参数

module （torch.nn.Module） – 根模块。
state_dict_type （StateDictType） – 要设置的。state_dict_type
state_dict_config （Optional[StateDictConfig]） – 目标。state_dict_type

返回类型：

发电机

static summon_full_params（module， recurse=True， writeback=True， rank0_only=False， offload_to_cpu=False， with_grads=False）[来源]¶

一个上下文管理器，用于公开 FSDP 实例的完整参数。在前进/后退后，模型可以得到用于其他处理或检查的参数。它可以采用非 FSDP 模块，并将为所有包含的 FSDP 模块调用完整的参数作为以及他们的孩子，这取决于争论。recurse

注意

这可用于内部 FSDP。

注意

这不能在向前或向后传递中使用。也不可以从此上下文中启动 forward 和 backward。

注意

参数将在上下文之后恢复为其本地分片 manager 退出时，存储行为与 forward 相同。

注意

可以修改 full 参数，但只能修改 portion 对应的本地参数分片将在上下文管理器退出（除非，在这种情况下更改将被丢弃）。在 FSDP 不分片的情况下参数（当前仅在、或 config 时）保留修改，而不管 .writeback=Falseworld_size == 1NO_SHARDwriteback

注意

此方法适用于本身不是 FSDP 但可能包含多个独立的 FSDP 商品。在这种情况下，给定的参数将应用于所有包含的 FSDP 单位。

警告

请注意，目前不支持 with 结合使用，并且会引发错误。这是因为模型参数形状会有所不同在上下文中跨等级，并写入它们可能会导致退出上下文时等级之间的不一致。rank0_only=Truewriteback=True

警告

请注意，和 will 导致完整参数被冗余复制到 CPU 内存 GPU 位于同一台计算机上，这可能会产生 CPU OOM 的 OOM 中。建议与一起使用。offload_to_cpurank0_only=Falseoffload_to_cpurank0_only=True

参数

recurse （bool，可选） – 递归调用嵌套的所有参数 FSDP 实例（默认值：True）。
writeback （bool， Optional） – 如果，对参数的修改是在上下文管理器退出后丢弃; 禁用此选项可能会稍微更有效（默认值：True）False
rank0_only （bool，可选） – 如果，则完整参数为仅在全局排名 0 上实现。这意味着，在 context，只有排名 0 才会有完整的参数，而其他 ranks 将具有分片参数。请注意，不支持 with 的设置，因为模型参数形状会因等级而异在上下文中，写入它们可能会导致退出上下文时等级之间的不一致。Truerank0_only=Truewriteback=True
offload_to_cpu （bool， Optional） – 如果，则完整参数为卸载到 CPU。请注意，此卸载目前仅如果参数是分片的（但事实并非如此，则会出现对于 world_size = 1 或 config）。推荐与 to use 搭配 to avoid 模型参数的冗余副本被卸载到相同的 CPU 内存。TrueNO_SHARDoffload_to_cpurank0_only=True
with_grads （bool， Optional） – 如果，则梯度也是 unsharded 替换为参数。目前，这只是传递到 FSDP 时受支持 constructor 和此方法。（默认：Trueuse_orig_params=Trueoffload_to_cpu=FalseFalse)

返回类型：

发电机

类 torch.distributed.fsdp 中。BackwardPrefetch（value）[来源]¶

这将配置显式向后预取，从而提高吞吐量但可能会略微增加峰值内存使用量。

对于 NCCL 后端，任何 collective，即使是在不同的流中发布的，争用相同的每个设备 NCCL 流，这就是为什么相对集体的发布顺序是重叠的。这不同的向后预取设置对应于不同的顺序。

BACKWARD_PRE：这将预取当前 set of parameter 的 gradient computation。这向后改进通过重叠通信（NEXT All-Gather）传递吞吐量，以及计算（当前梯度计算）。
BACKWARD_POST：这将预取当前 set of parameter 的 gradient computation。这可能会有所改善通过重叠通信实现的向后传递吞吐量（当前 reduce-scatter）和 computation（下一个梯度计算）。具体来说，下一个 all-gather 将重新排序为在当前 reduce-scatter 的 Reduce-Scatter 中。

注意

如果预取导致的峰值内存使用量增加为问题，您可以考虑传递给 FSDP 构造函数，这在某些情况下可能有助于减少峰值内存使用量。limit_all_gathers=True

类 torch.distributed.fsdp 中。ShardingStrategy（value）[来源]¶

这指定了用于分布式训练的分片策略FullyShardedDataParallel.

FULL_SHARD：参数、梯度和优化器状态被分片。对于参数，此策略在 forward，在 forward 之后重新分片，在 backward 之前取消分片计算，并在向后计算后重新分片。对于渐变，它会在 backward 计算。分片优化器状态按排名在本地更新。
SHARD_GRAD_OP：梯度和优化器状态在计算，此外，参数在外部分片计算。对于参数，此策略在 forward 的 Forward 函数，不会在 forward 之后重新分片它们，而只对它们进行重新分片在反向计算之后。分片优化器状态已更新本地每个等级。在 Inside 中，参数不会重新分片在反向计算之后。no_sync()
NO_SHARD：参数、梯度和优化器状态未分片而是跨等级复制，类似于 PyTorch 的 API。对于梯度，此策略在反向计算后同步它们（通过 all-reduce）。这未分片的优化器状态按排名在本地更新。DistributedDataParallel
HYBRID_SHARD：在节点内应用，并跨节点复制参数FULL_SHARD
节点。这会导致通信量减少，因为昂贵的 all-gathers 和 reduce-scatters 仅在节点内完成，这对于 medium 来说可能性能更高 -大小的模型。
_HYBRID_SHARD_ZERO2：在节点内应用，并跨节点复制参数SHARD_GRAD_OP
节点。这与类似，不同之处在于这可能会提供更高的吞吐量由于未分片的参数在正向传递后不会释放，因此将 all-gathers 在 pre-backward 中。HYBRID_SHARD

类 torch.distributed.fsdp 中。MixedPrecision（param_dtype=无， reduce_dtype=无， buffer_dtype=无， keep_low_precision_grads=False， cast_forward_inputs=False， cast_root_forward_inputs=True）[来源]¶

这将配置 FSDP 原生混合精度训练。

变量：

param_dtype （torch.dtype） – 这指定了 model 的 dtype parameters、inputs（when 或）以及用于计算的 dtype 。但是，在向前和向后传递之外，参数位于全精度。模型检查点总是完全发生精度。cast_forward_inputscast_root_forward_inputs``is set to ``True
reduce_dtype （torch.dtype） – 指定梯度的 dtype reduction 的 intent 函数，该 URL 允许与 .param_dtype
buffer_dtype （torch.dtype） – 指定缓冲区的 dtype。FSDP 不分片缓冲区，将它们强制转换到第一个 forward 传递，并在此后将它们保持在该 dtype 中。型 checkpointing 总是以完全精确的方式进行。buffer_dtype
keep_low_precision_grads （bool） – 指定是否进行上转换梯度返回到 backward 之后的完整参数精度通过。如果使用自定义可以执行中的优化器步骤的优化器。（默认：Falsereduce_dtypeFalse)
cast_forward_inputs （bool） – 在前向转换浮点张量 arguments 和 keyword arguments 设置为 . （默认：param_dtypeFalse)
cast_root_forward_inputs （bool） – 在前向转换浮点张量 arguments 和 keyword arguments 的 URL。它优先于根 FSDP 实例。（默认：param_dtypecast_forward_inputsTrue)

注意

此 API 是实验性的，可能会发生更改。

注意

只有浮点张量才会强制转换为其指定的 dtype。

注意

在中，参数被强制为 full 精度，但缓冲区不是。summon_full_params

注意

state_dict检查点参数和缓冲区完整精度。对于缓冲区，仅支持。StateDictType.FULL_STATE_DICT

注意

必须显式指定每个低精度 dtype。为 example，则仅指定 reduction dtype 设置为低精度，并且 FSDP 不会强制转换参数或缓冲区。MixedPrecision(reduce_dtype=torch.float16)

注意

如果未指定 a，则梯度缩减发生在 if specified 或原始参数 dtype 中否则。reduce_dtypeparam_dtype

注意

如果用户将带有模块的模型和 an 传递给 FSDP 构造函数，则 FSDP 将禁用通过单独包装模块来混合精度在他们自己的 FSDP 实例中禁用混合精度。这是由于到一些缺失的低精度内核。如果用户执行不使用，则用户必须注意不要对包含模块的 FSDP 实例使用混合精度。BatchNormauto_wrap_policyBatchNormBatchNormauto_wrap_policyBatchNorm

注意

MixedPrecisionhas 和 default 的。对于根 FSDP 实例，它的优先级高于它的。对于非根 FSDP 实例，将忽略其值。默认设置为对于每个 FSDP 实例具有相同的 configuration 并且只需要在模型的 forward pass 开始时将 input 转换为的典型情况来说就足够了。cast_root_forward_inputs=Truecast_forward_inputs=Falsecast_root_forward_inputscast_forward_inputscast_root_forward_inputsMixedPrecisionparam_dtype

注意

对于具有不同配置的嵌套 FSDP 实例，我们建议在每个实例的向前。在这种情况下，由于强制转换发生在每个 FSDP 之前实例的转发，父 FSDP 实例应具有其非 FSDP 子模块在其 FSDP 子模块之前运行，以避免激活 dtype 由于配置不同而更改。MixedPrecisioncast_forward_inputsMixedPrecision

例：

>>> model = nn.Sequential(nn.Linear(3, 3), nn.Linear(3, 3))
>>> model[1] = FSDP(
>>>     model[1],
>>>     mixed_precision=MixedPrecision(param_dtype=torch.float16, cast_forward_inputs=True),
>>> )
>>> model = FSDP(
>>>     model,
>>>     mixed_precision=MixedPrecision(param_dtype=torch.bfloat16, cast_forward_inputs=True),
>>> )

上面显示了一个工作示例。另一方面，如果被替换为，这意味着使用 different 首先向前运行，然后会错误地看到 activations 而不是 activations。model[1]model[0]MixedPrecisionmodel[1]float16bfloat16

类 torch.distributed.fsdp 中。CPUOffload（offload_params=False）[来源]¶

这将配置 CPU 卸载。

变量：: offload_params （bool） – 这指定是否将参数卸载到 CPU 时。如果启用，则隐式执行此作也将梯度卸载到 CPU。这是为了支持优化器 step，这要求参数和梯度相同装置。

FullyShardedDataParallel¶

文档

教程

资源