torch.distributed.fsdp.fully_shard¶

PyTorch FSDP2 （`fully_shard`)¶

PyTorch FSDP2 提供完全分片的数据并行（FSDP）实现以高性能 Eager-Mode 为目标，同时使用每参数分片以改进可用性。

如果您是 FSDP 的新用户，我们建议您从 FSDP2 开始，因为 FSDP2 得到了改进可用性。
如果您当前正在使用 FSDP1，请考虑评估以下内容差异以查看是否应该切换到 FSDP2：

与 PyTorch FSDP1 （）相比：FullyShardedDataParallel

FSDP2 使用基于 -dim-0 的每参数分片，以实现更简单的分片表示与 FSDP1 的 flat-parameter 分片相比，而保持类似的吞吐量性能。更具体地说，FSDP2 块数据并行工作程序中 dim-0 上的每个参数（使用），而 FSDP1 展平、连接和分块 a 一组张量，对每个工作线程和重新分片到不同的并行度很复杂。每个参数分片提供更直观的用户体验，放宽约束围绕冻结参数，并允许无通信（分片）状态 dicts 中，否则需要在 FSDP1 中使用 all-gathers。DTensortorch.chunk(dim=0)
FSDP2 实现了一种不同的内存管理方法来处理多流使用，以避免 .这确保了确定性和预期的内存使用情况，并且不需要阻塞 CPU 就像在 FSDP1 中一样。torch.Tensor.record_streamlimit_all_gathers=True
FSDP2 公开了用于手动控制预取和集体的 API 计划，允许高级用户进行更多自定义。有关详细信息，请参阅下面的方法。FSDPModule
FSDP2 简化了一些 API 表面：例如，FSDP2 不直接支持全状态 dict。相反，用户可以对分片的状态字典进行重新分片使用 API 将 s 包含到完整状态字典本身，或者使用更高级别的 API，如 PyTorch Distributed Checkpoint 的分布式状态 dict API。此外，还删除了一些其他 args;请在此处查看详。DTensorDTensorDTensor.full_tensor()

如果您是第一次加入 FSDP，或者如果上述任何一项对您的使用案例，我们建议您考虑使用 FSDP2。

有关详细信息，请参阅此 RFC 关于系统设计和实施。

注意

torch.distributed.fsdp.fully_shard当前处于原型状态，并且正在开发中。核心 API 可能不会更改，但我们可能会制作一些如有必要，请更改 API。

前端 API 可以在：fully_shardmodule

torch.distributed.fsdp 中。fully_shard（module， *， mesh=None， reshard_after_forward=True， shard_placement_fn=None， mp_policy=MixedPrecisionPolicy（param_dtype=无， reduce_dtype=无， output_dtype=无， cast_forward_inputs=True）， offload_policy=OffloadPolicy（））[来源]¶

将完全分片数据并行（FSDP）应用于，其中 FSDP 跨数据分片模块参数、梯度和优化器状态并行 worker，以牺牲通信为代价来节省内存。module

在初始化时，FSDP 会在数据中对模块的参数进行分片 parallel worker 由给出。在转发之前，FSDP 会全部收集 sharded 参数以获取未分片的参数进行前向计算。如果为，则 FSDP 在 forward 和 re-all-在 Gradient 计算之前将它们向后收集。渐变后计算时，FSDP 会释放未分片的参数并 reduce-scatter 跨数据并行工作线程的未分片梯度。meshreshard_after_forwardTrue

此实现将分片参数表示为 s sharded 在 dim-0 上分片，而未分片的参数将与原始参数（例如DTensormoduletorch.Tensor如果最初torch.Tensor).all-gather 上的模块 forward pre-hook 会收集参数，而 module forward hook on 会释放它们（如果需要）。类似的 backward hooks all-gather 参数，以及后来的 free parameters 和 reduce-scatter gradients。modulemodule

由于将多个张量分组为一个集合对于以下通信效率，此实现使此分组优先类。叫fully_shard()on 构造一个组，该组包括 except those already 中的参数从子模块上的先前调用分配给组。这意味着modulemodule.parameters()fully_shard()应该在你的模型上称为 bottom-up 。每个组的参数全部聚集在一个集合中，其渐变为 reduce-scattered 在一个集合中。将模型划分为多个组（“逐层”）允许峰值内存节省和通信/计算重叠。用户通常不应调用fully_shard()仅在最顶层的根模块。

参数

module （Union[nn.模块，List[nn.Module]） – 要与 FSDP 分片并组合在一起进行通信。
mesh （Optional[DeviceMesh]） – 此数据并行网格定义 sharding 和 device。如果为 1D，则参数完全分片跨 1D 网格（FSDP）进行放置。如果为 2D，则然后，参数将在第 1 个 Dim 上分片并复制穿过第 0 个维度（HSDP）并放置。网格的设备类型给出了用于通信;如果是 CUDA 或类似 CUDA 的设备类型，那么我们使用当前设备。(Shard(0),)(Replicate(), Shard(0))
reshard_after_forward （Union[bool， int]） –
这将控制参数 forward 之后的行为，并且可以在内存和通信之间进行权衡：
- 如果，则 this 会在 forward 和 re-all-gathers in backward.True
- 如果，则这会将未分片的参数保留在内存中在 forward 之后，避免 backward 中的所有聚集。False
- 如果为，则表示要重新分片到的世界大小转发后。它应该是分片 dim 大小的非平凡除数（即不包括 1 和 dim 大小本身）。一个 choice 可以是节点内大小（例如）。这允许 backward 中的 all-gather 位于较小的 World 上 size 的代价是内存使用量高于设置为 .intmeshtorch.cuda.device_count()True
- 根 FSDP 状态的值专门设置为启发式的，因为它的参数通常是立即的全集为向后。False
- 转发后，注册到模块的参数取决于更改为：注册的参数是分片参数 if ;unsharded 参数 if ;和参数否则重新分片到较小的网格。修改参数在 forward 和 backward 之间，注册的参数必须为分片参数。对于或 an ，这可以是通过手动重新分片完成。TrueFalseFalseintreshard()
shard_placement_fn （可选[Callable[[nn.Parameter]， Optional[Shard]]]） – 此可调用对象可用于覆盖 parameter 在 dim-0 以外的维度上对参数进行分片。如果此 callable 返回一个 placement （not ），然后 FSDP 将根据该位置进行分片（例如）。如果在非零 dim 上分片，我们目前需要均匀分片，即该 dim 上的 Tensor dim 大小必须能被 FSDP 整除分片网格大小。ShardNoneShard(1)
mp_policy （MixedPrecisionPolicy） – 此参数控制混合精度策略，为此提供 parameter/reduction 混合精度模块。看MixedPrecisionPolicy了解详情。
offload_policy （OffloadPolicy） – 这将控制卸载策略，它提供 parameter/gradient/optimizer state offloading。看OffloadPolicy及其子类。

调用动态构造一个新类，该类子类和 FSDP 类。例如，如果我们调用一个模块，然后 FSDP 构造一个新类并将的 type 更改为 this。否则，不改变模块结构和参数完全限定名称。该类允许提供一些特定于 FSDP 的方法。fully_shard(module)type(module)FSDPModulefully_shard(linear)linear: nn.LinearFSDPLinearlinearfully_shardFSDPModule

类 torch.distributed.fsdp 中。FSDPModule（*args， **kwargs)¶

reshard（）[来源][来源]¶

重新分片模块的参数，如果它们被分配并将分片参数注册到模块。此方法不是递归的。

set_is_last_backward（is_last_backward）[来源][来源]¶

设置下一个向后是否为最后一个。在最后一个向后， FSDP 等待待定的梯度降低并清除内部数据用于向后预取的数据结构。这可能对微批处理。

set_modules_to_backward_prefetch（模块）[来源][来源]¶

设置此 FSDP 模块应显式为其执行的 FSDP 模块在 Backward 中预取 all-gathers。这将覆盖默认的向后 pretching 实现，它根据反向后正向顺序。

传递包含先前 FSDP 模块的单例列表会得到与默认重叠行为相同的全聚集重叠行为。传递长度至少为 2 的列表是更激进的必要条件 overlap 的 intent 和将占用更多的预留内存。

参数: modules （List[FSDPModule]） – 要预取的 FSDP 模块。

set_modules_to_forward_prefetch（模块）[source][source]¶

设置此 FSDP 模块应显式为其执行的 FSDP 模块在 forward 中预取所有集合。预取在此之后运行 module 的 all-gather copy-out。

传递包含下一个 FSDP 模块的单例列表会得到相同的 all-gather overlap 行为作为默认重叠行为，但预取的 all-gather 较早从 CPU 发出。传递列表长度至少为 2 是更激进的重叠所必需的，并且将使用更多保留内存。

参数: modules （List[FSDPModule]） – 要预取的 FSDP 模块。

set_post_optim_event（事件）[来源][来源]¶

为根 FSDP 模块设置 post-optimizer-step 事件以等待 all-gather 流打开。

默认情况下，根 FSDP 模块等待 current stream 来确保优化器步骤之前已完成全能。但是，如果在 Optimizer 步骤之后有 unrelated computation。此 API 允许用户提供自己的事件来等待。在根之后等待事件，则事件会被丢弃，所以这个 API 应该是调用每个迭代都有一个新事件。

参数: 事件（Torch.Event） – 在 optimizer 步骤之后记录的事件等待 All-gather Streams 打开。

set_reduce_scatter_divide_factor（因子）[来源][来源]¶

设置 reduce-scatter 的自定义分割因子。这将成为一个使用 NCCL 的 PreMulSum 自定义 reduce 运算，它允许乘以减少前的因子。

参数: factor （float） - 自定义除法因子。

set_requires_all_reduce（requires_all_reduce， *， recurse=True）[来源][来源]¶

设置模块是否应全部减少梯度。这可用于仅使用 reduce-scatter 实现梯度累积，而不使用 reduce-scatter 实现梯度累积 all-reduce 的 HSDP 的 JSON JSON 的

set_requires_gradient_sync（requires_gradient_sync， *， recurse=True）[源][源]¶

设置模块是否应同步渐变。这可用于实现 梯度累积，无通讯。对于 HSDP，此控件 reduce-scatter 和 all-reduce 一起。

参数

requires_gradient_sync （bool） – 是否减少模块的参数。
recurse （bool） - 是为所有 FSDP 子模块设置，还是只为传入的模块。

set_reshard_after_backward（reshard_after_backward， *， recurse=True）[来源][来源]¶

设置模块是否应在 backward 后重新分片参数。这可以在梯度累积期间使用，以牺牲更高的内存减少了通信，因为未分片的参数不需要 re-all-gather 在下一个前锋之前。

参数

reshard_after_backward （bool） – 是否在以下时间后重新分片参数向后。
recurse （bool） - 是为所有 FSDP 子模块设置，还是只为传入的模块。

set_unshard_in_backward（unshard_in_backward）[来源][来源]¶

设置 FSDP 模块的参数是否需要在向后。这可以在专家案例中使用，当用户知道所有此 FSDP 模块的参数组中的参数不需要反向计算（例如 embedding）。

unshard（async_op=False）[来源][来源]¶

通过分配内存和全集合来取消模块的参数分片参数。此方法不是递归的。取消分片遵循MixedPrecisionPolicy，因此如果设置，它将在 follow-gather 后面集合。param_dtype

参数: async_op （bool） – 如果，则返回一个TrueUnshardHandle，它有一个方法来等待 Unshard OP。如果，则返回并等待内部的句柄这个函数。wait()FalseNone
返回类型: 可选[UnshardHandle]

注意

如果，则 FSDP 将等待挂起的 unshard。仅用户如果等待应该发生，则需要显式调用 before pre-forward.async_op=Truewait()

类 torch.distributed.fsdp 中。UnshardHandle¶

用于等待FSDPModule.unshard()op 的。

wait（）[来源][来源]¶

等待 unshard作。这可确保当前流可以使用未分片的参数，这些参数现在已注册到模块中。

torch.distributed.fsdp 中。register_fsdp_forward_method（module， method_name）[来源]¶

注册一个方法，以被视为的正向方法 FSDP.module

FSDP 在转发前全收集参数，并选择性地释放参数 post-forward （取决于）。FSDP 只知道默认情况下执行此作。此函数修补用户指定的方法在方法。如果不是reshard_after_forwardnn.Module.forward()moduleFSDPModule然后这是一个 no-op。

参数

模块（nn.module） - 要在其上注册 forward 方法的模块。
method_name （str） – forward 方法的名称。

类 torch.distributed.fsdp 中。MixedPrecisionPolicy（param_dtype=无， reduce_dtype=无， output_dtype=无， cast_forward_inputs=真)¶

这将配置 FSDP 的混合精度。与自动投射不同，这适用于混合 module 级别的 precision，而不是 op 级别的 precision，这意味着低精度为向后保存激活，从高到低精度的强制转换为仅在模块边界处发生。

FSDP 与模块级混合精度配合得很好，因为它保持了无论如何，内存中的高精度分片参数。换句话说，FSDP 不需要任何额外的内存来保留 optimizer 步骤的参数。

变量

param_dtype （Optional[torch.dtype]） – 指定 unsharded 参数，因此 FORWARD/BACKWARD 的 DTYPE computation 和参数 all-gather 的 SET 来访问。如果这是，则 unsharded 参数使用原始 dtype。优化器步骤使用原始 dtype 中的 sharded 参数。（默认：NoneNone)
reduce_dtype （Optional[torch.dtype]） – 指定梯度减少（即 Reduce-Scatter 或 All-Reduce）。如果这是 but is not ，则减少使用 Compute dtype。这可用于运行梯度缩减全精度，同时使用低精度进行计算。如果还梯度减少通过以下方式禁用，则 FSDP 将使用累积梯度。（默认：Noneparam_dtypeNoneset_requires_gradient_sync()reduce_dtypeNone)
output_dtype （Optional[torch.dtype]） – 指定强制转换浮点前向输出。这可用于帮助实现不同模块具有不同 mixed 的情况精确策略。（默认：None)
cast_forward_inputs （bool） – 这指定 FSDP 是否应将 forward 的浮点输入张量 to or not。param_dtype

类 torch.distributed.fsdp 中。卸载策略¶

此基类表示无卸载策略，仅用作 arg 的默认值。offload_policy

类 torch.distributed.fsdp 中。CPUOffloadPolicy（pin_memory=真)¶

此卸载策略将参数、梯度和优化器状态卸载到中央处理器。分片参数在 all-gather 之前从主机复制到设备。这所有收集的参数都根据释放。分片梯度向后复制到 device-host，优化器 step 在具有 CPU 优化器状态的 CPU 上运行。reshard_after_forward

变量: pin_memory （bool） – 是否固定分片参数和梯度记忆。固定内存允许更高效的 H2D/D2H 拷贝以及 COPIES 与 COMPUTE 重叠。但是，固定的内存不能被其他进程使用。将此项设置为 if 您的 CPU 内存不足。（默认：FalseTrue)

torch.distributed.fsdp.fully_shard¶

PyTorch FSDP2 （`fully_shard`)¶

文档

教程

资源

torch.distributed.fsdp.fully_shard¶

PyTorch FSDP2 （fully_shard)¶

文档

教程

资源

PyTorch FSDP2 （`fully_shard`)¶