目录

torch.utils.checkpoint

注意

检查点通过在反向传播期间为每个检查点段重新运行前向传播段来实现。这可能导致诸如随机数生成器(RNG)状态等持久状态比没有检查点时更进一步。默认情况下,检查点包含逻辑来调整 RNG 状态,以确保使用 RNG(例如通过 dropout)的检查点传递与非检查点传递相比具有确定性输出。存储和恢复 RNG 状态的逻辑可能会根据检查点操作的运行时间带来中等程度的性能损失。如果不需要与非检查点传递相比的确定性输出,请向 preserve_rng_state=False 传入 checkpointcheckpoint_sequential,以跳过每次检查点期间存储和恢复 RNG 状态的操作。

保存和恢复随机数生成器(RNG)状态的机制会为当前设备以及所有cuda张量参数的设备保存并恢复到run_fn。 然而,该机制无法预知用户是否会在run_fn内部将张量移动到新设备上。因此,如果你在run_fn中将张量移动到新设备(“新”指的是不属于[当前设备 + 张量参数的设备]集合的设备),与非检查点传递相比,确定性输出将无法得到保证。

torch.utils.checkpoint.checkpoint(function, *args, **kwargs)[source]

保存模型或模型的一部分

检查点机制通过用计算换取内存来实现。与存储整个计算图的所有中间激活值以进行反向传播不同,被检查点标记的部分不会保存中间激活值,而是在反向传播过程中重新计算它们。它可以应用于模型的任何部分。

具体来说,在前向传播过程中,function将以 torch.no_grad()的方式运行,即不存储中间 激活值。相反,前向传播会保存输入元组和 function参数。在反向传播过程中,会检索保存的输入和 function,然后再次在 function上执行前向传播,此时会跟踪中间激活值,之后使用这些激活值计算梯度。

The output of function can contain non-Tensor values and gradient recording is only performed for the Tensor values. Note that if the output consists of nested structures (ex: custom objects, lists, dicts etc.) consisting of Tensors, these Tensors nested in custom structures will not be considered as part of autograd。

警告

检查点功能目前仅支持 torch.autograd.backward() 且仅当其 inputs 参数未传递时才支持。 torch.autograd.grad() 不被支持。

警告

如果在反向传播过程中,function 的调用与正向传播过程中的调用有任何不同,例如由于某些全局变量,检查点版本将不会等效,并且不幸的是无法检测到这一点。

警告

如果检查点段包含通过 detach()torch.no_grad() 从计算图中分离的张量,则反向传播将引发错误。这是因为 checkpoint 会使所有输出都需要梯度,这会在模型中定义某个张量不需要梯度时导致问题。为避免此问题,请在 checkpoint 函数之外分离这些张量。

警告

如果需要对模型输入计算梯度,则至少有一个输入需要具有 requires_grad=True,否则模型中被检查点化的部分将不会有梯度。同样地,至少有一个输出也需要具有 requires_grad=True

Parameters
  • function – 描述在模型或模型的部分的前向传播中要运行的内容。它还应该知道如何处理作为元组传递的输入。例如,在LSTM中,如果用户传递 (activation, hidden), function 应该能正确地将第一个输入视为 activation,第二个输入视为 hidden

  • preserve_rng_state (bool, optional, default=True) – 在每次检查点期间省略保存和恢复 随机数生成器状态。

  • args – 包含输入的元组 function

Returns

*args上运行function的输出

torch.utils.checkpoint.checkpoint_sequential(functions, segments, input, **kwargs)[source]

用于检查点序列模型的辅助函数。

Sequential models execute a list of modules/functions in order (sequentially). Therefore, we can divide such a model in various segments and checkpoint each segment. All segments except the last will run in torch.no_grad() manner, i.e., not storing the intermediate activations. The inputs of each checkpointed segment will be saved for re-running the segment in the backward pass.

参见 checkpoint() 了解检查点的工作原理。

警告

检查点功能目前仅支持 torch.autograd.backward() 且仅当其 inputs 参数未传递时才支持。 torch.autograd.grad() 不被支持。

Parameters
  • functions – 一个 torch.nn.Sequential 或者模块或函数的列表(构成模型),按顺序运行。

  • segments – 在模型中创建的块数

  • 输入 – 一个作为 functions 输入的张量

  • preserve_rng_state (bool, optional, default=True) – 在每次检查点期间省略保存和恢复 随机数生成器状态。

Returns

依次在 *inputs 上运行 functions 的输出

示例

>>> model = nn.Sequential(...)
>>> input_var = checkpoint_sequential(model, chunks, input_var)

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源