目录

(测试版)PyTorch 中的通道上次内存格式

创建时间: 2020 年 4 月 20 日 |上次更新时间:2023 年 10 月 4 日 |上次验证: Nov 05, 2024

作者Vitaly Fedyunin

什么是 Channels Last

Channels last memory format 是在内存中对 NCHW 张量进行排序的另一种方法,保留维度排序。通道 (Channels) 以使通道成为最密集维度 (也就是逐像素存储图像) 的方式排序。

例如,NCHW 张量的经典(连续)存储(在我们的例子中是两个具有 3 个颜色通道的 4x4 图像)如下所示:

classic_memory_format

通道最后一个内存格式对数据进行排序不同:

channels_last_memory_format

Pytorch 通过利用现有的 strides 结构支持内存格式(并提供与现有模型的兼容性,包括 eager、JIT 和 TorchScript)。 例如,通道最后格式的 10x3x16x16 批处理的步幅将等于 (768, 1, 48, 3)。

通道上次内存格式仅针对 4D NCHW 张量实现。

内存格式化 API

以下是在连续和通道之间转换张量的方法 last memory 格式。

经典 PyTorch 连续张量

import torch

N, C, H, W = 10, 3, 32, 32
x = torch.empty(N, C, H, W)
print(x.stride())  # Outputs: (3072, 1024, 32, 1)
(3072, 1024, 32, 1)

转换运算符

x = x.to(memory_format=torch.channels_last)
print(x.shape)  # Outputs: (10, 3, 32, 32) as dimensions order preserved
print(x.stride())  # Outputs: (3072, 1, 96, 3)
torch.Size([10, 3, 32, 32])
(3072, 1, 96, 3)

返回 contiguous

x = x.to(memory_format=torch.contiguous_format)
print(x.stride())  # Outputs: (3072, 1024, 32, 1)
(3072, 1024, 32, 1)

替代选项

x = x.contiguous(memory_format=torch.channels_last)
print(x.stride())  # Outputs: (3072, 1, 96, 3)
(3072, 1, 96, 3)

格式检查

print(x.is_contiguous(memory_format=torch.channels_last))  # Outputs: True
True

这两个 API 和 之间存在细微差别。我们建议在明确 转换张量的内存格式。tocontiguousto

在一般情况下,这两个 API 的行为相同。然而,在特别 大小为 4D 张量的情况,当 为 : 或 时,只会生成一个合适的步幅 表示 channels Last Memory 格式。NCHWC==1H==1 && W==1to

这是因为在上述两种情况中的任何一种情况下,内存格式 的张量是模棱两可的,即大小为 both 和 channels 在内存存储中最后。 因此,对于给定的内存格式,它们已经被考虑在内,因此 call 变为 no-op,并且不会更新 stride。相反,restride 张量将具有有意义的步幅,其 sizes 为 1 以正确表示预期的内存 格式N1HWcontiguousis_contiguouscontiguousto

special_x = torch.empty(4, 1, 4, 4)
print(special_x.is_contiguous(memory_format=torch.channels_last))  # Outputs: True
print(special_x.is_contiguous(memory_format=torch.contiguous_format))  # Outputs: True
True
True

同样的事情也适用于 explicit permutation API 。在 可能出现歧义的特殊情况,则不会 保证产生正确携带预期 memory 格式。我们建议使用显式内存格式 以避免意外行为。permutepermuteto

另外要注意的是,在极端情况下,其中三个非 batch 维度都等于 ()、 当前实现无法将 Tensor 标记为 Channels Last Memory 格式。1C==1 && H==1 && W==1

最后创建频道

x = torch.empty(N, C, H, W, memory_format=torch.channels_last)
print(x.stride())  # Outputs: (3072, 1, 96, 3)
(3072, 1, 96, 3)

clone保留内存格式

y = x.clone()
print(y.stride())  # Outputs: (3072, 1, 96, 3)
(3072, 1, 96, 3)

to, , …保留内存格式cudafloat

if torch.cuda.is_available():
    y = x.cuda()
    print(y.stride())  # Outputs: (3072, 1, 96, 3)
(3072, 1, 96, 3)

empty_like中,运算符保留内存格式*_like

y = torch.empty_like(x)
print(y.stride())  # Outputs: (3072, 1, 96, 3)
(3072, 1, 96, 3)

逐点运算符保留内存格式

z = x + y
print(z.stride())  # Outputs: (3072, 1, 96, 3)
(3072, 1, 96, 3)

Conv,使用后端支持通道的模块 (仅适用于 cuDNN >= 7.6)。卷积模块,与二进制不同 p-wise 运算符,将 channels last 作为主要的内存格式。 如果所有输入都采用连续的内存格式,则运算符 以连续内存格式生成输出。否则,output 将 采用 channels last memory 格式。Batchnormcudnn

if torch.backends.cudnn.is_available() and torch.backends.cudnn.version() >= 7603:
    model = torch.nn.Conv2d(8, 4, 3).cuda().half()
    model = model.to(memory_format=torch.channels_last)  # Module parameters need to be channels last

    input = torch.randint(1, 10, (2, 8, 4, 4), dtype=torch.float32, requires_grad=True)
    input = input.to(device="cuda", memory_format=torch.channels_last, dtype=torch.float16)

    out = model(input)
    print(out.is_contiguous(memory_format=torch.channels_last))  # Outputs: True
True

当 input tensor 到达没有 channels last 支持的运算符时, 排列应该自动应用于内核以恢复 contiguous on input tensor 上。这会引入开销并停止 通道上次内存格式传播。尽管如此,它还是保证了 正确的输出。

性能提升

通道最后的内存格式优化在 GPU 和 CPU 上均可用。 在 GPU 上,在 NVIDIA 的 硬件,支持 Tensor Core 以较低的精度运行 (). 我们能够通过 Last(最后)渠道实现超过 22% 的性能提升 与连续格式相比,两者均在使用 'AMP (Automated Mixed Precision)' 训练脚本。 我们的脚本使用 NVIDIA https://github.com/NVIDIA/apex 提供的 AMP。torch.float16

python main_amp.py -a resnet50 --b 200 --workers 16 --opt-level O2  ./data

# opt_level = O2
# keep_batchnorm_fp32 = None <class 'NoneType'>
# loss_scale = None <class 'NoneType'>
# CUDNN VERSION: 7603
# => creating model 'resnet50'
# Selected optimization level O2:  FP16 training with FP32 batchnorm and FP32 master weights.
# Defaults for this optimization level are:
# enabled                : True
# opt_level              : O2
# cast_model_type        : torch.float16
# patch_torch_functions  : False
# keep_batchnorm_fp32    : True
# master_weights         : True
# loss_scale             : dynamic
# Processing user overrides (additional kwargs that are not None)...
# After processing overrides, optimization options are:
# enabled                : True
# opt_level              : O2
# cast_model_type        : torch.float16
# patch_torch_functions  : False
# keep_batchnorm_fp32    : True
# master_weights         : True
# loss_scale             : dynamic
# Epoch: [0][10/125] Time 0.866 (0.866) Speed 230.949 (230.949) Loss 0.6735125184 (0.6735) Prec@1 61.000 (61.000) Prec@5 100.000 (100.000)
# Epoch: [0][20/125] Time 0.259 (0.562) Speed 773.481 (355.693) Loss 0.6968704462 (0.6852) Prec@1 55.000 (58.000) Prec@5 100.000 (100.000)
# Epoch: [0][30/125] Time 0.258 (0.461) Speed 775.089 (433.965) Loss 0.7877287269 (0.7194) Prec@1 51.500 (55.833) Prec@5 100.000 (100.000)
# Epoch: [0][40/125] Time 0.259 (0.410) Speed 771.710 (487.281) Loss 0.8285319805 (0.7467) Prec@1 48.500 (54.000) Prec@5 100.000 (100.000)
# Epoch: [0][50/125] Time 0.260 (0.380) Speed 770.090 (525.908) Loss 0.7370464802 (0.7447) Prec@1 56.500 (54.500) Prec@5 100.000 (100.000)
# Epoch: [0][60/125] Time 0.258 (0.360) Speed 775.623 (555.728) Loss 0.7592862844 (0.7472) Prec@1 51.000 (53.917) Prec@5 100.000 (100.000)
# Epoch: [0][70/125] Time 0.258 (0.345) Speed 774.746 (579.115) Loss 1.9698858261 (0.9218) Prec@1 49.500 (53.286) Prec@5 100.000 (100.000)
# Epoch: [0][80/125] Time 0.260 (0.335) Speed 770.324 (597.659) Loss 2.2505953312 (1.0879) Prec@1 50.500 (52.938) Prec@5 100.000 (100.000)

通过允许以 Channels last 格式运行模型,观察到的性能提升为 22%。--channels-last true

python main_amp.py -a resnet50 --b 200 --workers 16 --opt-level O2 --channels-last true ./data

# opt_level = O2
# keep_batchnorm_fp32 = None <class 'NoneType'>
# loss_scale = None <class 'NoneType'>
#
# CUDNN VERSION: 7603
#
# => creating model 'resnet50'
# Selected optimization level O2:  FP16 training with FP32 batchnorm and FP32 master weights.
#
# Defaults for this optimization level are:
# enabled                : True
# opt_level              : O2
# cast_model_type        : torch.float16
# patch_torch_functions  : False
# keep_batchnorm_fp32    : True
# master_weights         : True
# loss_scale             : dynamic
# Processing user overrides (additional kwargs that are not None)...
# After processing overrides, optimization options are:
# enabled                : True
# opt_level              : O2
# cast_model_type        : torch.float16
# patch_torch_functions  : False
# keep_batchnorm_fp32    : True
# master_weights         : True
# loss_scale             : dynamic
#
# Epoch: [0][10/125] Time 0.767 (0.767) Speed 260.785 (260.785) Loss 0.7579724789 (0.7580) Prec@1 53.500 (53.500) Prec@5 100.000 (100.000)
# Epoch: [0][20/125] Time 0.198 (0.482) Speed 1012.135 (414.716) Loss 0.7007197738 (0.7293) Prec@1 49.000 (51.250) Prec@5 100.000 (100.000)
# Epoch: [0][30/125] Time 0.198 (0.387) Speed 1010.977 (516.198) Loss 0.7113101482 (0.7233) Prec@1 55.500 (52.667) Prec@5 100.000 (100.000)
# Epoch: [0][40/125] Time 0.197 (0.340) Speed 1013.023 (588.333) Loss 0.8943189979 (0.7661) Prec@1 54.000 (53.000) Prec@5 100.000 (100.000)
# Epoch: [0][50/125] Time 0.198 (0.312) Speed 1010.541 (641.977) Loss 1.7113249302 (0.9551) Prec@1 51.000 (52.600) Prec@5 100.000 (100.000)
# Epoch: [0][60/125] Time 0.198 (0.293) Speed 1011.163 (683.574) Loss 5.8537774086 (1.7716) Prec@1 50.500 (52.250) Prec@5 100.000 (100.000)
# Epoch: [0][70/125] Time 0.198 (0.279) Speed 1011.453 (716.767) Loss 5.7595844269 (2.3413) Prec@1 46.500 (51.429) Prec@5 100.000 (100.000)
# Epoch: [0][80/125] Time 0.198 (0.269) Speed 1011.827 (743.883) Loss 2.8196096420 (2.4011) Prec@1 47.500 (50.938) Prec@5 100.000 (100.000)

以下型号列表完全支持 Channels last,并在 Volta 设备上显示 8%-35% 的性能提升: , ,alexnetmnasnet0_5mnasnet0_75mnasnet1_0mnasnet1_3mobilenet_v2resnet101resnet152resnet18resnet34resnet50resnext50_32x4dshufflenet_v2_x0_5shufflenet_v2_x1_0shufflenet_v2_x1_5shufflenet_v2_x2_0squeezenet1_0squeezenet1_1vgg11vgg11_bnvgg13vgg13_bnvgg16vgg16_bnvgg19vgg19_bnwide_resnet101_2wide_resnet50_2

以下型号列表完全支持最后的通道,并显示在 Intel(R) Xeon(R) Ice Lake(或更高版本)CPU 上的性能提升 26%-76%:、、alexnetdensenet121densenet161densenet169googlenetinception_v3mnasnet0_5mnasnet1_0resnet101resnet152resnet18resnet34resnet50resnext101_32x8dresnext50_32x4dshufflenet_v2_x0_5shufflenet_v2_x1_0squeezenet1_0squeezenet1_1vgg11vgg11_bnvgg13vgg13_bnvgg16vgg16_bnvgg19vgg19_bnwide_resnet101_2wide_resnet50_2

转换现有模型

通道最后支持不受现有型号的限制,因为任何 模型可以转换为 Channels Last 并通过 Propagate 格式 格式化 Input(或特定权重)后立即显示图表 正确。

# Need to be done once, after model initialization (or load)
model = model.to(memory_format=torch.channels_last)  # Replace with your model

# Need to be done for every input
input = input.to(memory_format=torch.channels_last)  # Replace with your input
output = model(input)

但是,并非所有运维都能够最后完全转换为支持频道 (通常返回连续的输出)。在发布的示例中 在上面,不支持 channels last 的图层将停止 内存格式传播。尽管如此,由于我们已经将 model 到 channels last 格式,即每个卷积层 它在 Tracks Last Memory 格式中具有 4 维权重, 将恢复通道的内存格式并受益于更快的 内核。

但是不支持 channels 的 operator last确实引入了 开销。(可选)您可以调查和识别 不支持通道的 Operator 最后,如果你 希望提高已转换模型的性能。

这意味着您需要验证已使用的运算符列表 针对支持的运算符列表 https://github.com/pytorch/pytorch/wiki/Operators-with-Channels-Last-support, 或者将 Memory Format 检查引入 Eager Execution Mode 并运行您的模型。

运行下面的代码后,如果 运算符与输入的内存格式不匹配。

def contains_cl(args):
    for t in args:
        if isinstance(t, torch.Tensor):
            if t.is_contiguous(memory_format=torch.channels_last) and not t.is_contiguous():
                return True
        elif isinstance(t, list) or isinstance(t, tuple):
            if contains_cl(list(t)):
                return True
    return False


def print_inputs(args, indent=""):
    for t in args:
        if isinstance(t, torch.Tensor):
            print(indent, t.stride(), t.shape, t.device, t.dtype)
        elif isinstance(t, list) or isinstance(t, tuple):
            print(indent, type(t))
            print_inputs(list(t), indent=indent + "    ")
        else:
            print(indent, t)


def check_wrapper(fn):
    name = fn.__name__

    def check_cl(*args, **kwargs):
        was_cl = contains_cl(args)
        try:
            result = fn(*args, **kwargs)
        except Exception as e:
            print("`{}` inputs are:".format(name))
            print_inputs(args)
            print("-------------------")
            raise e
        failed = False
        if was_cl:
            if isinstance(result, torch.Tensor):
                if result.dim() == 4 and not result.is_contiguous(memory_format=torch.channels_last):
                    print(
                        "`{}` got channels_last input, but output is not channels_last:".format(name),
                        result.shape,
                        result.stride(),
                        result.device,
                        result.dtype,
                    )
                    failed = True
        if failed and True:
            print("`{}` inputs are:".format(name))
            print_inputs(args)
            raise Exception("Operator `{}` lost channels_last property".format(name))
        return result

    return check_cl


old_attrs = dict()


def attribute(m):
    old_attrs[m] = dict()
    for i in dir(m):
        e = getattr(m, i)
        exclude_functions = ["is_cuda", "has_names", "numel", "stride", "Tensor", "is_contiguous", "__class__"]
        if i not in exclude_functions and not i.startswith("_") and "__call__" in dir(e):
            try:
                old_attrs[m][i] = e
                setattr(m, i, check_wrapper(e))
            except Exception as e:
                print(i)
                print(e)


attribute(torch.Tensor)
attribute(torch.nn.functional)
attribute(torch)

如果您找到不支持 channels last 张量的运算符 并且您想做出贡献,请随意使用以下开发人员 指南 https://github.com/pytorch/pytorch/wiki/Writing-memory-format-aware-operators

下面的代码是恢复 torch 的属性。

for (m, attrs) in old_attrs.items():
    for (k, v) in attrs.items():
        setattr(m, k, v)

要做的工作

还有很多事情要做,例如:

  • 解决 和 Tensors 的歧义;N1HWNC11

  • 测试分布式训练支持;

  • 提高操作员覆盖率。

如果您有任何反馈和/或改进建议,请告诉我们 通过创建 Issue 来了解。

脚本总运行时间:(0 分 0.043 秒)

由 Sphinx-Gallery 生成的图库

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源