HIP (ROCm) 语义¶

ROCm™ 是 AMD 的开源软件平台，用于 GPU 加速的高性能计算和机器学习。HIP 是 ROCm 的 C++ 方言，旨在简化 CUDA 应用程序转换为可移植 C++ 代码的过程。当将现有的 CUDA 应用程序（如 PyTorch）转换为可移植 C++ 代码以及需要在 AMD 和 NVIDIA 之间实现可移植性的新项目时，会使用 HIP。

HIP 接口重用 CUDA 接口¶

PyTorch for HIP 有意重用了现有的 torch.cuda 接口。这有助于加速现有 PyTorch 代码和模型的移植，因为如果有的话，只需要很少的代码更改。

来自 CUDA 语义的示例对 HIP 来说将完全相同：

cuda = torch.device('cuda')     # Default HIP device
cuda0 = torch.device('cuda:0')  # 'rocm' or 'hip' are not valid, use 'cuda'
cuda2 = torch.device('cuda:2')  # GPU 2 (these are 0-indexed)

x = torch.tensor([1., 2.], device=cuda0)
# x.device is device(type='cuda', index=0)
y = torch.tensor([1., 2.]).cuda()
# y.device is device(type='cuda', index=0)

with torch.cuda.device(1):
    # allocates a tensor on GPU 1
    a = torch.tensor([1., 2.], device=cuda)

    # transfers a tensor from CPU to GPU 1
    b = torch.tensor([1., 2.]).cuda()
    # a.device and b.device are device(type='cuda', index=1)

    # You can also use ``Tensor.to`` to transfer a tensor:
    b2 = torch.tensor([1., 2.]).to(device=cuda)
    # b.device and b2.device are device(type='cuda', index=1)

    c = a + b
    # c.device is device(type='cuda', index=1)

    z = x + y
    # z.device is device(type='cuda', index=0)

    # even within a context, you can specify the device
    # (or give a GPU index to the .cuda call)
    d = torch.randn(2, device=cuda2)
    e = torch.randn(2).to(cuda2)
    f = torch.randn(2).cuda(cuda2)
    # d.device, e.device, and f.device are all device(type='cuda', index=2)

检查HIP¶

无论您是使用 PyTorch 的 CUDA 还是 HIP，调用is_available()的结果都是一样的。如果您使用的是支持 GPU 的 PyTorch 版本，它将返回True。如果您必须检查您正在使用的 PyTorch 版本，请参阅下面的示例：

if torch.cuda.is_available() and torch.version.hip:
    # do something specific for HIP
elif torch.cuda.is_available() and torch.version.cuda:
    # do something specific for CUDA

ROCm上的TensorFloat-32(TF32)¶

TF32在ROCm上不受支持。

内存管理¶

PyTorch 使用缓存内存分配器来加速内存分配。这允许在不进行设备同步的情况下快速释放内存。然而，由分配器管理的未使用内存仍然会在 rocm-smi 中显示为已使用。您可以使用 memory_allocated() 和 max_memory_allocated() 来监控张量占用的内存，并使用 memory_reserved() 和 max_memory_reserved() 来监控缓存分配器管理的总内存量。调用 empty_cache() 将释放 PyTorch 中所有未使用的缓存内存，以便其他 GPU 应用程序可以使用这些内存。但是，张量占用的 GPU 内存不会被释放，因此无法增加可用于 PyTorch 的 GPU 内存量。

对于更高级的用户，我们提供更全面的内存基准测试，通过 memory_stats()。我们还提供捕获内存分配器状态完整快照的能力，通过 memory_snapshot()，这可以帮助您理解代码生成的底层分配模式。

要调试内存错误，请在环境中设置 PYTORCH_NO_HIP_MEMORY_CACHING=1 以禁用缓存。为了便于移植，也接受 PYTORCH_NO_CUDA_MEMORY_CACHING=1。

hipBLAS 工作区¶

对于每个hipBLAS句柄和HIP流的组合，如果该句柄和流组合执行需要工作区的hipBLAS内核，则将分配一个hipBLAS工作区。为了避免反复分配工作区，除非调用torch._C._cuda_clearCublasWorkspaces()，否则这些工作区不会被释放；请注意，这是CUDA或HIP的同一函数。每次分配的工作区大小可以通过环境变量HIPBLAS_WORKSPACE_CONFIG指定，格式为:[SIZE]:[COUNT]。例如，环境变量HIPBLAS_WORKSPACE_CONFIG=:4096:2:16:8指定总大小为2 * 4096 + 8 * 16 KiB或8 MIB。默认的工作区大小为32 MiB；MI300及更新版本默认为128 MiB。要强制hipBLAS避免使用工作区，请设置HIPBLAS_WORKSPACE_CONFIG=:0:0。为了方便起见，也接受CUBLAS_WORKSPACE_CONFIG。

hipFFT/rocFFT 计划缓存¶

设置 hipFFT/rocFFT 计划的缓存大小不受支持。

torch.distributed 后端¶

目前，仅支持在ROCm上使用“nccl”和“gloo”后端进行torch.distributed。

CUDA API 到 HIP API 的 C++ 映射¶

请参考：https://rocmdocs.amd.com/en/latest/Programming_Guides/HIP_API_Guide.html

注意：CUDA_VERSION 宏、cudaRuntimeGetVersion 和 cudaDriverGetVersion API 并不与 HIP_VERSION 宏、hipRuntimeGetVersion 和 hipDriverGetVersion API 在语义上对应相同的值。在进行版本检查时，请不要将它们互换使用。

例如：而不是使用

#if defined(CUDA_VERSION) && CUDA_VERSION >= 11000 以隐式排除ROCm/HIP，

使用以下方法来避免为ROCm/HIP采用代码路径：

#if defined(CUDA_VERSION) && CUDA_VERSION >= 11000 && !defined(USE_ROCM)

或者，如果希望采用适用于ROCm/HIP的代码路径：

#if (defined(CUDA_VERSION) && CUDA_VERSION >= 11000) || defined(USE_ROCM)

或者，如果希望仅针对特定的 HIP 版本采用 ROCm/HIP 的代码路径：

#if (defined(CUDA_VERSION) && CUDA_VERSION >= 11000) || (defined(USE_ROCM) && ROCM_VERSION >= 40300)

参考CUDA语义文档¶

对于此处未列出的任何部分，请参阅CUDA语义文档：CUDA语义

启用内核断言¶

内核断言在ROCm上是支持的，但由于性能开销的原因，它们被禁用了。可以通过从源代码重新编译PyTorch来启用它。

请将以下行作为参数添加到 cmake 命令中：

-DROCM_FORCE_ENABLE_GPU_ASSERTS:BOOL=ON