快捷方式

HIP (ROCm) 語義

ROCm™ 是 AMD 的開源軟體平臺,用於 GPU 加速的高效能計算和機器學習。HIP 是 ROCm 的 C++ 方言,旨在簡化 CUDA 應用程式到可移植 C++ 程式碼的轉換。在將現有 CUDA 應用程式(如 PyTorch)轉換為可移植 C++ 以及需要 AMD 和 NVIDIA 之間實現可移植性的新專案中使用 HIP。

HIP 介面重用 CUDA 介面

面向 HIP 的 PyTorch 有意重用現有的 torch.cuda 介面。這有助於加速現有 PyTorch 程式碼和模型的移植,因為需要的程式碼更改非常少,甚至不需要更改。

來自 CUDA 語義 的示例對於 HIP 將完全相同地工作

cuda = torch.device('cuda')     # Default HIP device
cuda0 = torch.device('cuda:0')  # 'rocm' or 'hip' are not valid, use 'cuda'
cuda2 = torch.device('cuda:2')  # GPU 2 (these are 0-indexed)

x = torch.tensor([1., 2.], device=cuda0)
# x.device is device(type='cuda', index=0)
y = torch.tensor([1., 2.]).cuda()
# y.device is device(type='cuda', index=0)

with torch.cuda.device(1):
    # allocates a tensor on GPU 1
    a = torch.tensor([1., 2.], device=cuda)

    # transfers a tensor from CPU to GPU 1
    b = torch.tensor([1., 2.]).cuda()
    # a.device and b.device are device(type='cuda', index=1)

    # You can also use ``Tensor.to`` to transfer a tensor:
    b2 = torch.tensor([1., 2.]).to(device=cuda)
    # b.device and b2.device are device(type='cuda', index=1)

    c = a + b
    # c.device is device(type='cuda', index=1)

    z = x + y
    # z.device is device(type='cuda', index=0)

    # even within a context, you can specify the device
    # (or give a GPU index to the .cuda call)
    d = torch.randn(2, device=cuda2)
    e = torch.randn(2).to(cuda2)
    f = torch.randn(2).cuda(cuda2)
    # d.device, e.device, and f.device are all device(type='cuda', index=2)

檢查 HIP

無論您使用的是面向 CUDA 還是 HIP 的 PyTorch,呼叫 is_available() 的結果都將相同。如果您使用的是已構建 GPU 支援的 PyTorch,它將返回 True。如果您必須檢查正在使用的 PyTorch 版本,請參考下面的示例

if torch.cuda.is_available() and torch.version.hip:
    # do something specific for HIP
elif torch.cuda.is_available() and torch.version.cuda:
    # do something specific for CUDA

ROCm 上的 TensorFloat-32(TF32)

ROCm 不支援 TF32。

記憶體管理

PyTorch 使用快取記憶體分配器來加速記憶體分配。這可以在無需裝置同步的情況下快速釋放記憶體。然而,分配器管理的未使用記憶體仍然會在 rocm-smi 中顯示為已使用。您可以使用 memory_allocated()max_memory_allocated() 來監控張量佔用的記憶體,並使用 memory_reserved()max_memory_reserved() 來監控快取分配器管理的總記憶體量。呼叫 empty_cache() 會釋放 PyTorch 中所有未使用的快取記憶體,以便其他 GPU 應用程式可以使用它們。然而,張量佔用的 GPU 記憶體不會被釋放,因此它不能增加可供 PyTorch 使用的 GPU 記憶體量。

對於更高階的使用者,我們透過 memory_stats() 提供了更全面的記憶體基準測試。我們還提供了透過 memory_snapshot() 捕獲記憶體分配器完整狀態快照的功能,這可以幫助您理解程式碼產生的底層分配模式。

要除錯記憶體錯誤,請在環境中設定 PYTORCH_NO_HIP_MEMORY_CACHING=1 以停用快取。PYTORCH_NO_CUDA_MEMORY_CACHING=1 也被接受,以方便移植。

hipBLAS 工作區

對於 hipBLAS 控制代碼和 HIP 流的每種組合,如果該控制代碼和流組合執行需要工作區的 hipBLAS 核心,則會分配一個 hipBLAS 工作區。為了避免重複分配工作區,除非呼叫 torch._C._cuda_clearCublasWorkspaces(),否則這些工作區不會被釋放;請注意,CUDA 或 HIP 都使用此函式。每次分配的工作區大小可以透過環境變數 HIPBLAS_WORKSPACE_CONFIG 指定,格式為 :[SIZE]:[COUNT]。例如,環境變數 HIPBLAS_WORKSPACE_CONFIG=:4096:2:16:8 指定的總大小為 2 * 4096 + 8 * 16 KiB 或 8 MIB。預設工作區大小為 32 MiB;MI300 及更新版本預設為 128 MiB。要強制 hipBLAS 避免使用工作區,請設定 HIPBLAS_WORKSPACE_CONFIG=:0:0。為了方便起見,CUBLAS_WORKSPACE_CONFIG 也被接受。

hipFFT/rocFFT 計劃快取

不支援設定 hipFFT/rocFFT 計劃快取的大小。

torch.distributed 後端

目前,ROCm 僅支援 torch.distributed 的“nccl”和“gloo”後端。

C++ 中的 CUDA API 到 HIP API 對映

請參閱:https://rocmdocs.amd.com/en/latest/Programming_Guides/HIP_API_Guide.html

注意:CUDA_VERSION 宏、cudaRuntimeGetVersioncudaDriverGetVersion API 在語義上與 HIP_VERSION 宏、hipRuntimeGetVersionhipDriverGetVersion API 的值不相同。在進行版本檢查時,請勿混用它們。

例如:與其使用

#if defined(CUDA_VERSION) && CUDA_VERSION >= 11000 來隱式排除 ROCm/HIP,

不如使用以下方式來避免 ROCm/HIP 的程式碼路徑

#if defined(CUDA_VERSION) && CUDA_VERSION >= 11000 && !defined(USE_ROCM)

或者,如果希望採用 ROCm/HIP 的程式碼路徑

#if (defined(CUDA_VERSION) && CUDA_VERSION >= 11000) || defined(USE_ROCM)

或者,如果希望僅針對特定 HIP 版本採用 ROCm/HIP 的程式碼路徑

#if (defined(CUDA_VERSION) && CUDA_VERSION >= 11000) || (defined(USE_ROCM) && ROCM_VERSION >= 40300)

參考 CUDA 語義文件

對於此處未列出的任何部分,請參考 CUDA 語義文件:CUDA 語義

啟用核心斷言

ROCm 支援核心斷言,但由於效能開銷而被停用。可以透過從原始碼重新編譯 PyTorch 來啟用它。

請將下面這行作為引數新增到 cmake 命令引數中

-DROCM_FORCE_ENABLE_GPU_ASSERTS:BOOL=ON

文件

獲取 PyTorch 全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源