CUDA 環境變數
如需 CUDA 執行階段環境變數的詳細資訊,請參閱 CUDA 環境變數。
PyTorch 環境變數
| 變數 | 說明 | 
|---|
| PYTORCH_NO_CUDA_MEMORY_CACHING
 | 如果設定為 1,則會停用 CUDA 中的記憶體配置快取。這在偵錯時很有用。 | 
| PYTORCH_CUDA_ALLOC_CONF
 | 如需此環境變數的更深入說明,請參閱 記憶體管理。 | 
| PYTORCH_NVML_BASED_CUDA_CHECK
 | 如果設定為 1,則在匯入檢查 CUDA 是否可用的 PyTorch 模組之前,PyTorch 將使用 NVML 來檢查 CUDA 驅動程式是否正常運作,而不是使用 CUDA 執行階段。如果分叉的程序因 CUDA 初始化錯誤而失敗,這將很有幫助。 | 
| TORCH_CUDNN_V8_API_LRU_CACHE_LIMIT
 | cuDNN v8 API 的快取限制。這用於限制 cuDNN v8 API 使用的記憶體。預設值為 10000,假設每個執行計畫 200KiB,則大約對應於 2GiB。設定為 0表示沒有限制,設定為負值表示沒有快取。 | 
| TORCH_CUDNN_V8_API_DISABLED
 | 如果設定為 1,則會停用 cuDNN v8 API。並且將回到 cuDNN v7 API。 | 
| TORCH_ALLOW_TF32_CUBLAS_OVERRIDE
 | 如果設定為 1,則會強制啟用 TF32,並覆蓋set_float32_matmul_precision設定。 | 
| TORCH_NCCL_USE_COMM_NONBLOCKING
 | 如果設定為 1,則會在 NCCL 中啟用非阻塞錯誤處理。 | 
| TORCH_NCCL_AVOID_RECORD_STREAMS
 | 如果設定為 0,則會在 NCCL 中啟用回到基於記錄串流的同步行為。 | 
| TORCH_CUDNN_V8_API_DEBUG
 | 如果設定為 1,則會檢查是否正在使用 cuDNN V8。 | 
CUDA 執行階段和函式庫環境變數
| 變數 | 說明 | 
|---|
| CUDA_VISIBLE_DEVICES
 | 應該提供給 CUDA 執行階段的 GPU 裝置 ID 的逗號分隔清單。如果設定為 -1,則不會提供任何 GPU。 | 
| CUDA_LAUNCH_BLOCKING
 | 如果設定為 1,則會使 CUDA 呼叫同步。這在偵錯時很有用。 | 
| CUBLAS_WORKSPACE_CONFIG
 | 此環境變數用於設定每個配置的 cuBLAS 工作區配置。格式為 :[大小]:[數量]。例如,每個配置的預設工作區大小為CUBLAS_WORKSPACE_CONFIG=:4096:2:16:8,這指定了總大小為2 * 4096 + 8 * 16 KiB。若要強制 cuBLAS 避免使用工作區,請設定CUBLAS_WORKSPACE_CONFIG=:0:0。 | 
| CUDNN_CONV_WSCAP_DBG
 | 與 CUBLAS_WORKSPACE_CONFIG類似,此環境變數用於設定每個配置的 cuDNN 工作區配置。 | 
| CUBLASLT_WORKSPACE_SIZE
 | 與 CUBLAS_WORKSPACE_CONFIG類似,此環境變數用於設定 cuBLASLT 的工作區大小。 | 
| CUDNN_ERRATA_JSON_FILE
 | 可以設定為錯誤過濾器的檔案路徑,該過濾器可以傳遞給 cuDNN 以避免特定的引擎配置,主要用於偵錯或硬編碼自動調整。 | 
| NVIDIA_TF32_OVERRIDE
 | 如果設定為 0,則會在所有核心上全域停用 TF32,並覆蓋所有 PyTorch 設定。 |