torch.cuda.memory_stats¶

torch.cuda.memory_stats(device=None)[source][source]¶

返回給定裝置上的 CUDA 記憶體分配器統計資訊的字典。

此函式返回的值是一個字典，其中包含統計資訊，每個統計資訊都是一個非負整數。

核心統計資訊

"allocated.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 記憶體分配器接收到的分配請求數量。
"allocated_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 已分配的記憶體量。
"segment.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 從 cudaMalloc() 保留的段數量。
"reserved_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 已保留的記憶體量。
"active.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 活動記憶體塊的數量。
"active_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 活動記憶體量。
"inactive_split.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 非活動、不可釋放的記憶體塊數量。
"inactive_split_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 非活動、不可釋放的記憶體量。

對於這些核心統計資訊，值分解如下。

池型別

度量型別

除了核心統計資訊外，我們還提供了一些簡單的事件計數器

可以透過環境變數配置快取分配器，使其不對大於指定大小的塊進行拆分（參見 CUDA 語義文件的記憶體管理部分）。這有助於避免記憶體碎片化，但可能會對效能產生影響。以下額外輸出有助於調整和評估影響：

"max_split_size": 大於此大小的塊將不會被拆分。
"oversize_allocations.{current,peak,allocated,freed}": 記憶體分配器接收到的超大分配請求數量。
"oversize_segments.{current,peak,allocated,freed}": 從 cudaMalloc() 保留的超大段數量。

可以透過環境變數配置快取分配器，以進行記憶體分配舍入，從而減少碎片。有時，舍入的開銷可能高於其有助於減少的碎片。以下統計資訊可用於檢查舍入是否增加了過多的開銷：

"requested_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 客戶端程式碼請求的記憶體，與 allocated_bytes 比較以檢查分配舍入是否增加了過多的開銷。

引數: device (torch.device 或 int, 可選) – 選擇的裝置。如果 device 為 None（預設），則返回由 current_device() 給出的當前裝置的統計資訊。
返回型別: dict[str, Any]

注意

有關 GPU 記憶體管理的更多詳細資訊，請參見記憶體管理。

注意

對於 backend:cudaMallocAsync，某些統計資訊無意義，始終報告為零。

文件