捷徑

PYTORCH ProcessGroupNCCL 環境變數

如需環境變數的詳細資訊,請參閱 ProcessGroupNCCL 環境變數

變數

說明

TORCH_NCCL_HIGH_PRIORITY

控制是否對 NCCL 通訊器使用高優先順序串流。

TORCH_NCCL_BLOCKING_WAIT

控制 wait() 是阻塞還是非阻塞。

TORCH_NCCL_DUMP_ON_TIMEOUT

控制在偵測到監看程式逾時或例外狀況時,是否傾印除錯資訊。此變數必須與 TORCH_NCCL_TRACE_BUFFER_SIZE(大於 0)一起設定。

TORCH_NCCL_DESYNC_DEBUG

控制是否啟用去同步除錯。這有助於找出導致集體去同步的肇事者等級。

TORCH_NCCL_ENABLE_TIMING

如果設定為 1,則會為所有 ProcessGroupNCCL 集體操作啟用記錄開始事件,並計算每個集體操作的準確集體操作時間。

TORCH_NCCL_ENABLE_MONITORING

如果設定為 1,則會啟用監控執行緒,當 ProcessGroupNCCL 監看程式執行緒卡住且在 TORCH_NCCL_HEARTBEAT_TIMEOUT_SEC 後未偵測到心跳時,該執行緒會中止程序。這可能是因為呼叫了可能會掛起的 CUDA/NCCL API 所導致。這對於防止作業卡住過長時間(佔用叢集資源)很有用。

TORCH_NCCL_HEARTBEAT_TIMEOUT_SEC

控制監控執行緒中止程序之前的監看程式心跳逾時期間。

TORCH_NCCL_TRACE_BUFFER_SIZE

我們儲存在飛行記錄器環形緩衝區中的最大事件數。例如,一個事件可能是集體操作的開始或結束。設定為 0 可停用追蹤緩衝區和除錯資訊傾印。

TORCH_NCCL_WAIT_TIMEOUT_DUMP_MILSEC

控制在結束並擲出逾時例外狀況之前,我們將等待傾印除錯資訊的額外時間(以毫秒為單位)。

TORCH_NCCL_DEBUG_INFO_TEMP_FILE

傾印除錯資訊的檔案。

TORCH_NCCL_DEBUG_INFO_PIPE_FILE

用於手動觸發除錯傾印的管道檔案,寫入管道中的任何內容都會觸發傾印。

TORCH_NCCL_NAN_CHECK

控制是否啟用輸入的 NAN 檢查,如果偵測到 NAN,則會擲出錯誤。

文件

存取 PyTorch 的完整開發人員文件

檢視文件

教學課程

取得適用於初學者和進階開發人員的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得問題的解答

檢視資源