PYTORCH ProcessGroupNCCL 環境變數¶
如需環境變數的詳細資訊,請參閱 ProcessGroupNCCL 環境變數。
| 變數 | 說明 | 
|---|---|
| 
 | 控制是否對 NCCL 通訊器使用高優先順序串流。 | 
| 
 | 控制 wait() 是阻塞還是非阻塞。 | 
| 
 | 控制在偵測到監看程式逾時或例外狀況時,是否傾印除錯資訊。此變數必須與 TORCH_NCCL_TRACE_BUFFER_SIZE(大於 0)一起設定。 | 
| 
 | 控制是否啟用去同步除錯。這有助於找出導致集體去同步的肇事者等級。 | 
| 
 | 如果設定為  | 
| 
 | 如果設定為  | 
| 
 | 控制監控執行緒中止程序之前的監看程式心跳逾時期間。 | 
| 
 | 我們儲存在飛行記錄器環形緩衝區中的最大事件數。例如,一個事件可能是集體操作的開始或結束。設定為 0 可停用追蹤緩衝區和除錯資訊傾印。 | 
| 
 | 控制在結束並擲出逾時例外狀況之前,我們將等待傾印除錯資訊的額外時間(以毫秒為單位)。 | 
| 
 | 傾印除錯資訊的檔案。 | 
| 
 | 用於手動觸發除錯傾印的管道檔案,寫入管道中的任何內容都會觸發傾印。 | 
| 
 | 控制是否啟用輸入的 NAN 檢查,如果偵測到 NAN,則會擲出錯誤。 |