• 教程 >
  • PyTorch 中的分散式資料並行 - 影片教程
快捷方式

介紹 || 什麼是 DDP || 單節點多 GPU 訓練 || 容錯 || 多節點訓練 || minGPT 訓練

PyTorch 中的分散式資料並行 - 影片教程

創建於: Sep 27, 2022 | 最後更新於: Nov 15, 2024 | 最後驗證於: Nov 05, 2024

作者: Suraj Subramanian

請觀看下方影片或在 youtube 上觀看。

本系列影片教程將帶你瞭解如何透過 DDP 在 PyTorch 中進行分散式訓練。

本系列從一個簡單的非分散式訓練任務開始,最終將訓練任務部署到叢集中的多臺機器上。在此過程中,你還將學習關於 torchrun 的知識,以實現容錯的分散式訓練。

本教程假設你對 PyTorch 中的模型訓練有基本瞭解。

執行程式碼

你需要多個 CUDA GPU 來執行教程程式碼。通常,這可以在具有多個 GPU 的雲實例上完成(本教程使用帶有 4 個 GPU 的 Amazon EC2 P3 例項)。

教程程式碼託管在此 github 倉庫 中。克隆該倉庫並跟著操作吧!

教程章節

  1. 介紹(本頁)

  2. 什麼是 DDP? 溫和地介紹 DDP 的底層工作原理

  3. 單節點多 GPU 訓練 在單臺機器上使用多個 GPU 訓練模型

  4. 容錯分散式訓練 使用 torchrun 使你的分散式訓練任務具有魯棒性

  5. 多節點訓練 在多臺機器上使用多個 GPU 訓練模型

  6. 使用 DDP 訓練 GPT 模型 使用 DDP 訓練 minGPT 模型的“真實世界”示例

文件

查閱 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源