跳轉到主要內容

入門

選擇偏好並執行命令以在本地安裝 PyTorch,或透過支援的雲平臺快速入門。

透過雲合作伙伴開始

雲平臺為訓練和部署深度學習模型提供了強大的硬體和基礎設施。選擇下面的雲平臺以開始使用 PyTorch。

Lightning Studios

將 PyTorch 與 AWS 結合使用

要充分體驗 PyTorch 的所有功能,需要一臺至少配備一個專用 NVIDIA GPU 的機器。雖然擁有這些規格的機器並不總是實用的,但我們有基於雲的解決方案,讓您能夠測試和使用 PyTorch 的所有功能。

AWS 提供兩種

  • 深度學習 AMI:專用的、預構建的機器學習例項,包含 PyTorch
  • 深度學習基礎 AMI:裸機 Linux 和 Windows 例項,供您自定義安裝 PyTorch。

深度學習 AMI 快速入門

如果您想開始使用已安裝 PyTorch 並且可以從命令列登入的 Linux AWS 例項,本分步指南將幫助您完成此操作。

  1. 登入您的 AWS 控制檯。如果您沒有 AWS 賬戶,請參閱下面的入門指南
  2. 單擊 啟動虛擬機器
  3. 選擇 深度學習 AMI (Ubuntu)

    這為您提供了一個已安裝預定義版本 PyTorch 的例項。如果您想要一個需要安裝 PyTorch 的裸機 AWS 例項,您可以選擇 深度學習基礎 AMI (Ubuntu),它將擁有硬體,但沒有預裝任何軟體。

  4. 選擇 GPU 計算 p3.2xlarge 例項型別。

    您可以選擇任何可用的例項來嘗試 PyTorch,即使是*免費套餐*,但為了獲得最佳效能,建議您選擇*GPU 計算*或*計算最佳化*例項。其他例項選項包括計算最佳化 c5 系列(例如,c5.2xlarge)或通用計算 t2 系列或 t3 系列(例如,t2.2xlarge)。需要注意的是,如果您選擇沒有 GPU 的例項,PyTorch 將僅在 CPU 計算模式下執行,操作可能需要更長的時間。

  5. 單擊 審查並啟動
  6. 審查例項資訊並單擊 啟動
  7. 如果您還沒有要使用的金鑰對,您需要 建立新的金鑰對。選擇一個名稱並透過 下載金鑰對 按鈕將其下載到本地。
  8. 現在點選 啟動例項。您現在有一個用於 PyTorch 的活動例項。如果您點選 檢視例項,您將看到您的執行例項。
  9. 記下 公共 DNS,因為它將用於從命令列 ssh 到您的例項。
  10. 開啟命令列提示符
  11. 確保您的金鑰對具有適當的許可權,否則您將無法登入。輸入 chmod 400 path/to/downloaded/key-pair.pem
  12. 輸入 ssh -i path/to/downloaded/key-pair.pem ubuntu@<您上面記下的公共 DNS>。例如,ssh -i ~/Downloads/aws-quick-start.pem ubuntu@ec2-55-181-112-129.us-west-2.compute.amazonaws.com。如果要求繼續連線,請輸入 yes
  13. 您現在應該看到類似於 ubuntu@ip-100-30-20-95 的提示符。如果是這樣,您現在已連線到您的例項。
  14. 透過執行下面的驗證步驟來驗證 PyTorch 是否已安裝。

    如果您選擇的是 深度學習基礎 AMI (Ubuntu) 而不是 深度學習 AMI (Ubuntu),那麼您將需要安裝 PyTorch。請按照Linux 入門說明進行安裝。

快速入門驗證

為了確保 PyTorch 安裝正確,我們可以透過執行 PyTorch 示例程式碼來驗證安裝。在這裡我們將構建一個隨機初始化的張量。

import torch
x = torch.rand(5, 3)
print(x)

輸出應類似於

tensor([[0.3380, 0.3845, 0.3217],
        [0.8337, 0.9050, 0.2650],
        [0.2979, 0.7141, 0.9069],
        [0.1449, 0.1132, 0.1375],
        [0.4675, 0.3947, 0.1426]])

此外,要檢查您的 GPU 驅動程式和 CUDA 是否已啟用並可供 PyTorch 訪問,請執行以下命令以返回 CUDA 驅動程式是否已啟用

import torch
torch.cuda.is_available()

AWS 入門

通常,您將使用 Amazon Elastic Compute Cloud(或 EC2)來啟動例項。Amazon 有各種例項型別,每種都針對特定用例進行配置。對於 PyTorch,強烈建議您使用具有 GPU 或自定義 AI/ML 加速器的加速計算例項,因為它們專為機器學習的高計算需求而定製。

要使用 AWS,您需要設定一個 AWS 賬戶,如果您還沒有的話。您將建立一個使用者名稱(您的電子郵件地址)、密碼和 AWS 賬戶名稱(因為您可以為不同目的建立多個 AWS 賬戶)。您還將提供聯絡和賬單資訊。賬單資訊很重要,因為雖然 AWS 確實提供了他們所謂的“免費套餐”例項,但要使用 PyTorch,您會需要更強大的付費例項。

登入後,您將進入您的 AWS 控制檯。您甚至可以透過一系列簡單教程瞭解有關 AWS 的更多資訊。

基於 AWS Inferentia 的例項

AWS Inferentia 是 AWS 自定義構建的晶片,旨在提供更高效能、低成本的雲端機器學習推理。 Amazon EC2 Inf1 例項配備多達 16 個 AWS Inferentia 晶片、最新的第二代 Intel Xeon 可擴充套件處理器和高達 100 Gbps 的網路,以實現雲端高吞吐量和最低成本的推理。您可以將 Inf1 例項與 Amazon SageMaker 配合使用,實現完全託管的工作流程,或者直接使用與 PyTorch 整合的 AWS Neuron SDK

基於 GPU 的例項

Amazon EC2 P4d 例項為 AWS 上的機器學習訓練提供最高效能。它們由最新的 NVIDIA A100 Tensor Core GPU 提供支援,並首次在雲中提供 400 Gbps 例項網路。P4d 例項部署在稱為 EC2 UltraClusters 的超大規模叢集中,這些叢集由 4,000 多個 NVIDIA A100 GPU、Petabit 級非阻塞網路和透過 FSx for Lustre 實現的可擴充套件低延遲儲存組成。每個 EC2 UltraCluster 都提供超級計算機級別的效能,使您能夠解決最複雜的多節點 ML 訓練任務。

對於 ML 推理,基於 AWS Inferentia 的 Inf1 例項提供了雲中最低成本的推理。此外,配備 NVIDIA T4 GPU 的 Amazon EC2 G4dn 例項針對基於 GPU 的機器學習推理和利用 NVIDIA 庫的小規模訓練進行了最佳化。

建立和啟動例項

一旦您確定了例項型別,您將需要建立、可選配置和啟動您的例項。您可以從網頁瀏覽器或命令列介面連線到您的例項。以下是各種平臺例項啟動指南

Amazon SageMaker

透過 SageMaker 服務,AWS 提供了一項完全託管的服務,允許開發人員和資料科學家構建、訓練和部署機器學習模型。

請參閱 AWS 文件,瞭解 如何使用 PyTorch 配置 Amazon SageMaker

預構建 AMI

AWS 提供了預構建了現代版本 PyTorch 的例項(稱為 AWS 深度學習 AMI)。可用的 AMI 包括

  • Ubuntu
  • Amazon Linux
  • Windows 2016

Amazon 撰寫了一篇關於使用預構建 AMI 入門的優秀部落格文章

從頭開始安裝 PyTorch

您可能更喜歡從一個裸機例項開始安裝 PyTorch。一旦您連線到您的例項,PyTorch 的設定與為您選擇的作業系統本地設定相同。

將 PyTorch 與 Google Cloud 配合使用

要充分體驗 PyTorch 的所有功能,需要一臺至少配備一個專用 NVIDIA GPU 的機器。雖然擁有這些規格的機器並不總是實用的,但我們有基於雲的解決方案,讓您能夠測試和使用 PyTorch 的所有功能。

Google Cloud 提供

Google Cloud 入門

要使用 Google Cloud,如果您還沒有 Google 帳戶,則需要設定一個 Google 帳戶。您將建立一個使用者名稱(通常是 @gmail.com 電子郵件地址)和密碼。之後,您將能夠試用 Google Cloud。您還需要提供聯絡和賬單資訊。賬單資訊最初用於證明您是真實使用者。然後,在您的試用期結束後,您可以選擇升級到付費帳戶。

登入後,您將進入您的 Google Cloud 控制檯。您甚至可以透過一系列簡單教程瞭解有關 Google Cloud 的更多資訊。

Cloud 深度學習 VM 映象

Google Cloud 提供無需設定的預配置虛擬機器,幫助您構建深度學習專案。Cloud 深度學習 VM 映象是一組基於 Debian 的虛擬機器,允許您構建和執行基於 PyTorch 的機器學習應用程式。

基於 GPU 的虛擬機器

對於自定義虛擬機器,通常您會希望使用啟用 GPU 的 Compute Engine 虛擬機器例項來構建 PyTorch。Google 有各種虛擬機器型別和定價選項,包括 LinuxWindows,所有這些都可以針對特定用例進行配置。對於 PyTorch,強烈建議您使用啟用 GPU 的虛擬機器。它們專為機器學習的高計算需求而定製。

您的虛擬機器費用與其包含的 GPU 數量直接相關。例如,一臺 NVIDIA Tesla P100 虛擬機器實際上可以適用於許多用例。

深度學習容器

Google Cloud 還提供預配置和最佳化的深度學習容器。它們在 Google Cloud 服務中提供一致的環境,使在雲中擴充套件或從本地轉移變得容易。您可以靈活地部署到 Google Kubernetes Engine (GKE)、AI Platform、Cloud Run、Compute Engine、Kubernetes 和 Docker Swarm。

從頭開始安裝 PyTorch

您可能更喜歡從一個裸機例項開始安裝 PyTorch。一旦您連線到您的例項,PyTorch 的設定與為您選擇的作業系統本地設定相同。

將 PyTorch 與 Azure 配合使用

要充分體驗 PyTorch 的所有功能,需要一臺至少配備一個專用 NVIDIA GPU 的機器。雖然擁有這些規格的機器並不總是實用的,但我們有基於雲的解決方案,讓您能夠測試和使用 PyTorch 的所有功能。

Azure 提供

  • 一項機器學習服務,具有強大的 Python SDK,可幫助您在雲規模下訓練和部署 PyTorch 模型。
  • 專用的、預構建的機器學習虛擬機器,包含 PyTorch。
  • 裸機 Linux 和 Windows 虛擬機器,供您自定義安裝 PyTorch。

Azure 入門

要使用 Azure,如果您還沒有 Azure 帳戶,則需要設定一個 Azure 帳戶。您將使用 Microsoft 認可的電子郵件地址和密碼。您還需要提供聯絡和賬單資訊以驗證您的身份。賬單資訊是必要的,因為雖然 Azure 確實提供免費使用積分和免費服務,但您可能需要或想要更高階的服務。

登入後,您將進入您的 Azure 門戶。您甚至可以透過一系列簡單的影片教程瞭解有關 Azure 的更多資訊。

Azure 機器學習服務

Azure 機器學習服務是一項基於雲的服務,您可以使用它來加速端到端機器學習工作流程,從訓練到生產。Azure 機器學習允許您輕鬆地將 PyTorch 模型從本地機器訓練擴充套件到雲。使用 Azure ML 的 CLI 或 Python SDK,您可以利用該服務的高階功能進行分散式訓練、超引數調優、執行歷史跟蹤和生產規模模型部署。

請參閱文件,瞭解如何將 PyTorch 與 Azure 機器學習結合使用。

預配置資料科學虛擬機器

Azure 提供 預配置的資料學習和機器學習虛擬機器。PyTorch 在其中許多虛擬機器上都可用——例如,這裡是關於如何在 Ubuntu Linux 上設定 Azure 虛擬機器的文件

基於 GPU 的虛擬機器

微軟提供各種虛擬機器型別和定價選項,包括 LinuxWindows,所有這些都針對特定用例進行了配置。對於 PyTorch,強烈建議您使用GPU 最佳化的虛擬機器。它們專為機器學習的高計算需求而定製。

您的虛擬機器費用與其包含的 GPU 數量直接相關。例如,NC6 虛擬機器是最小、最便宜的虛擬機器之一,實際上可以適用於許多用例。

從頭開始安裝 PyTorch

您可能更喜歡從裸機虛擬機器開始安裝 PyTorch。一旦您連線到您的虛擬機器,PyTorch 的設定與為您選擇的作業系統本地設定相同。

將 PyTorch 與 Lightning Studios 結合使用

Lightning Studios 讓您可以在幾秒鐘內透過加速計算全面體驗 PyTorch 及其生態系統。您可以從瀏覽器或任何本地 IDE 中選擇 GPU 並進行自定義,無需任何設定。

Lightning Studios 提供

  • 預裝了 PyTorch 和 PyTorch Lightning 的即用型環境
  • 在 L4、L40S 和 H100 等 GPU 上進行加速計算,並能夠在幾秒鐘內切換
  • 最佳化的多節點訓練,以在多臺機器上擴充套件 PyTorch 訓練作業

Lightning Studios 使您能夠共享完全可重現的環境,其中預載入了構建 AI 系統所需的一切,例如資料處理、預訓練、微調、推理等。我們的 2K 個社群構建的開源模板庫預裝了依賴項、模型權重、資料、程式碼等。

入門

  • 訪問 lightning.ai
  • 註冊(每月可獲得 22 小時免費 GPU 使用時間)
  • 啟動您的第一個 Studio
  • 或在 lightning.ai/studios 複製我們的一個模板

透過 Studios,您可以

  • 按需付費
  • 以每小時 0.40 美元起的價格獲取 GPU
  • 使用您自己的 AWS 積分
  • 享受 24/7 企業支援

構建 AI,而非基礎設施

透過 Lightning Studios,您可以在一個地方輕鬆構建具有完整和低程式碼工具的 AI 產品,並訪問 GPU、訓練模型和部署。

Stable Diffusion 和 NVIDIA 的 NeMo 等 AI 產品均使用 Lightning 構建。無論您是嘗試第一個模型、AI 應用程式,還是在企業規模部署 AI。Lightning 為每個階段提供支援——甚至在 10,000 多個 GPU 上進行 LLM 預訓練。