
PyTorch 基金會很高興歡迎 vLLM 成為 PyTorch 基金會託管專案。vLLM 由加州大學伯克利分校貢獻,是一個專為大型語言模型 (LLM) 設計的高吞吐量、記憶體高效的推理和服務引擎。vLLM 一直與 PyTorch 專案有著緊密的聯絡。它深度整合到 PyTorch 中,利用 PyTorch 作為統一介面來支援廣泛的硬體後端,包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。這種與 PyTorch 的緊密耦合確保了在不同硬體平臺上的無縫相容性和效能最佳化。
PyTorch 基金會最近宣佈擴大為傘形基金會以加速 AI 創新,並很高興歡迎 vLLM 成為首批新專案之一。基金會託管專案是屬於該傘形結構下的專案,它們在 PyTorch 基金會中立透明的治理模式下進行官方治理和管理。
什麼是 vLLM?
執行大型語言模型 (LLM) 既耗費資源又複雜,尤其是當這些模型擴充套件到數千億個引數時。這就是 vLLM 的用武之地。vLLM 最初圍繞創新的 PagedAttention 演算法構建,現已發展成為一個全面、最先進的推理引擎。一個蓬勃發展的社群也在不斷為 vLLM 新增新功能和最佳化,包括流水線並行、分塊預填充、推測解碼和解耦服務。
自發布以來,vLLM 獲得了廣泛關注,在 GitHub 上獲得了超過 46,500 顆星和 1000 多名貢獻者——這證明了其受歡迎程度和蓬勃發展的社群。這個里程碑標誌著 vLLM 進入了一個激動人心的篇章,我們將繼續透過尖端工具賦能開發人員和研究人員,實現高效和可擴充套件的 AI 部署。歡迎來到 LLM 推理的新時代!
vLLM 的主要功能包括:
- 廣泛的模型支援:支援 100 多種 LLM 架構,具有影像和影片的多模態功能,同時支援稀疏注意力、Mamba、BERT、Whisper、嵌入和分類模型等專用架構。
- 全面的硬體相容性:可在 NVIDIA Blackwell 系列 GPU 上執行,並正式支援 AMD、Google TPU、AWS Neuron、Intel CPU/XPU/HPU 和 ARM。IBM Spyre 和華為昇騰等第三方加速器可透過我們的外掛系統輕鬆整合。
- 高度可擴充套件:支援自定義模型實現、硬體外掛、torch.compile 最佳化以及可配置的排程策略,以滿足您的特定需求。
- 針對響應速度最佳化:透過推測解碼、量化、字首快取和 CUDA 圖加速,提供最小延遲。
- 為最大吞吐量設計:透過張量/流水線並行和專用核心實現峰值效能。
- 無縫 RLHF 整合:提供對人類反饋強化學習和常見後訓練框架的一流支援。
- 企業級分散式推理:透過 KV 快取解除安裝、智慧路由和預填充-解碼解耦實現叢集範圍的擴充套件。
- 經生產驗證:提供企業級安全性、全面的可觀測性以及經過實戰檢驗的操作可靠性。
共同加速開源 AI
透過成為 PyTorch 基金會專案,vLLM 將與 PyTorch 團隊在功能開發方面進行密切合作。例如:
- vLLM 將確保程式碼在 Torch nightly 版本上執行,PyTorch 團隊將監控以確保所有測試透過。
- PyTorch 團隊正在增強對 vLLM 的 torch.compile 和 FlexAttention 支援。
- 與 TorchTune、TorchAO 和 FBGEMM 等原生庫進行密切協作和支援。
這種夥伴關係為 vLLM 和 PyTorch 核心帶來了顯著的互惠優勢。vLLM 在基金會中獲得了一個忠實的管家,確保了長期的程式碼庫維護、生產穩定性和透明的社群治理。同時,PyTorch 受益於 vLLM 能夠大幅擴充套件 PyTorch 在不同加速器平臺上的採用,同時推動尖端功能的創新,從而增強整個生態系統。