跳轉到主要內容

vLLM

vLLM 是一個用於大型語言模型(LLM)的高吞吐量和記憶體高效的推理和服務引擎。

vLLM 是一個開源庫,用於快速、易於使用的 LLM 推理和服務。它透過 PagedAttention、分塊預填充、多 LoRA 和自動字首快取等創新技術,優化了跨不同資料中心硬體(NVIDIA 和 AMD GPU、Google TPU、AWS Trainium、Intel CPU)的數百種語言模型。它旨在透過相容 OpenAI 的伺服器和離線批次推理來服務大規模生產流量,並可擴充套件到多節點推理。作為一個社群驅動的專案,vLLM 與基礎模型實驗室、硬體供應商和人工智慧基礎設施公司合作開發尖端功能。

加州大學伯克利分校於 2024 年 7 月將 vLLM 貢獻給 Linux 基金會。