vLLM

vLLM 是一個用於大型語言模型（LLM）的高吞吐量和記憶體高效的推理和服務引擎。

vLLM 是一個開源庫，用於快速、易於使用的 LLM 推理和服務。它透過 PagedAttention、分塊預填充、多 LoRA 和自動字首快取等創新技術，優化了跨不同資料中心硬體（NVIDIA 和 AMD GPU、Google TPU、AWS Trainium、Intel CPU）的數百種語言模型。它旨在透過相容 OpenAI 的伺服器和離線批次推理來服務大規模生產流量，並可擴充套件到多節點推理。作為一個社群驅動的專案，vLLM 與基礎模型實驗室、硬體供應商和人工智慧基礎設施公司合作開發尖端功能。

加州大學伯克利分校於 2024 年 7 月將 vLLM 貢獻給 Linux 基金會。

vLLM

vLLM 是一個用於大型語言模型（LLM）的高吞吐量和記憶體高效的推理和服務引擎。

文件

教程

資源

保持聯絡以獲取更新、活動資訊和最新新聞