跳轉到主要內容
公告社群

vLLM 加入 PyTorch 生態系統:為每個人提供簡單、快速、經濟的 LLM 服務

作者: 2024 年 12 月 9 日2025 年 5 月 3 日無評論
vllm logo

我們非常高興地宣佈,vLLM 專案已成為 PyTorch 生態系統專案,並加入了 PyTorch 生態系統大家庭!

有關成為 PyTorch 生態系統專案的更多資訊,請參閱PyTorch 生態系統工具頁面

執行大型語言模型 (LLM) 既耗費資源又複雜,尤其是在這些模型擴充套件到數千億個引數時。vLLM 應運而生——一個專為 LLM 設計的高吞吐量、記憶體高效的推理和服務引擎。

vLLM 最初圍繞創新的分頁注意力演算法構建,現已發展成為一個全面的、最先進的推理引擎。一個蓬勃發展的社群也在不斷為 vLLM 新增新功能和最佳化,包括流水線並行、分塊預填充、推測解碼和解耦服務。

自發布以來,vLLM 獲得了廣泛關注,在 GitHub 上獲得了超過 31,000 顆星——這證明了它的受歡迎程度和蓬勃發展的社群。這個里程碑標誌著 vLLM 一個激動人心的篇章,我們將繼續透過尖端工具為開發人員和研究人員提供高效、可擴充套件的 AI 部署。歡迎來到 LLM 推理的新時代!

vLLM 始終與 PyTorch 專案有著密切的聯絡。它深度整合到 PyTorch 中,利用 PyTorch 作為統一介面來支援廣泛的硬體後端。其中包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。這種與 PyTorch 的緊密耦合確保了跨不同硬體平臺的無縫相容性和效能最佳化。

你知道嗎,你可以直接透過手機體驗 vLLM 的強大功能?在今年的亞馬遜 Prime Day 期間,vLLM 在向數百萬使用者提供閃電般的響應方面發揮了關鍵作用。在三個區域,超過 80,000 個 Trainium 和 Inferentia 晶片每分鐘平均處理 300 萬個令牌,同時將首次響應的 P99 延遲保持在 1 秒以內。這意味著當客戶開啟亞馬遜應用程式並與 Rufus 聊天時,他們正在無縫地與正在執行的 vLLM 互動!

vLLM 還與領先的模型供應商緊密合作,以確保支援流行模型。這包括與 Meta LLAMA、Mistral、QWen 和 DeepSeek 模型以及許多其他模型的緊密整合。一個特別令人難忘的里程碑是LLAMA 3.1 (405B) 的釋出。作為首發合作伙伴,vLLM 率先實現了這個超大型模型的執行,展示了 vLLM 處理最複雜和資源密集型語言模型的能力。

要安裝 vLLM,只需執行

pip install vllm

vLLM 專為研究人員和生產級服務而設計。

要將 vLLM 作為與 OpenAI API 相容的伺服器執行,只需使用 Huggingface 模型 ID

vllm serve meta-llama/Llama-3.1-8B

要將 vLLM 作為簡單函式執行

from vllm import LLM, SamplingParams

# Sample prompts.
prompts = [
   "Hello, my name is",
   "The president of the United States is",
   "The capital of France is",
   "The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.1-8B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

開源創新是 vLLM DNA 的一部分。它誕生於伯克利的一個學術專案,繼承了其他開創性開源倡議的遺產,例如在 1980 年代徹底改變作業系統的 BSD。來自同一組織的其他創新包括Apache SparkRay,現在已成為大資料和 AI 系統的標準。在生成式 AI 時代,vLLM 作為致力於普及 AI 推理的平臺。

vLLM 團隊堅定不移地致力於“由社群、為社群、屬於社群”的專案使命。協作和包容性是我們一切工作的核心。

如果您有合作請求或諮詢,請隨時透過vllm-questions@lists.berkeley.edu聯絡我們。要加入活躍且不斷壯大的 vLLM 社群,請訪問我們的GitHub 倉庫或透過vLLM Slack與我們聯絡。我們將共同推動 AI 創新的邊界,並使其惠及所有人。