跳轉到主要內容
部落格社群

vLLM 北京見面會:推進大規模 LLM 部署

作者: 2025 年 8 月 7 日2025 年 9 月 4 日暫無評論

2025 年 8 月 2 日,一場備受矚目的大模型推理盛會——vLLM 北京見面會在騰訊北京總部成功舉辦。260 多名開發者、工程師和行業專家齊聚一堂,共同見證 vLLM 生態系統的蓬勃發展及其在實際應用中的強大能力。

本次見面會內容豐富。來自 vLLM 核心團隊以及騰訊、華為、螞蟻集團、字節跳動、月之暗面和小米等領先科技公司的專家們分享了前沿實踐和突破性進展。他們的演講清晰而深入地展示了 vLLM 的核心優勢:效率、靈活性和可擴充套件性。

見面會亮點回顧

1. vLLM 概覽及最新進展

vLLM 核心維護者遊凱超全面回顧了專案的發展歷程,重點介紹了其核心技術和最新進展。他展示了 vLLM 在大規模分散式推理、多模態支援、更精細的排程策略和可擴充套件性方面的突破。他還概述了未來的發展路線圖,重點關注極致效能最佳化、更廣泛的硬體支援和更豐富的生態系統工具鏈,以深度技術探討開啟了本次活動。

2. vLLM 的 PD 解耦:騰訊推理框架的實踐與探索

 

騰訊專家張超分享了一個基於 vLLM 構建的深度定製的 PD(Prefill-Decode)解耦框架。透過解耦計算關鍵路徑,該解決方案顯著提高了推理效率。它已在多個騰訊業務場景中大規模部署,為高併發大模型服務提供了可複用、企業級的推理框架。

3. vLLM Ascend:昇騰在大規模分散式推理和強化學習中的實踐

vLLM Ascend 專案團隊的專家王西元和文傑分享了他們將 vLLM 適配到昇騰 AI 硬體平臺的深入工作。他們首先介紹了 vLLM Ascend 專案在過去幾個月取得的最新成果,包括在功能支援、版本釋出、軟體質量和推理效能方面的重大改進。

隨後,他們展示瞭如何利用昇騰晶片的獨特能力來最佳化 vLLM 以實現大規模分散式推理,並以 DeepSeek 大規模 EP 場景作為案例研究。得益於 vLLM 強大的跨平臺適應性,vLLM Ascend 為在昇騰硬體上部署大模型提供了高效的解決方案。

4. 效能提升 10 倍:DeepSeek 推理的關鍵最佳化路徑

螞蟻集團基礎設施工程師陳文剛和鄭守建深入探討了將 DeepSeek 推理效能提升 10 倍的關鍵最佳化策略。他們詳細介紹了其方法,從 GPU 記憶體最佳化策略到延遲降低技術,從單節點多模型部署實踐到 PD(Prefill-Decode)解耦架構的應用。本次演講提供了一份非常實用的效能調優指南,為社群提供了寶貴的見解。

5. AIBrix v0.4.0 預覽:更高效、更經濟的大規模推理控制平面

字節跳動 GPU 基礎設施工程師譚建南基於字節跳動大量的線上工作負載實踐分享了見解,深入探討了 AIBrix 如何解決大規模模型推理中平衡效率和成本的核心挑戰。他強調了 AIBrix 與高效能 vLLM 推理引擎之間的緊密整合,這不僅提高了推理效率,還顯著降低了資源成本,為行業提供了一種創新且實用的方法來高效部署大模型服務。

6. Kimi K2 訓練和推理最佳實踐

月之暗面的何蔚然分享了 Kimi K2 模型在嚴格 SLO 要求下執行的實踐經驗,平衡了高併發線上推理和強化學習 (RL) 訓練需求。他重點介紹了針對不同硬體資源和工作負載限制進行最佳化的協調架構和關鍵部署策略。

7. 透過點對點 NCCL 在 vLLM 中實現原生 PD 解耦

小米 AI 基礎設施工程師鄧中華深入介紹了使用點對點 NCCL 通訊實現的原生 PD(Prefill-Decode)解耦解決方案。他詳細解釋了 vLLM 中這種架構的設計原理和關鍵突破。在實際部署案例的支援下,他詳細闡述了所實現的顯著效能提升,為 vLLM 開源生態系統內的協作提供了寶貴見解。

隨著核心功能的不斷增強、硬體生態系統的持續擴充套件以及控制平面和部署解決方案的日益成熟,vLLM 正在成為推動大模型實際應用並賦能無數行業的堅實基礎。我們期待著下次聚會,共同見證 vLLM 生態系統更加輝煌的成長!