2025年6月7日,PyTorch Day China 在北京成功舉辦,由 PyTorch Foundation 和北京智源人工智慧研究院 (BAAI) 聯合主辦。為期一天的會議共進行了16場演講,平均每場會議有160名參會者。瀏覽完整的 YouTube 播放列表,查詢您感興趣的會議。

PyTorch Foundation 執行董事 Matt White 深入闡述了 PyTorch Foundation 致力於加速開源 AI 的承諾。基金會自兩年前成立以來,已發展到30名成員,並演變為一個傘形基金會,能夠託管 PyTorch 核心之外的開源專案。vLLM 和 DeepSpeed 成為基金會旗下的首批專案,BAAI 的開源專案 FlagGems 也加入了 PyTorch 生態系統。為支援本地社群發展而啟動的 PyTorch 大使計劃在一個月內收到了200多份申請。Matt 還介紹了 PyTorch 新網站,以及 PyTorch 大會和開源 AI 周的日程安排。他提到了基金會即將推出的舉措,包括演講者名錄、大學合作和培訓認證,並感謝了與會者,表達了對當天演講的期待。
2. 在多樣化 AI 晶片上執行大模型:PyTorch + 開源堆疊 (FlagOS) 實現無架構部署

北京智源人工智慧研究院副院長林詠華討論了當前在多樣化 AI 晶片上執行大模型的現狀。她解釋了構建統一開源系統軟體堆疊的原因:大模型面臨成本高昂、資源需求巨大以及訓練/推理昂貴等挑戰,而碎片化的全球 AI 加速器生態系統又帶來了額外問題。隨後,她介紹了由智源研究院與多個合作伙伴共同開發的 FlagOS,包括核心元件和必要工具,支援各種底層晶片和系統部署架構,以及多種大模型。它已獲得多種架構的支援,並在運算元效率和相容性方面表現出色。最後,她呼籲更多團隊參與構建這個開源生態系統。
3. 深入 Hugging Face Hub;在第一大 AI 中心,70萬+ PyTorch 模型的家園分享您的模型權重

來自 HuggingFace 的王鐵錚介紹了 HuggingFace Hub,這是一個常被稱為“AI 的 GitHub”的開源 AI 社群。它託管了大量的開源模型和資料集,並提供多樣化的功能:用於輕鬆測試模型的空間、核心、API 提供商閘道器、社交溝通功能以及與開源相關的指標。其模型庫提供按受歡迎程度和任務進行便捷過濾的功能,並設有熱門模型頁面,展示各種熱門模型。每個模型都有一個專門的頁面,顯示模型卡、程式碼和結構化資料。對於資料集,它支援 Git 倉庫,提供視覺化和 SQL 查詢功能,並提供強大的程式設計介面。
4. Verl:一個用於代理任務的開源大規模 LLM 強化學習框架

來自字節跳動的仝宇軒介紹了verl,這是一個開源的大規模 LLM 強化學習框架。他首先強調了大規模強化學習的重要性,它顯著增強了語言模型的效能,並在實際任務中具有廣泛應用。然而,它面臨著複雜的資料流(涉及多個模型、階段和工作負載)、分散式工作負載以及平衡資料依賴和資源約束的挑戰。Verl 的優勢在於平衡了靈活性和效率:它透過單一控制器正規化實現了程式設計靈活性,允許用最少的程式碼描述核心邏輯並支援多種演算法,並且它具有混合引擎以最佳化資源利用。該框架擁有一個活躍的開源社群,有幾個流行的專案都建立在其之上。最後,他分享了社群的未來路線圖並歡迎新成員。
5. PyTorch 在中國:社群增長、本地化與互動

來自華為的宗澤勝討論了 PyTorch 在中國的發展。作為全球流行的框架,PyTorch 擁有大量來自中國的貢獻者,在全球名列前茅。為了解決初學者本地化資源匱乏的問題,他們翻譯了 PyTorch 官方網站,建立了社群主頁,並翻譯了從初級到高階的教程。他們還透過聊天頻道(去年底建立)積極與使用者互動,釋出了60多篇技術部落格,並獲得了2500名訂閱者。未來的計劃包括進一步自動化翻譯,提供更多高質量的資源和活動,並邀請使用者參與。
6. AI 開源發展及其對 AI 生態系統的影響

CSDN 高階副總裁兼 Boulon 技術專家李建忠分享了對 AI 開源發展及其對 AI 生態系統影響的見解。他比較了全球和中國的 AI 技術生態系統,指出中國的 AI 開源在全球的重要性日益增加,並將 AI 的發展與地球上生物智慧的演變進行了類比。隨後,他討論了推理模型的發展,這些模型使大模型能夠“慢思考”,並減少對訓練語料庫中弱推理訊號的依賴,其中強化學習中的機器合成數據發揮著關鍵作用。他分析了開源對生態系統的影響,包括大幅降低模型訓練和推理成本,並推動 AI 應用向能夠規劃、協作和行動的代理發展。
7. torch.accelerator:用於基於流的加速器的統一、裝置無關的執行時 API

來自英特爾的餘廣業介紹了 PyTorch 2.6 中推出的torch.accelerator API,這是一個用於基於流的加速器的統一、裝置無關的執行時 API。儘管 PyTorch 作為一個廣泛使用的機器學習框架支援各種加速硬體,但現有的執行時與特定的裝置模組耦合(例如,`torch.cuda.current_device` 僅適用於 CUDA 裝置),這限制了程式碼的可移植性,並給硬體供應商整合新後端帶來了挑戰。PyTorch 2.5 引入了加速器的概念,2.6 提出了一個統一的裝置無關的執行時 API,其功能與現有裝置特定的 API 緊密對映,以最大限度地減少程式碼遷移更改。未來的計劃包括新增記憶體相關的 API 和通用單元測試。最後,他感謝社群和貢獻者為這些改進所做的努力。
8. vLLM:人人都能輕鬆、快速、廉價地進行 LLM 服務

來自清華大學的遊凱超介紹了vLLM,旨在為所有人提供易於訪問、快速且經濟實惠的語言模型推理服務。它於2023年6月開源,憑藉近4.83萬的 GitHub 星標而受到廣泛關注。它易於使用,支援離線批處理推理和與 OpenAI 相容的 API 伺服器,並適用於各種模型型別。作為主要語言模型公司的官方合作伙伴,它可以在模型釋出後立即部署。vLLM 支援多種硬體,探索基於外掛的整合,並應用於日常生活和企業應用。它透過軟體包、Docker 映象、預編譯的 wheel 和強大的持續整合系統優先考慮使用者體驗。最後,他感謝 vLLM 社群的1100多名貢獻者。
9. 一個由 torch_musa 驅動的基於 torch.fx 的壓縮工具包

來自摩爾線程的莫凡介紹了torch_musa,這是一個 PyTorch 外掛,使 PyTorch 能夠在其平臺上原生執行,並具有高度最佳化的功能和運算元。隨後,他詳細介紹了壓縮工具包,解釋了選擇 FX(可除錯、易於修改圖、易於整合)的原因。其工作流程涉及輸入模型和配置檔案,在跟蹤階段捕獲完整的模型圖,並通過後端進行最佳化/縮減。他還介紹了定製最佳化和對多種資料型別的支援。未來的工作包括使大型語言和視覺模型可跟蹤、加速推理以及構建容錯系統。
10. 字節跳動影片生成基礎模型的高效訓練

來自字節跳動的張衡分享了字節跳動在影片生成基礎模型大規模、高效能訓練方面的經驗,包括在廣告、電影和動畫中的應用。他介紹了影片生成模型的結構(VE 編碼、MMDIT 擴散、VE 解碼)和訓練過程(分階段訓練,VE 編碼離線以最佳化儲存和預處理)。他還討論了影片生成模型中負載不平衡的挑戰和解決方案。
11. torch.compile 在不同場景下的實踐與最佳化

來自阿里雲的顏奕晨分享了團隊在 `torch.compile` 實踐與最佳化方面的經驗。`torch.compile` 透過圖捕獲、回退處理和最佳化核心生成等元件,僅用一行程式碼即可加速模型,但在生產環境中面臨挑戰。為解決這些問題,團隊解決了 Dynamo 和 DeepSpeed ZeRO/梯度檢查點之間的相容性,並向相關庫提交了整合解決方案;透過模式匹配識別並重寫注意力計算模式,以實現更好的融合和效能;優化了輸入對齊以減少不必要的重新編譯。他還提到了未解決的問題和未來方向:動態形狀的編譯策略、啟動延遲最佳化、減少開銷以及改進核心快取機制。
12. 生產環境中的 PyTorch:在昇騰 NPU 上加速 LLM 訓練和推理

來自華為的李嘉偉和李晶介紹了 PyTorch 生態系統中昇騰 NPU (torch_npu) 的進展。他們重點關注 PyTorch 上游多樣性支援,解釋了第三方裝置整合機制:使用基於 CPU 的模擬後端 OpenRag 作為測試後端來監控介面功能,並建立機制供下游硬體供應商在社群 PR 合併之前識別風險。

李晶分享了昇騰 NPU 的效能和生態系統支援。他介紹了torch_npu 架構以實現高效能和可靠性。目前已支援20多個流行庫,包括 vLLM、torchtune、torchtitan 等。他還解釋了 torch_npu 與 NPUGraph 和 torch.compile 協同工作的機制,以提供高效能計算。最後,他邀請大家加入社群並參加定期會議。
13. Hetu-Galvatron:一個用於高效大規模基礎模型訓練的自動分散式系統


來自北京大學的劉心怡和王宇傑詳細介紹了Hetu-Galvatron,這是一個基於 PyTorch 的創新系統,其主要特點是:自動最佳化、多功能性和使用者友好性。對於模型轉換,它基於原生 PyTorch 構建,透過替換支援張量和同步比較的層,將單 GPU 訓練模型轉換為支援多並行度的模型。對於自動最佳化,它擁有一個基於成本模型和搜尋演算法的引擎。它支援多樣化的模型架構和硬體後端,透過 PyTorch 確保與 GPU 和 NPU 的整合。它在不同的叢集和模型上表現出卓越的效率,並驗證了效能和準確性。未來的計劃包括整合 torch FSDP2,支援更多並行策略,更多模型和注意力型別,以及最佳化訓練後工作流程。
14. 英特爾的 PyTorch 之旅:提升 AI 效能並最佳化開源軟體

來自英特爾 PyTorch 團隊的馬明飛介紹了英特爾在 PyTorch 方面的工作。對於英特爾 GPU 上的 PyTorch 最佳化,英特爾在 Linux 和 Windows 上提供支援,涵蓋執行時、運算元支援、`torch.compile` 和分散式訓練。對於 `torch.compile` 中的 CPU 後端最佳化,團隊參與了架構設計,擴充套件了資料型別支援,實現了 gemm 模板的自動調優,支援 Windows,並持續改進效能加速。對於 DeepSeek 671B 完整版效能最佳化,團隊完成了 CPU 後端開發,取得了顯著的加速(預填充效能提升14倍,解碼效能提升2.9倍),支援多種資料型別,以低成本滿足了即時需求。
15. FlagTree:適用於多樣化 AI 晶片的統一 AI 編譯器

來自北京智源人工智慧研究院的孟春雷介紹了FlagTree,一個支援多樣化 AI 晶片的統一 AI 編譯器,也是 FlagOS 開源堆疊的關鍵元件。FlagOS 由智源研究院與多個合作伙伴共同開發,包括FlagGems(大型模型通用運算元庫)、FlagCX(多晶片通訊)以及並行訓練/推理框架,支援大型模型訓練和推理。他還介紹了 FlagTree 用於多後端整合的架構,以及正在開發的功能:基於註解的程式設計正規化、重構的 Triton 編譯器執行時等,透過相關最佳化顯著提升了效能。
16. KTransformers:釋放 MoE 模型 CPU/GPU 混合推理的全部潛力

來自清華大學的張明行博士介紹了KTransformers,即 Quick Transformers,這是一個構建在 HuggingFace 的 Transformers 之上的庫,旨在透過最佳化的運算元整合和資料佈局策略,釋放 MoE 模型 CPU/GPU 混合推理的潛力。最初設計為一個靈活的框架,用於整合各種運算元最佳化,它解決了由於模型更大和上下文更長而導致的推理成本上升問題。對於低吞吐量和併發場景,它透過將計算密集型部分解除安裝到 GPU,將稀疏部分解除安裝到 CPU(針對 DeepSeek 等模型量身定製),並具有靈活的配置,實現了低門檻模型操作。未來的重點包括注意力層稀疏化、新增區域性微調以及維護用於分散式推理的Mooncake專案,歡迎社群交流。
17. SGLang:一個用於大規模 LLM 服務的高效開源框架

來自上海交通大學的研究生殷梁生介紹了SGLang,一個用於大規模 LLM 服務的高效開源框架。作為一個性能領先的開源引擎,具有優雅、輕量級和可定製的設計,它被學術界以及微軟和 AMD 等公司採用,提供高效能的強化學習解決方案。其核心是 PD 解耦設計,解決了非解耦模式中的問題:延遲、計算-通訊不平衡和排程不相容。它透過負載均衡器路由請求,實現預取和解碼例項之間的 KV 快取傳輸。未來的計劃包括延遲最佳化、更長序列支援和整合資料並行注意力。擁有400多名貢獻者,它被多家企業使用。