5 月 17 日,PyTorch 見面會在杭州成功舉辦,吸引了來自華為、騰訊、螞蟻集團、字節跳動等公司的近 60 名開發者和行業專家。本次活動聚焦 PyTorch 生態發展、AI 加速技術和行業實踐。透過主題演講和技術分會,與參會者進行了深入探討,為交流與協作提供了寶貴的平臺。

會議亮點
PyTorch 社群最新進展與生態展望
PyTorch 技術諮詢委員會 (TAC) 成員 Yikun Jiang 分享了 PyTorch 社群的最新動態。議題包括 PyTorch 的整體進展、PyTorch 基金會擴充套件為傘形基金會、大使計劃以及 PyTorch 大會規劃。他強調 PyTorch 如何透過技術迭代、生態擴充套件和全球協作持續推動 AI 開源技術的創新和實際應用。他呼籲開發者積極參與社群建設,共同塑造 AI 開源生態系統的未來。

Torchair:為昇騰 NPU 最佳化的 torch.compile 後端
華為高階工程師薛鵬介紹了圍繞昇騰 NPU 圖模式最佳化的技術實踐。他介紹了 Torchair 的兩種模式——Reduce-overhead 和 Max-autotune——並詳細闡述了在記憶體管理、動態形狀、多流並行和編譯時快取方面的深度最佳化。這些改進旨在提高模型訓練和推理效能,同時保持易用性。

昇騰上的 PyTorch 生態
華為軟體工程師姬遠浩討論了昇騰 NPU 對 PyTorch 生態專案的支援。他以 TorchTitan、TorchTune 和 vLLM 為案例研究,重點介紹了模型訓練、微調和推理。他解釋了它們的核心功能和昇騰的適配策略,為在昇騰硬體上部署 PyTorch 專案提供了實用指導。

騰訊基於 vLLM 的生產級 Prefill/Decode 解耦
騰訊高階工程師張超介紹了大模型推理中 Prefill/Decode (PD) 分離的實踐。該技術將計算密集型預填充階段與記憶體密集型解碼階段解耦,顯著提高了系統吞吐量和資源利用率。他的演講涵蓋了 KV 快取傳輸最佳化、智慧負載均衡和多輪對話快取等關鍵技術實現。在同構 GPU 和昇騰 A2 + H20 等異構設定上的實際部署顯示,效能提升了 20%–50%。騰訊進一步優化了適用於 CPU、GPU 的 vLLM 框架,並利用流水線分解、低精度 KV 快取和圖編譯器來增強跨硬體平臺的適應性和效能。

關鍵強化學習 (RL) 加速技術和訓練實踐
華為高階工程師潘晨翊分享了昇騰在強化學習和生態發展方面的突破。針對 RL 系統資源利用率低的挑戰,他介紹了一種訓練-推理協同卡解決方案,可以高效地在兩個任務之間切換。這種方法不僅節省了 50% 的計算資源,還使單卡吞吐量翻倍,並將推理記憶體可用性提高了 80%。為了豐富技術生態,昇騰還推出了 TransferDock,一個流式資料引擎,它採用動態負載均衡策略,與傳統快取機制相比,任務效率提高了 10% 以上。
在框架方面,MindSpeed-RL 將 MindSpeed 訓練後端與 vLLM 推理引擎相結合,支援動態權重分割槽和叢集資源時分,同時保持與主流開源生態系統的相容性。使用 Qwen2.5-32B 模型進行的基準測試顯示,該設定在 MATH500 等評估中優於 SimpleRL-Zoo 基線,展示了其技術領先性。

Ray 在螞蟻集團 AI 基礎設施生態系統中的實踐與探索
螞蟻集團高階技術專家、螞蟻 Ray 負責人朱森林分享了 Ray 在螞蟻 AI 基礎設施生態系統中的實踐與探索。他概述了 Ray 的架構設計和程式設計正規化。隨著時間的推移,Ray 已發展成為 AI 系統的關鍵基礎設施,支援訓練、推理、超引數調優和強化學習。
自 2017 年以來,螞蟻集團持續投入 Ray,目前已支援 200 萬核規模的應用。螞蟻還為社群貢獻了多租戶支援和 Flow Insight 視覺化除錯工具等關鍵功能。特別是 Flow Insight 緩解了複雜 AI 系統中的“黑箱”問題,顯著提高了大規模部署的可觀測性和效率。

PyTorch 生態系統加速器開發中的挑戰與標準化
來自華為的社群開發者宗澤生系統地概述了 PyTorch 生態系統加速器開發中的挑戰、解決方案和案例研究。整合非官方硬體的開發者面臨版本相容性問題和缺乏標準化質量基準,導致難以量化新裝置支援。2025 年初,PyTorch 社群成立了一個新的探索小組來解決這些挑戰。
主要改進包括:建立使用公共倉庫 pytorch-fdn/oota 的標準化測試框架,用於日常外掛測試。開發 OpenReg 模組來模擬後端行為並用測試用例進行驗證。最佳化 PrivateUse1 外掛機制以降低整合複雜性。支援自動外掛載入以簡化裝置訪問。改進 torch.accelerator 裝置無關 API 以實現更廣泛的相容性。

英特爾社群開發者王傳奇隨後介紹了使用英特爾 Gaudi 整合和執行 CI 基礎設施的案例研究。他描述瞭如何利用 CI 從程式碼編譯和單元測試到 TorchBench 自動化基準測試,確保新後端整合的質量。他還指出,計劃縮短測試時間,明確所需的測試專案,並定義質量標準,以提高生態系統相容性和開發效率。

本次 PyTorch 見面會作為深入開發者交流的技術橋樑,展現了 PyTorch 生態系統在 AI 前沿領域的蓬勃活力。透過多元的視角,與會者描繪了開源協作如何推動技術進步的圖景。我們期待更多開發者加入這場開放繁榮的創新浪潮,在智慧時代,每一次交流都能激發新的火花。
