GTC 將於 2025 年 3 月 17 日至 21 日重返聖何塞。加入 PyTorch 基金會成員 Arm、AWS、Google Cloud、IBM、Lightning AI、Meta、Microsoft Azure、Snowflake 以及數千名開發者,共同慶祝 PyTorch。一起了解 AI 和加速計算如何幫助人類解決最複雜的挑戰。
透過 PyTorch 基金會的折扣 GTC 註冊親自參加,或免費線上觀看。

擴充套件開源 AI:從基礎模型到生態系統成功
聽取 PyTorch 基金會執行董事 Matt White 以及來自加州大學伯克利分校、Meta、NVIDIA 和 Sequoia Capital 的小組成員討論開源如何改變 AI 開發,彙集了來自工業界、學術界和風險投資界的專家,討論協作式開源 AI 開發的技術和商業方面。他們將探討 PyTorch、vLLM、Ray 和 NVIDIA 的 NeMo 等開源專案如何加速 AI 創新,同時為企業和研究人員創造新機遇。他們將分享 PyTorch 開發、伯克利研究計劃和成功的 AI 初創公司的真實經驗。獲取有關開源 AI 的技術和商業方面的寶貴見解。——太平洋時間 3 月 17 日星期一上午 10:00 - 上午 11:00
PyTorch @ GTC
CUDA 的效能與 PyTorch 的靈活性
Mark Saroufim,Meta Platforms 軟體工程師
本次演講探討了 PyTorch 使用者如何也成為 CUDA 開發者。我們將從 eager、torch.compile 的釋出以及最近核心動物園的趨勢中尋找激勵性示例。我們將分享有關如何在 torchao 和 torch.compile CUTLASS 後端中整合低位矩陣乘法的詳細資訊。我們還將討論如何在 PyTorch 中定義、構建和打包您自己的自定義操作,以便您在保持 PyTorch 靈活性的同時獲得 CUDA 的原始效能。
讓我的 PyTorch 模型快速執行,並告訴我你是如何做到的
Thomas Viehmann,Lightning AI 首席研究工程師
Luca Antiga,Lightning AI 首席技術官
PyTorch 因其豐富的表達能力和易用性而在深度學習和 LLM 中廣受歡迎。為了充分利用計算資源,PyTorch 模型受益於非平凡的最佳化,但這會使其失去一些易用性和可理解性。瞭解如何使用 Thunder,一個專注於可用性、可理解性和可擴充套件性的 PyTorch-to-Python 編譯器,您可以最佳化和轉換(即,分發到多臺機器)模型,同時 • 保持 PyTorch 程式碼不變 • 針對各種模型而無需適應每個模型 • 理解每個轉換步驟,因為結果以簡單的 Python 程式碼呈現 • 只需一兩行程式碼即可訪問強大的擴充套件程式碼進行您自己的最佳化。我們將展示 Thunder 轉換和 NVIDIA 堆疊(NVFuser、cuDNN、Apex)的組合如何在一系列模型上提供訓練和推理的最佳化效能。
FlexAttention:PyTorch 的靈活性與 FlashAttention 的效能
Driss Guessous,Meta Platforms 機器學習工程師
介紹 FlexAttention:一種新穎的 PyTorch API,可實現自定義、使用者定義的注意力機制,其效能可與最先進的解決方案相媲美。透過利用 PyTorch 編譯器堆疊,FlexAttention 支援 SDPA 中注意力分數的動態修改,透過與 FlashAttention 演算法的核心融合實現執行時和記憶體效率。我們對 A100 GPU 的基準測試顯示,FlexAttention 在前向傳播中達到 FlashAttention2 效能的 90%,在後向傳播中達到 85%。在 H100 GPU 上,FlexAttention 的前向性能平均為 FlashAttention3 的 85%,比 FlashAttention2 快約 25%,而後向性能平均為 FlashAttention3 的 76%,比 FlashAttention2 快約 3%。探索 FlexAttention 如何在接近最先進的效能與無與倫比的靈活性之間取得平衡,使研究人員能夠在不犧牲效率的情況下快速迭代注意力機制。
讓你的 GPU 持續加速:粉碎模型訓練中的空白時間
Syed Ahmed,NVIDIA 高階軟體工程師
Alban Desmaison,Meta 研究工程師
Aidyn Aitzhan,NVIDIA 高階軟體工程師
最近在模型訓練的計算密集型部分取得了實質性進展,例如高效能的注意力變體。雖然這些進展價值不菲,但它們也暴露了模型訓練中以前隱藏的瓶頸,例如集合通訊中的冗餘複製和資料載入時間。我們將展示 PyTorch 中透過 Meta/NVIDIA 協作取得的最新改進,以解決這些新暴露的瓶頸以及實踐者如何利用它們。
加速 Python:社群與生態系統
Andy Terrel,NVIDIA CUDA Python 產品負責人
Jeremy Tanner,NVIDIA 開源專案
Anshuman Bhat,NVIDIA CUDA 產品管理
Python 無處不在。模擬、資料科學和生成式 AI 都依賴於它。不幸的是,令人眼花繚亂的工具讓新手不知從何開始。我們將帶您參觀圍繞加速 Python 程式設計的充滿活力的社群和生態系統。探索各種工具、庫和框架,這些工具、庫和框架可實現 Python 中的高效計算和效能最佳化,包括 CUDA Python、RAPIDS、Warp 和 Legate。我們還將討論與 PyData、PyTorch 和 JAX 社群的整合點。瞭解社群內的協作努力,包括推動加速計算創新的開源專案和貢獻。我們將討論利用這些框架來提高開發 AI 驅動應用程式和進行大規模資料分析的生產力的最佳實踐。
使用 Google Cloud AI 超級計算機為大規模 AI 充電(由 Google Cloud 呈現)
Deepak Patil,Google Cloud 產品經理
Rajesh Anantharaman,Google Cloud 機器學習軟體產品管理負責人
利用 Google Cloud AI 超級計算機(專為實現最大效能和效率而設計的超級計算架構)釋放您大規模 AI 工作負載的潛力。在本次會議中,我們將深入探討 Google Cloud 上 NVIDIA GPU 的 PyTorch 和 JAX 堆疊,並展示在 Google Cloud 上構建高效能基礎模型的能力。
展望未來:AI 和圖網路對金融分析未來的意義
Siddharth Samsi,NVIDIA 高階解決方案架構師
Sudeep Kesh,標普全球首席創新官
人工智慧、智慧體系統和圖神經網路 (GNN) 正在為評估、監控和估計金融服務領域工作組合中的機遇和風險提供新的前沿。儘管許多這些技術仍在發展中,但組織渴望瞭解它們的潛力。瞭解標普全球和 NVIDIA 如何合作尋找學習和整合這些功能的實用方法,從預測公司債務發行到更深入地理解資本市場。我們將使用 PyTorch-Geometric 庫和跨越三十年以及金融和非金融行業的發行資料集,展示市場資料的圖表示。技術發展包括二分圖的生成和連結預測 GNN 預測。我們將討論資料預處理、管道、模型訓練以及這些技術如何在日益複雜的世界中拓展能力。
使用 cuDNN 在 Blackwell 上釋放深度學習效能
Yang Xu (企業產品),NVIDIA 深度學習軟體工程經理
自發布以來,cuDNN(一個用於 GPU 加速深度學習 (DL) 原語的庫)一直在為會話式 AI、推薦系統和語音識別等領域的許多 AI 應用程式提供支援。cuDNN 仍然是 PyTorch、JAX、Tensorflow 等流行框架中 DL 原語的核心庫,涵蓋訓練、微調和推理用例。即使在快速發展的生成式 AI 領域——無論是 Llama、Gemma 還是需要複雜 DL 原語(如 flash attention 變體)的專家混合變體——cuDNN 都為它們提供了動力。瞭解 cuDNN 中與 Blackwell 的微縮放格式相關的新/更新 API,以及如何針對這些 API 進行程式設計。我們將深入探討如何利用其圖 API 構建一些融合模式,例如矩陣乘法融合模式和最先進模型中的融合 flash attention。瞭解 cuDNN 中新的 CUDA 圖支援(不要與 cuDNN 圖 API 混淆)如何用於避免重建 CUDA 圖,為使用真實世界框架的 CUDA 圖捕獲提供替代方案。
使用 Lightning AI 開源堆疊快速訓練和部署 AI 系統(由 Lightning AI 呈現)
Luca Antiga,Lightning AI 首席技術官
瞭解 Lightning 堆疊如何涵蓋從資料準備到部署的整個生命週期,並提供實用示例,尤其關注分散式訓練和高效能推理。我們將展示專注於新功能的示例,例如透過 DTensors 支援多維並行,以及透過 torchao 進行量化。
與專家交流(互動環節)
與深度學習框架團隊的專家會面
Eddie Yan,NVIDIA PyTorch 技術負責人
Masaki Kozuki,NVIDIA PyTorch 高階軟體工程師
Patrick Wang (企業產品),NVIDIA PyTorch 軟體工程師
Mike Ruberry,NVIDIA 深度學習框架傑出工程師
Rishi Puri,NVIDIA 高階深度學習工程師兼 PyTorch Geometric 負責人
培訓實驗室
AI 及其他領域的核心最佳化:釋放 Nsight Compute 的力量
Felix Schmitt,NVIDIA 高階系統軟體工程師
Peter Labus,NVIDIA 高階系統軟體工程師
瞭解如何利用 Nsight Compute 強大的效能分析和分析功能,充分發揮 NVIDIA GPU 的潛力。AI 工作負載正在迅速增加對 GPU 計算的需求,確保它們高效利用所有可用的 GPU 資源至關重要。Nsight Compute 是理解核心執行行為和效能的最強大工具。學習如何配置和啟動根據您的需求定製的效能分析,包括有關分析加速 Python 應用程式、PyTorch 等 AI 框架以及最佳化 Tensor Core 利用率(對現代 AI 效能至關重要)的建議。瞭解如何除錯您的核心並使用 Nsight Compute 內建的專家系統,稱為“引導分析”,它會自動檢測常見問題並將您引導至最相關的效能資料,一直到原始碼級別。
改進檢索:為特定領域 RAG 微調嵌入模型
Gabriel Moreira,NVIDIA 高階研究科學家
Ronay Ak,NVIDIA 高階資料科學家
LLM 驅動著會話式聊天機器人和內容生成器等 AI 應用程式,但受限於其訓練資料。這可能導致內容生成中的幻覺,這需要最新或特定領域的資訊。檢索增強生成 (RAG) 透過使 LLM 能夠訪問外部上下文而無需修改模型引數來解決此問題。嵌入或密集檢索模型是 RAG 管道的關鍵元件,用於向 LLM 檢索相關上下文。然而,嵌入模型捕獲自定義資料獨特特徵的有效性取決於其訓練資料的質量和領域相關性。微調嵌入模型越來越受關注,以提供針對使用者特定領域量身定製的更準確和相關的響應。
在此實驗室中,您將學習如何從特定領域的語料庫生成帶有問答對的合成數據集,並處理資料以進行微調。然後,使用合成數據微調文字嵌入模型並對其進行評估。
海報展示
使用神經反向投影和視錐體重取樣進行單檢視 X 射線 3D 重建
Tran Minh Quan,NVIDIA 開發技術員
在醫學新 AI 領域實現新穎應用:病理切片加速特徵計算
Nils Bruenggel,羅氏診斷國際股份公司首席軟體工程師