訓練先進的深度學習模型極具挑戰性。除了模型設計,模型科學家還需要設定最先進的訓練技術,例如分散式訓練、混合精度、梯度累積和檢查點。然而,科學家可能仍然無法達到所需的系統性能和收斂速度。大型模型尺寸更具挑戰性:純資料並行下,大型模型很容易耗盡記憶體,並且難以使用模型並行。DeepSpeed 解決了這些挑戰,以加速模型開發和訓練。DeepSpeed 助力 MT-530B 和 BLOOM 等世界上最強大的語言模型。它是一個易於使用的深度學習最佳化軟體包,為訓練和推理提供前所未有的規模和速度。
DeepSpeed 由微軟於 2025 年 1 月貢獻給 Linux 基金會。