快捷方式

torchaudio.prototype.pipelines

pipelines 子包包含帶有預訓練權重和相關工具的模型的 API。

RNN-T 流式/非流式 ASR

預訓練模型

EMFORMER_RNNT_BASE_MUSTC

基於 Emformer-RNNT 的預訓練 ASR pipeline,能夠執行流式和非流式推理。

EMFORMER_RNNT_BASE_TEDLIUM3

基於 Emformer-RNNT 的預訓練 ASR pipeline,能夠執行流式和非流式推理。

HiFiGAN Vocoder

介面

HiFiGANVocoderBundle 定義了 HiFiGAN Vocoder pipeline,能夠將 mel 頻譜圖轉換為波形。

HiFiGANVocoderBundle

用於捆綁關聯資訊以使用預訓練 HiFiGANVocoder 的資料類。

預訓練模型

HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN Vocoder pipeline,在 The LJ Speech Dataset [Ito and Johnson, 2017] 上訓練。

VGGish

介面

VGGishBundle

torchvggishtensorflow-models 移植的 VGGish [Hershey et al., 2017] 推理 pipeline。

VGGishBundle.VGGish

VGGish 模型 [Hershey et al., 2017] 的實現。

VGGishBundle.VGGishInputProcessor

將原始波形轉換為批處理示例,用作 VGGish 的輸入。

預訓練模型

VGGISH

torchvggishtensorflow-models 移植的預訓練 VGGish [Hershey et al., 2017] 推理 pipeline。

文件

獲取 PyTorch 完整的開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源