torchaudio.prototype.pipelines¶
pipelines 子包包含帶有預訓練權重和相關工具的模型的 API。
RNN-T 流式/非流式 ASR¶
預訓練模型¶
基於 Emformer-RNNT 的預訓練 ASR pipeline,能夠執行流式和非流式推理。 |
|
基於 Emformer-RNNT 的預訓練 ASR pipeline,能夠執行流式和非流式推理。 |
HiFiGAN Vocoder¶
介面¶
HiFiGANVocoderBundle 定義了 HiFiGAN Vocoder pipeline,能夠將 mel 頻譜圖轉換為波形。
用於捆綁關聯資訊以使用預訓練 |
預訓練模型¶
HiFiGAN Vocoder pipeline,在 The LJ Speech Dataset [Ito and Johnson, 2017] 上訓練。 |
VGGish¶
介面¶
從 torchvggish 和 tensorflow-models 移植的 VGGish [Hershey et al., 2017] 推理 pipeline。 |
|
VGGish 模型 [Hershey et al., 2017] 的實現。 |
|
將原始波形轉換為批處理示例,用作 VGGish 的輸入。 |
預訓練模型¶
從 torchvggish 和 tensorflow-models 移植的預訓練 VGGish [Hershey et al., 2017] 推理 pipeline。 |