快捷方式

HIFIGAN_VOCODER_V3_LJSPEECH

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN Vocoder 管道,在 The LJ Speech Dataset 上訓練而成 [Ito 和 Johnson, 2017]

該管道可與從文字生成梅爾譜圖的外部元件配合使用,例如 Tacotron2 - 參見 HiFiGANVocoderBundle 中的示例。儘管這與現有的 Tacotron2 捆綁包(Bundle)配合使用,但為了獲得最佳結果,需要使用與訓練 HiFiGAN 時相同的資料預處理管道重新訓練 Tacotron2。特別是,原始的 HiFiGAN 實現使用了一種自定義方法從波形生成梅爾譜圖,這與 torchaudio.transforms.MelSpectrogram 不同。我們將此變換重新實現為 HiFiGANVocoderBundle.get_mel_transform(),確保它與原始 HiFiGAN 程式碼 here 等效。

底層聲碼器由 torchaudio.prototype.models.hifigan_vocoder() 構建。權重是從原始論文 [Kong 等人, 2020] 根據 MIT License 釋出的權重轉換而來。請參閱 GitHub 上預訓練模型的連結。

請參閱 HiFiGANVocoderBundle 以獲取使用說明。

文件

訪問 PyTorch 的完整開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並解答疑問

檢視資源