HIFIGAN_VOCODER_V3_LJSPEECH¶
- torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶
- HiFiGAN Vocoder 管道,在 The LJ Speech Dataset 上訓練而成 [Ito 和 Johnson, 2017]。 - 該管道可與從文字生成梅爾譜圖的外部元件配合使用,例如 Tacotron2 - 參見 - HiFiGANVocoderBundle中的示例。儘管這與現有的 Tacotron2 捆綁包(Bundle)配合使用,但為了獲得最佳結果,需要使用與訓練 HiFiGAN 時相同的資料預處理管道重新訓練 Tacotron2。特別是,原始的 HiFiGAN 實現使用了一種自定義方法從波形生成梅爾譜圖,這與- torchaudio.transforms.MelSpectrogram不同。我們將此變換重新實現為- HiFiGANVocoderBundle.get_mel_transform(),確保它與原始 HiFiGAN 程式碼 here 等效。- 底層聲碼器由 - torchaudio.prototype.models.hifigan_vocoder()構建。權重是從原始論文 [Kong 等人, 2020] 根據 MIT License 釋出的權重轉換而來。請參閱 GitHub 上預訓練模型的連結。- 請參閱 - HiFiGANVocoderBundle以獲取使用說明。