HIFIGAN_VOCODER_V3_LJSPEECH¶

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶

HiFiGAN Vocoder 管道，在 The LJ Speech Dataset 上訓練而成 [Ito 和 Johnson, 2017]。

該管道可與從文字生成梅爾譜圖的外部元件配合使用，例如 Tacotron2 - 參見 HiFiGANVocoderBundle 中的示例。儘管這與現有的 Tacotron2 捆綁包（Bundle）配合使用，但為了獲得最佳結果，需要使用與訓練 HiFiGAN 時相同的資料預處理管道重新訓練 Tacotron2。特別是，原始的 HiFiGAN 實現使用了一種自定義方法從波形生成梅爾譜圖，這與 torchaudio.transforms.MelSpectrogram 不同。我們將此變換重新實現為 HiFiGANVocoderBundle.get_mel_transform()，確保它與原始 HiFiGAN 程式碼 here 等效。