快捷方式

TACOTRON2_WAVERNN_PHONE_LJSPEECH

torchaudio.pipelines.TACOTRON2_WAVERNN_PHONE_LJSPEECH

基於音素的文字轉語音(TTS)流水線,使用在 LJSpeech [Ito and Johnson, 2017] 上訓練了 1,500 個 epoch 的 Tacotron2,以及在 LJSpeech [Ito and Johnson, 2017] 8 位深度波形上訓練了 10,000 個 epoch 的 WaveRNN 聲碼器。

文字處理器基於音素對輸入文字進行編碼。它使用 DeepPhonemizer 將字素轉換為音素。該模型 (en_us_cmudict_forward) 在 CMUDict 上訓練。

您可以在此處找到 Tacotron2 的訓練指令碼。使用了以下引數:win_length=1100, hop_length=275, n_fft=2048, mel_fmin=40mel_fmax=11025

您可以在此處找到 WaveRNN 的訓練指令碼。

請參閱 torchaudio.pipelines.Tacotron2TTSBundle() 瞭解用法。

示例 - “Hello world! T T S stands for Text to Speech!”

Spectrogram generated by Tacotron2

示例 - “The examination and testimony of the experts enabled the Commission to conclude that five shots may have been fired,”

Spectrogram generated by Tacotron2

文件

訪問 PyTorch 的全面開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並解答您的問題

檢視資源