torchaudio.models¶
torchaudio.models 子包包含了用於解決常見音訊任務的模型定義。
注意
對於帶有預訓練引數的模型,請參考 torchaudio.pipelines 模組。
模型定義負責構建計算圖並執行它們。
有些模型結構複雜且存在變體。對於此類模型,提供了工廠函式。
Conformer 架構引入於《Conformer: 用於語音識別的卷積增強型 Transformer》[Gulati 等,2020]。 |
|
Conv-TasNet 架構引入於《Conv-TasNet: 在語音分離中超越理想時頻幅度掩蔽》[Luo 和 Mesgarani, 2019]。 |
|
DeepSpeech 架構引入於《Deep Speech: 擴充套件端到端語音識別》[Hannun 等,2014]。 |
|
Emformer 架構引入於《Emformer: 用於低延遲流式語音識別的基於高效記憶體 Transformer 的聲學模型》[Shi 等,2021]。 |
|
Hybrid Demucs 模型源自《混合頻譜圖與波形源分離》[Défossez, 2021]。 |
|
HuBERT 模型用於《HuBERT》中的預訓練 [Hsu 等,2021]。 |
|
迴圈神經網路換能器 (RNN-T) 模型。 |
|
RNN-T 模型的 Beam Search 解碼器。 |
|
語音質量和可懂度測量 (SQUIM) 模型,用於預測語音增強的客觀度量分數(例如,STOI、PESQ 和 SI-SDR)。 |
|
語音質量和可懂度測量 (SQUIM) 模型,用於預測語音增強的主觀度量分數(例如,平均意見得分 (MOS))。 |
|
Tacotron2 模型源自《透過以 Mel 頻譜圖預測為條件進行自然 TTS 合成》[Shen 等,2018],基於 Nvidia Deep Learning Examples 的實現。 |
|
Wav2Letter 模型架構源自《Wav2Letter: 一種基於 ConvNet 的端到端語音識別系統》[Collobert 等,2016]。 |
|
《wav2vec 2.0》中使用的聲學模型 [Baevski 等,2020]。 |
|
WaveRNN 模型源自《高效神經音訊合成》[Kalchbrenner 等,2018],基於 fatchord/WaveRNN 的實現。 |