torchaudio.models¶

torchaudio.models 子包包含了用於解決常見音訊任務的模型定義。

注意

對於帶有預訓練引數的模型，請參考 torchaudio.pipelines 模組。

模型定義負責構建計算圖並執行它們。

有些模型結構複雜且存在變體。對於此類模型，提供了工廠函式。

`Conformer`	Conformer 架構引入於《Conformer: 用於語音識別的卷積增強型 Transformer》[Gulati 等，2020]。
`ConvTasNet`	Conv-TasNet 架構引入於《Conv-TasNet: 在語音分離中超越理想時頻幅度掩蔽》[Luo 和 Mesgarani, 2019]。
`DeepSpeech`	DeepSpeech 架構引入於《Deep Speech: 擴充套件端到端語音識別》[Hannun 等，2014]。
`Emformer`	Emformer 架構引入於《Emformer: 用於低延遲流式語音識別的基於高效記憶體 Transformer 的聲學模型》[Shi 等，2021]。
`HDemucs`	Hybrid Demucs 模型源自《混合頻譜圖與波形源分離》[Défossez, 2021]。
`HuBERTPretrainModel`	HuBERT 模型用於《HuBERT》中的預訓練 [Hsu 等，2021]。
`RNNT`	迴圈神經網路換能器 (RNN-T) 模型。
`RNNTBeamSearch`	RNN-T 模型的 Beam Search 解碼器。
`SquimObjective`	語音質量和可懂度測量 (SQUIM) 模型，用於預測語音增強的客觀度量分數（例如，STOI、PESQ 和 SI-SDR）。
`SquimSubjective`	語音質量和可懂度測量 (SQUIM) 模型，用於預測語音增強的主觀度量分數（例如，平均意見得分 (MOS)）。
`Tacotron2`	Tacotron2 模型源自《透過以 Mel 頻譜圖預測為條件進行自然 TTS 合成》[Shen 等，2018]，基於 Nvidia Deep Learning Examples 的實現。
`Wav2Letter`	Wav2Letter 模型架構源自《Wav2Letter: 一種基於 ConvNet 的端到端語音識別系統》[Collobert 等，2016]。
`Wav2Vec2Model`	《wav2vec 2.0》中使用的聲學模型 [Baevski 等，2020]。
`WaveRNN`	WaveRNN 模型源自《高效神經音訊合成》[Kalchbrenner 等，2018]，基於 fatchord/WaveRNN 的實現。

torchaudio.models¶

文件

教程

資源