• 文件 >
  • torchaudio.models >
  • 舊版本 (穩定)
快捷方式

torchaudio.models

torchaudio.models 子包包含了用於解決常見音訊任務的模型定義。

注意

對於帶有預訓練引數的模型,請參考 torchaudio.pipelines 模組。

模型定義負責構建計算圖並執行它們。

有些模型結構複雜且存在變體。對於此類模型,提供了工廠函式。

Conformer

Conformer 架構引入於《Conformer: 用於語音識別的卷積增強型 Transformer》[Gulati 等,2020]

ConvTasNet

Conv-TasNet 架構引入於《Conv-TasNet: 在語音分離中超越理想時頻幅度掩蔽》[Luo 和 Mesgarani, 2019]

DeepSpeech

DeepSpeech 架構引入於《Deep Speech: 擴充套件端到端語音識別》[Hannun 等,2014]

Emformer

Emformer 架構引入於《Emformer: 用於低延遲流式語音識別的基於高效記憶體 Transformer 的聲學模型》[Shi 等,2021]

HDemucs

Hybrid Demucs 模型源自《混合頻譜圖與波形源分離》[Défossez, 2021]

HuBERTPretrainModel

HuBERT 模型用於《HuBERT》中的預訓練 [Hsu 等,2021]

RNNT

迴圈神經網路換能器 (RNN-T) 模型。

RNNTBeamSearch

RNN-T 模型的 Beam Search 解碼器。

SquimObjective

語音質量和可懂度測量 (SQUIM) 模型,用於預測語音增強的客觀度量分數(例如,STOI、PESQ 和 SI-SDR)。

SquimSubjective

語音質量和可懂度測量 (SQUIM) 模型,用於預測語音增強的主觀度量分數(例如,平均意見得分 (MOS))。

Tacotron2

Tacotron2 模型源自《透過以 Mel 頻譜圖預測為條件進行自然 TTS 合成》[Shen 等,2018],基於 Nvidia Deep Learning Examples 的實現。

Wav2Letter

Wav2Letter 模型架構源自《Wav2Letter: 一種基於 ConvNet 的端到端語音識別系統》[Collobert 等,2016]

Wav2Vec2Model

《wav2vec 2.0》中使用的聲學模型 [Baevski 等,2020]

WaveRNN

WaveRNN 模型源自《高效神經音訊合成》[Kalchbrenner 等,2018],基於 fatchord/WaveRNN 的實現。

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源