快捷方式

Wav2Vec2Bundle

class torchaudio.pipelines.Wav2Vec2Bundle[source]

捆綁使用預訓練 Wav2Vec2Model 所需關聯資訊的資料類。

該類提供了例項化預訓練模型的介面,以及檢索預訓練權重和與模型一起使用的附加資料所需的資訊。

Torchaudio 庫例項化該類的物件,每個物件代表一個不同的預訓練模型。客戶端程式碼應透過這些例項訪問預訓練模型。

請參閱下方瞭解用法和可用值。

示例 - 特徵提取
>>> import torchaudio
>>>
>>> bundle = torchaudio.pipelines.HUBERT_BASE
>>>
>>> # Build the model and load pretrained weight.
>>> model = bundle.get_model()
Downloading:
100%|███████████████████████████████| 360M/360M [00:06<00:00, 60.6MB/s]
>>>
>>> # Resample audio to the expected sampling rate
>>> waveform = torchaudio.functional.resample(waveform, sample_rate, bundle.sample_rate)
>>>
>>> # Extract acoustic features
>>> features, _ = model.extract_features(waveform)

屬性

取樣率

property Wav2Vec2Bundle.sample_rate: float

模型訓練時使用的音訊取樣率。

型別:

float

方法

get_model

Wav2Vec2Bundle.get_model(*, dl_kwargs=None) Module[source]

構建模型並載入預訓練權重。

權重檔案從網際網路下載並使用 torch.hub.load_state_dict_from_url() 快取。

引數:

dl_kwargs (關鍵字引數字典) – 傳遞給 torch.hub.load_state_dict_from_url()

返回:

Wav2Vec2Model 的變體。

對於下方列出的模型,會對輸入執行額外的層歸一化。

對於所有其他模型,返回一個 Wav2Vec2Model 例項。

  • WAV2VEC2_LARGE_LV60K

  • WAV2VEC2_ASR_LARGE_LV60K_10M

  • WAV2VEC2_ASR_LARGE_LV60K_100H

  • WAV2VEC2_ASR_LARGE_LV60K_960H

  • WAV2VEC2_XLSR53

  • WAV2VEC2_XLSR_300M

  • WAV2VEC2_XLSR_1B

  • WAV2VEC2_XLSR_2B

  • HUBERT_LARGE

  • HUBERT_XLARGE

  • HUBERT_ASR_LARGE

  • HUBERT_ASR_XLARGE

  • WAVLM_LARGE


© 版權所有 2024, Torchaudio 貢獻者。

使用 Sphinx 構建,主題由 Read the Docs 提供。

文件

訪問 PyTorch 的完整開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得解答

檢視資源