快捷方式

ConformerWav2Vec2PretrainModel

class torchaudio.prototype.models.ConformerWav2Vec2PretrainModel(wav2vec2: Wav2Vec2Model, mask_generator: Module, negative_sampler: Module)[source]

用於從頭開始訓練的 Conformer Wav2Vec2 預訓練模型。

注意

要構建模型,請使用以下工廠函式之一:conformer_wav2vec2_base()conformer_wav2vec2_large()

引數:
  • wav2vec2 (nn.Module) – 基於 Conformer 的 Wav2Vec2 模型,包括特徵提取器和 Conformer 編碼器元件。

  • mask_generator (nn.Module) – 用於在訓練期間為 masked prediction 生成掩碼的掩碼生成器。

  • negative_sampler (nn.Module) – 在掩碼後應用的負取樣器。

方法¶

forward¶

ConformerWav2Vec2PretrainModel.forward(features: Tensor, audio_lengths: Optional[Tensor] = None) Tuple[Tensor, Optional[Tensor], Tensor, Tensor][source]
引數:
  • features (Tensor) – 形狀為 (batch, frame, dim) 的音訊特徵張量。

  • audio_lengths (TensorNone, 可選) – 批次中每個有效音訊的有效長度張量。形狀:(batch, ) (預設值:None)

返回值:

Tensor

形狀為 (batch, frame dim) 的機率分佈的掩碼序列。

Tensor 或 None

如果提供了 lengths 引數,則返回一個形狀為 (batch, ) 的張量,表示時間軸上的有效長度。

Tensor

掩碼索引。

Tensor

目標值,在負取樣之前。

Tensor

負樣本。

Tensor

負樣本的索引。

返回型別:

(Tensor, Optional[Tensor], Tensor, Tensor, Tensor, Tensor)

工廠函式¶

conformer_wav2vec2_pretrain_model

構建一個用於預訓練的自定義 Conformer Wav2Vec2 模型

conformer_wav2vec2_pretrain_base

使用 Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks 中“小型”架構構建用於預訓練的 Conformer Wav2Vec2 模型 [Srivastava , 2022]

conformer_wav2vec2_pretrain_large

使用 Conformer-Based Slef-Supervised Learning for Non-Speech Audio Tasks 中“大型”架構構建用於預訓練的 Conformer Wav2Vec2 模型 [Srivastava , 2022]

文件

查閱 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源