快捷方式

torchaudio.prototype.models.conformer_wav2vec2_model

torchaudio.prototype.models.conformer_wav2vec2_model(extractor_input_dim: int, extractor_output_dim: int, extractor_stride: int, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_num_layers: int, encoder_num_heads: int, encoder_ff_interm_features: int, encoder_depthwise_conv_kernel_size: Union[int, List[int]], encoder_dropout: float, encoder_convolution_first: bool, encoder_use_group_norm: bool) Wav2Vec2Model[source]

構建自定義 Conformer Wav2Vec2Model

引數:
  • extractor_input_dim (int) – 特徵的輸入維度。

  • extractor_output_dim (int) – 特徵提取後的輸出維度。

  • extractor_stride (int) – 特徵提取的時間縮減層中使用的步長。

  • encoder_embed_dim (int) – 特徵投影中嵌入的維度。

  • encoder_projection_dropout (float) – 輸入特徵投影到 embed_dim 後應用的 dropout 機率

  • encoder_num_layers (int) – 編碼器中 Conformer 層的數量。

  • encoder_num_heads (int) – 每個 Conformer 層中的頭數量。

  • encoder_ff_interm_features (int) – 每個 Conformer 層中前饋網路的隱藏層維度。

  • encoder_depthwise_conv_kernel_size (intList[int]) – 對應每個 Conformer 層的核大小列表。如果提供的是 int,則所有層將使用相同的核大小。

  • encoder_dropout (float) – 每個 Conformer 層中的 dropout 機率。

  • encoder_convolution_first (bool) – 是否在每個 Conformer 層的 attention 模組之前應用 convolution 模組。

  • encoder_use_group_norm (bool) – 是否在每個 Conformer 層的 convolution 模組中使用 GroupNorm 而非 BatchNorm1d

返回:

帶有 conformer 編碼器的生成的 wav2vec2 模型。

返回型別:

Wav2Vec2Model

文件

訪問 PyTorch 的綜合開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源