快捷方式

torchaudio.prototype.models.emformer_hubert_model

torchaudio.prototype.models.emformer_hubert_model(extractor_input_dim: int, extractor_output_dim: int, extractor_use_bias: bool, extractor_stride: int, encoder_input_dim: int, encoder_output_dim: int, encoder_num_heads: int, encoder_ffn_dim: int, encoder_num_layers: int, encoder_segment_length: int, encoder_left_context_length: int, encoder_right_context_length: int, encoder_dropout: float, encoder_activation: str, encoder_max_memory_size: int, encoder_weight_init_scale_strategy: Optional[str], encoder_tanh_on_mem: bool, aux_num_out: Optional[int]) Wav2Vec2Model[source]

構建自定義的 Emformer HuBERT 模型。

引數:
  • extractor_input_dim (int) – 特徵提取器的輸入維度。

  • extractor_output_dim (int) – 特徵提取器之後的輸出維度。

  • extractor_use_bias (bool) – 如果為 True,則在特徵提取器的線性層中啟用偏置引數。

  • extractor_stride (int) – 特徵提取器中用於輸出幀的合併幀數。

  • encoder_input_dim (int) – Emformer 層的輸入維度。

  • encoder_output_dim (int) – EmformerEncoder 之後的輸出維度。

  • encoder_num_heads (int) – 每個 Emformer 層中的注意力頭數量。

  • encoder_ffn_dim (int) – Emformer 中前饋網路的隱藏層維度。

  • encoder_num_layers (int) – 要例項化的 Emformer 層數量。

  • encoder_segment_length (int) – 每個輸入段的長度。

  • encoder_left_context_length (int) – 左側上下文長度。

  • encoder_right_context_length (int) – 右側上下文長度。

  • encoder_dropout (float) – Dropout 機率。

  • encoder_activation (str) – 每個 Emformer 層的前饋網路中使用的啟用函式。必須是 (“relu”, “gelu”, “silu”) 中的一個。

  • encoder_max_memory_size (int) – 要使用的最大記憶體元素數量。

  • encoder_weight_init_scale_strategy (str or None) – 每層權重初始化縮放策略。必須是 (“depthwise”, “constant”, None) 中的一個。

  • encoder_tanh_on_mem (bool) – 如果為 True,則將 tanh 應用於記憶體元素。

  • aux_num_out (int or None) – 提供時,在編碼器頂部附加一個額外的線性層,可用於微調。

返回值:

生成的 torchaudio.models.Wav2Vec2Model 模型,包含一個 torchaudio.models.Emformer 編碼器。

返回型別:

Wav2Vec2Model

文件

查閱 PyTorch 的全面開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源