快捷方式

ConvTasNet

torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[源]

Conv-TasNet 架構,由 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo 和 Mesgarani, 2019] 中提出。

注意

此實現對應於論文中的“非因果”設定。

另請參閱

引數
  • num_sources (int, 可選) – 要分離的源數量。

  • enc_kernel_size (int, 可選) – 編碼器/解碼器的卷積核大小,

  • enc_num_feats (int, 可選) – 傳遞給掩碼生成器的特徵維度,

  • msk_kernel_size (int, 可選) – 掩碼生成器的卷積核大小,

  • msk_num_feats (int, 可選) – 掩碼生成器中卷積塊的輸入/輸出特徵維度,

  • msk_num_hidden_feats (int, 可選) – 掩碼生成器中卷積塊的內部特徵維度,

  • msk_num_layers (int, 可選) – 掩碼生成器中一個卷積塊的層數,

  • msk_num_stacks (int, 可選) – 掩碼生成器中卷積塊的數量,

  • msk_activate (str, 可選) – 掩碼輸出的啟用函式(預設值:sigmoid)。

方法

forward

ConvTasNet.forward(input: Tensor) Tensor[源]

執行源分離。生成音訊源波形。

引數

輸入 (torch.Tensor) – 形狀為 [batch, channel==1, frames] 的 3D Tensor

返回

形狀為 [batch, channel==num_sources, frames] 的 3D Tensor

返回型別

Tensor

工廠函式

conv_tasnet_base

構建 ConvTasNet 的非因果版本。


© 版權所有 2024, Torchaudio 貢獻者。

使用 Sphinx 構建,主題由 Read the Docs 提供。

文件

訪問 PyTorch 的完整開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源