ConvTasNet¶

類 torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[源]¶

Conv-TasNet 架構，由 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo 和 Mesgarani, 2019] 中提出。

注意

此實現對應於論文中的“非因果”設定。

另請參閱

torchaudio.pipelines.SourceSeparationBundle：帶有預訓練模型的源分離管道。

引數：

num_sources (int, 可選) – 要分離的源數量。
enc_kernel_size (int, 可選) – 編碼器/解碼器的卷積核大小，。
enc_num_feats (int, 可選) – 傳遞給掩碼生成器的特徵維度，。
msk_kernel_size (int, 可選) – 掩碼生成器的卷積核大小，
。
msk_num_feats (int, 可選) – 掩碼生成器中卷積塊的輸入/輸出特徵維度，。
msk_num_hidden_feats (int, 可選) – 掩碼生成器中卷積塊的內部特徵維度，。
msk_num_layers (int, 可選) – 掩碼生成器中一個卷積塊的層數，。
msk_num_stacks (int, 可選) – 掩碼生成器中卷積塊的數量，。
msk_activate (str, 可選) – 掩碼輸出的啟用函式（預設值：sigmoid）。

方法¶

forward¶

ConvTasNet.forward(input: Tensor) → Tensor[源]¶

執行源分離。生成音訊源波形。

引數：: 輸入 (torch.Tensor) – 形狀為 [batch, channel==1, frames] 的 3D Tensor
返回：: 形狀為 [batch, channel==num_sources, frames] 的 3D Tensor
返回型別：: Tensor

工廠函式¶

conv_tasnet_base

構建 ConvTasNet 的非因果版本。

ConvTasNet¶

方法¶

forward¶

工廠函式¶

文件

教程

資源