滑動視窗CMN¶

類 torchaudio.transforms.SlidingWindowCmn(cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False)[原始碼]¶

對每個話語應用滑動視窗倒譜均值（以及可選的方差）歸一化。

引數:

cmn_window (int, 可選) – 用於計算執行平均 CMN 的幀視窗 (int, 預設值 = 600)
min_cmn_window (int, 可選) – 解碼開始時使用的最小 CMN 視窗（僅在開始時增加延遲）。僅當 center == false 時適用，如果 center == true 則忽略 (int, 預設值 = 100)
center (bool, 可選) – 如果為 true，則使用以當前幀為中心的視窗（儘可能，考慮末端效應）。如果為 false，則視窗位於左側。(bool, 預設值 = false)
norm_vars (bool, 可選) – 如果為 true，則將方差歸一化為 1。(bool, 預設值 = false)

示例

>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.SlidingWindowCmn(cmn_window=1000)
>>> cmn_waveform = transform(waveform)

forward(specgram: Tensor) → Tensor[原始碼]¶

引數:: specgram (Tensor) – 維度為 (…, 時間, 頻率) 的語譜圖 Tensor。
返回:: 維度為 (…, 時間, 頻率) 的語譜圖 Tensor。
返回型別:: Tensor

滑動視窗CMN¶

文件

教程

資源