torchaudio.compliance.kaldi.fbank¶
- torchaudio.compliance.kaldi.fbank(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, min_duration: float =0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, use_log_fbank: bool = True, use_power: bool = True, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') Tensor[source]¶
從原始音訊訊號建立 fbank。這與 Kaldi 的 compute-fbank-feats 的輸入/輸出匹配。
- 引數:
waveform (Tensor) – 大小為 (c, n) 的音訊 Tensor,其中 c 在 [0, 2) 範圍內
blackman_coeff (float, optional) – 廣義 Blackman 視窗的常數係數。(預設值:
0.42)channel (int, optional) – 要提取的通道(-1 -> 期望單聲道,0 -> 左聲道,1 -> 右聲道)。(預設值:
-1)dither (float, optional) – 抖動常數(0.0 表示無抖動)。如果關閉此選項,應設定 energy_floor 選項,例如設為 1.0 或 0.1。(預設值:
0.0)energy_floor (float, optional) – 計算聲譜圖時能量的下限(絕對值,非相對值)。注意:此下限應用於代表總訊號能量的第零個分量。單個聲譜圖元素的下限固定為 std::numeric_limits<float>::epsilon()。(預設值:
1.0)frame_length (float, optional) – 幀長(毫秒)。(預設值:
25.0)frame_shift (float, optional) – 幀移(毫秒)。(預設值:
10.0)high_freq (float, optional) – Mel bins 的高截止頻率(如果 <= 0,則為奈奎斯特頻率的偏移量)。(預設值:
0.0)htk_compat (bool, optional) – 如果為 True,將能量放在最後。警告:不足以獲得 HTK 相容的特徵(需要更改其他引數)。(預設值:
False)low_freq (float, optional) – Mel bins 的低截止頻率。(預設值:
20.0)min_duration (float, optional) – 要處理的段的最小持續時間(秒)。(預設值:
0.0)num_mel_bins (int, optional) – 三角形 mel 頻率 bins 的數量。(預設值:
23)preemphasis_coefficient (float, optional) – 用於訊號預加重的係數。(預設值:
0.97)raw_energy (bool, optional) – 如果為 True,在預加重和加窗之前計算能量。(預設值:
True)remove_dc_offset (bool, optional) – 在每一幀中從波形中減去均值。(預設值:
True)round_to_power_of_two (bool, optional) – 如果為 True,透過對 FFT 輸入進行零填充,將視窗大小四捨五入到二的冪。(預設值:
True)sample_frequency (float, optional) – 波形資料取樣頻率(必須與波形檔案中的指定頻率匹配)。(預設值:
16000.0)snip_edges (bool, optional) – 如果為 True,透過僅輸出完全適合檔案中的幀來處理邊緣效應,且幀數取決於 frame_length。如果為 False,幀數僅取決於 frame_shift,並且我們在末端反射資料。(預設值:
True)subtract_mean (bool, optional) – 減去每個特徵檔案的均值 [CMS];不推薦使用這種方法。(預設值:
False)use_energy (bool, optional) – 在 FBANK 輸出中新增一個包含能量的額外維度。(預設值:
False)use_log_fbank (bool, optional) – 如果為 True,生成對數濾波器組;否則生成線性濾波器組。(預設值:
True)use_power (bool, optional) – 如果為 True,使用功率;否則使用幅度。(預設值:
True)vtln_high (float, optional) – 分段線性 VTLN 扭曲函式中的高拐點(如果為負,則為高 mel 頻率的偏移量)。(預設值:
-500.0)vtln_low (float, optional) – 分段線性 VTLN 扭曲函式中的低拐點。(預設值:
100.0)vtln_warp (float, optional) – VTLN 扭曲因子(僅在未指定 vtln_map 時適用)。(預設值:
1.0)window_type (str, optional) – 視窗型別(‘hamming’|’hanning’|’povey’|’rectangular’|’blackman’)。(預設值:
'povey')
- 返回:
一個與 Kaldi 輸出完全相同的 fbank。形狀為 (m,
num_mel_bins + use_energy),其中 m 在 _get_strided 中計算得到。- 返回型別:
Tensor
- 使用
fbank的教程