torchaudio.compliance.kaldi.fbank¶

torchaudio.compliance.kaldi.fbank(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, min_duration: float =0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, use_log_fbank: bool = True, use_power: bool = True, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') → Tensor[source]¶

從原始音訊訊號建立 fbank。這與 Kaldi 的 compute-fbank-feats 的輸入/輸出匹配。

引數:

waveform (Tensor) – 大小為 (c, n) 的音訊 Tensor，其中 c 在 [0, 2) 範圍內
blackman_coeff (float, optional) – 廣義 Blackman 視窗的常數係數。(預設值: 0.42)
channel (int, optional) – 要提取的通道（-1 -> 期望單聲道，0 -> 左聲道，1 -> 右聲道）。(預設值: -1)
dither (float, optional) – 抖動常數（0.0 表示無抖動）。如果關閉此選項，應設定 energy_floor 選項，例如設為 1.0 或 0.1。(預設值: 0.0)
energy_floor (float, optional) – 計算聲譜圖時能量的下限（絕對值，非相對值）。注意：此下限應用於代表總訊號能量的第零個分量。單個聲譜圖元素的下限固定為 std::numeric_limits<float>::epsilon()。(預設值: 1.0)
frame_length (float, optional) – 幀長（毫秒）。(預設值: 25.0)
frame_shift (float, optional) – 幀移（毫秒）。(預設值: 10.0)
high_freq (float, optional) – Mel bins 的高截止頻率（如果 <= 0，則為奈奎斯特頻率的偏移量）。(預設值: 0.0)
htk_compat (bool, optional) – 如果為 True，將能量放在最後。警告：不足以獲得 HTK 相容的特徵（需要更改其他引數）。(預設值: False)
low_freq (float, optional) – Mel bins 的低截止頻率。(預設值: 20.0)
min_duration (float, optional) – 要處理的段的最小持續時間（秒）。(預設值: 0.0)
num_mel_bins (int, optional) – 三角形 mel 頻率 bins 的數量。(預設值: 23)
preemphasis_coefficient (float, optional) – 用於訊號預加重的係數。(預設值: 0.97)
raw_energy (bool, optional) – 如果為 True，在預加重和加窗之前計算能量。(預設值: True)
remove_dc_offset (bool, optional) – 在每一幀中從波形中減去均值。(預設值: True)
round_to_power_of_two (bool, optional) – 如果為 True，透過對 FFT 輸入進行零填充，將視窗大小四捨五入到二的冪。(預設值: True)
sample_frequency (float, optional) – 波形資料取樣頻率（必須與波形檔案中的指定頻率匹配）。(預設值: 16000.0)
snip_edges (bool, optional) – 如果為 True，透過僅輸出完全適合檔案中的幀來處理邊緣效應，且幀數取決於 frame_length。如果為 False，幀數僅取決於 frame_shift，並且我們在末端反射資料。(預設值: True)
subtract_mean (bool, optional) – 減去每個特徵檔案的均值 [CMS]；不推薦使用這種方法。(預設值: False)
use_energy (bool, optional) – 在 FBANK 輸出中新增一個包含能量的額外維度。(預設值: False)
use_log_fbank (bool, optional) – 如果為 True，生成對數濾波器組；否則生成線性濾波器組。(預設值: True)
use_power (bool, optional) – 如果為 True，使用功率；否則使用幅度。(預設值: True)
vtln_high (float, optional) – 分段線性 VTLN 扭曲函式中的高拐點（如果為負，則為高 mel 頻率的偏移量）。(預設值: -500.0)
vtln_low (float, optional) – 分段線性 VTLN 扭曲函式中的低拐點。(預設值: 100.0)
vtln_warp (float, optional) – VTLN 扭曲因子（僅在未指定 vtln_map 時適用）。(預設值: 1.0)
window_type (str, optional) – 視窗型別（‘hamming’|’hanning’|’povey’|’rectangular’|’blackman’）。(預設值: 'povey')

返回:

一個與 Kaldi 輸出完全相同的 fbank。形狀為 (m, num_mel_bins + use_energy)，其中 m 在 _get_strided 中計算得到。

返回型別:

Tensor

使用 fbank 的教程: 使用 CUDA CTC 解碼器進行 ASR 推理

使用 CUDA CTC 解碼器進行 ASR 推理

torchaudio.compliance.kaldi.fbank¶

文件

教程

資源