快捷方式

torchaudio.compliance.kaldi.fbank

torchaudio.compliance.kaldi.fbank(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, min_duration: float =0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, use_log_fbank: bool = True, use_power: bool = True, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') Tensor[source]

從原始音訊訊號建立 fbank。這與 Kaldi 的 compute-fbank-feats 的輸入/輸出匹配。

引數:
  • waveform (Tensor) – 大小為 (c, n) 的音訊 Tensor,其中 c 在 [0, 2) 範圍內

  • blackman_coeff (float, optional) – 廣義 Blackman 視窗的常數係數。(預設值: 0.42)

  • channel (int, optional) – 要提取的通道(-1 -> 期望單聲道,0 -> 左聲道,1 -> 右聲道)。(預設值: -1)

  • dither (float, optional) – 抖動常數(0.0 表示無抖動)。如果關閉此選項,應設定 energy_floor 選項,例如設為 1.0 或 0.1。(預設值: 0.0)

  • energy_floor (float, optional) – 計算聲譜圖時能量的下限(絕對值,非相對值)。注意:此下限應用於代表總訊號能量的第零個分量。單個聲譜圖元素的下限固定為 std::numeric_limits<float>::epsilon()。(預設值: 1.0)

  • frame_length (float, optional) – 幀長(毫秒)。(預設值: 25.0)

  • frame_shift (float, optional) – 幀移(毫秒)。(預設值: 10.0)

  • high_freq (float, optional) – Mel bins 的高截止頻率(如果 <= 0,則為奈奎斯特頻率的偏移量)。(預設值: 0.0)

  • htk_compat (bool, optional) – 如果為 True,將能量放在最後。警告:不足以獲得 HTK 相容的特徵(需要更改其他引數)。(預設值: False)

  • low_freq (float, optional) – Mel bins 的低截止頻率。(預設值: 20.0)

  • min_duration (float, optional) – 要處理的段的最小持續時間(秒)。(預設值: 0.0)

  • num_mel_bins (int, optional) – 三角形 mel 頻率 bins 的數量。(預設值: 23)

  • preemphasis_coefficient (float, optional) – 用於訊號預加重的係數。(預設值: 0.97)

  • raw_energy (bool, optional) – 如果為 True,在預加重和加窗之前計算能量。(預設值: True)

  • remove_dc_offset (bool, optional) – 在每一幀中從波形中減去均值。(預設值: True)

  • round_to_power_of_two (bool, optional) – 如果為 True,透過對 FFT 輸入進行零填充,將視窗大小四捨五入到二的冪。(預設值: True)

  • sample_frequency (float, optional) – 波形資料取樣頻率(必須與波形檔案中的指定頻率匹配)。(預設值: 16000.0)

  • snip_edges (bool, optional) – 如果為 True,透過僅輸出完全適合檔案中的幀來處理邊緣效應,且幀數取決於 frame_length。如果為 False,幀數僅取決於 frame_shift,並且我們在末端反射資料。(預設值: True)

  • subtract_mean (bool, optional) – 減去每個特徵檔案的均值 [CMS];不推薦使用這種方法。(預設值: False)

  • use_energy (bool, optional) – 在 FBANK 輸出中新增一個包含能量的額外維度。(預設值: False)

  • use_log_fbank (bool, optional) – 如果為 True,生成對數濾波器組;否則生成線性濾波器組。(預設值: True)

  • use_power (bool, optional) – 如果為 True,使用功率;否則使用幅度。(預設值: True)

  • vtln_high (float, optional) – 分段線性 VTLN 扭曲函式中的高拐點(如果為負,則為高 mel 頻率的偏移量)。(預設值: -500.0)

  • vtln_low (float, optional) – 分段線性 VTLN 扭曲函式中的低拐點。(預設值: 100.0)

  • vtln_warp (float, optional) – VTLN 扭曲因子(僅在未指定 vtln_map 時適用)。(預設值: 1.0)

  • window_type (str, optional) – 視窗型別(‘hamming’|’hanning’|’povey’|’rectangular’|’blackman’)。(預設值: 'povey')

返回:

一個與 Kaldi 輸出完全相同的 fbank。形狀為 (m, num_mel_bins + use_energy),其中 m 在 _get_strided 中計算得到。

返回型別:

Tensor

使用 fbank 的教程
ASR Inference with CUDA CTC Decoder

使用 CUDA CTC 解碼器進行 ASR 推理

使用 CUDA CTC 解碼器進行 ASR 推理

文件

訪問 PyTorch 的綜合開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源