torchaudio.functional.melscale_fbanks¶

torchaudio.functional.melscale_fbanks(n_freqs: int, f_min: float, f_max: float, n_mels: int, sample_rate: int, norm: Optional[str] = None, mel_scale: str = 'htk') → Tensor[原始碼]¶

建立頻率bin轉換矩陣。

注意

為了與 librosa 保持數值相容性，生成的濾波器組中的並非所有係數的幅度都為 1。

引數:

n_freqs (int) – 要突出顯示/應用的頻率數
f_min (float) – 最小頻率 (Hz)
f_max (float) – 最大頻率 (Hz)
n_mels (int) – mel 濾波器組的數量
sample_rate (int) – 音訊波形的取樣率
norm (str 或 None, 可選) – 如果為“slaney”，則將三角 mel 權重除以 mel band 的寬度（面積歸一化）。(預設值: None)
mel_scale (str, 可選) – 要使用的尺度: htk 或 slaney。(預設值: htk)

返回:

大小為 (n_freqs, n_mels) 的三角濾波器組（fb 矩陣），表示要突出顯示/應用的頻率數乘以濾波器組的數量。每一列都是一個濾波器組，因此假設存在一個大小為 (…, n_freqs) 的矩陣 A，應用後的結果將是 A @ melscale_fbanks(A.size(-1), ...)。

返回型別:

Tensor

使用 melscale_fbanks 的教程: 音訊特徵提取

音訊特徵提取

torchaudio.functional.melscale_fbanks¶

文件

教程

資源