快捷方式

頻譜圖

class torchaudio.transforms.Spectrogram(n_fft: int = 400, win_length: ~typing.Optional[int] = None, hop_length: ~typing.Optional[int] = None, pad: int = 0, window_fn: ~typing.Callable[[...], ~torch.Tensor] = <built-in method hann_window of type object>, power: ~typing.Optional[float] = 2.0, normalized: ~typing.Union[bool, str] = False, wkwargs: ~typing.Optional[dict] = None, center: bool = True, pad_mode: str = 'reflect', onesided: bool = True, return_complex: ~typing.Optional[bool] = None)[source]

從音訊訊號建立頻譜圖。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript
引數:
  • n_fft (int, 可選) – FFT 大小,建立 n_fft // 2 + 1 個 bin。(預設值:400

  • win_length (intNone, 可選) – 視窗大小。(預設值:n_fft

  • hop_length (intNone, 可選) – STFT 視窗之間的跳躍長度。(預設值:win_length // 2

  • pad (int, 可選) – 訊號的兩側填充。(預設值:0

  • window_fn (Callable[..., Tensor], 可選) – 一個用於建立視窗張量並應用於/乘以每個幀/視窗的函式。(預設值:torch.hann_window

  • power (floatNone, 可選) – 幅度頻譜的指數(必須 > 0),例如 1 表示幅度,2 表示功率等。如果為 None,則返回複數頻譜。(預設值:2

  • normalized (boolstr, 可選) – 是否在 STFT 後按幅度歸一化。如果輸入是 str,選項為 "window""frame_length",如果需要特定型別的歸一化。True 對應於 "window"。(預設值:False

  • wkwargs (dictNone, 可選) – 視窗函式的引數。(預設值:None

  • center (bool, 可選) – 是否在 waveform 的兩側填充,使得第 \(t\) 幀中心位於時間 \(t \times \text{hop\_length}\)。(預設值:True

  • pad_mode (string, 可選) – 控制當 centerTrue 時使用的填充方法。(預設值:"reflect"

  • onesided (bool, 可選) – 控制是否返回一半結果以避免冗餘(預設值:True

  • return_complex (bool, 可選) – 已棄用且未使用。

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = torchaudio.transforms.Spectrogram(n_fft=800)
>>> spectrogram = transform(waveform)
使用 Spectrogram 的教程
Audio Feature Augmentation

音訊特徵增強

音訊特徵增強
StreamWriter Basic Usage

StreamWriter 基本用法

StreamWriter 基本用法
Music Source Separation with Hybrid Demucs

使用 Hybrid Demucs 進行音樂源分離

使用 Hybrid Demucs 進行音樂源分離
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束成形進行語音增強

使用 MVDR 波束成形進行語音增強
Audio Feature Extractions

音訊特徵提取

音訊特徵提取
forward(waveform: Tensor) Tensor[source]
引數:

waveform (Tensor) – 維度為 (…, 時間) 的音訊張量。

返回:

維度為 (…, 頻率, 時間),其中頻率是 n_fft // 2 + 1n_fft 是傅立葉 bin 的數量),時間是視窗跳躍次數(幀數)。

返回型別:

Tensor

文件

訪問 PyTorch 的全面開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源