快捷方式

torchaudio.info

torchaudio.info(uri: Union[BinaryIO, str,PathLike], format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) AudioMetaData

獲取音訊檔案的訊號資訊。

注意

當輸入型別為 file-like object 時,此函式無法獲取某些格式(例如 vorbis)的正確長度 (num_samples)。在這種情況下,num_samples 的值為 0。

引數:
  • uri (path-like objectfile-like object) –

    音訊資料來源。接受以下型別:

    • path-like: 檔案路徑或 URL。

    • file-like: 具有 read(size: int) -> bytes 方法的物件,該方法返回最多 size 長度的位元組字串。

  • format (strNone可選) – 如果不是 None,則解釋為一個提示,可能允許後端覆蓋檢測到的格式。(預設值:None)

  • buffer_size (int可選) – 處理 file-like object 時使用的緩衝區大小,以位元組為單位。(預設值:4096)

  • backend (strNone可選) –

    要使用的 I/O 後端。如果為 None,函式將根據輸入和可用後端選擇後端。否則,必須是 ["ffmpeg", "sox", "soundfile"] 之一,且相應的後端可用。(預設值:None)

    另請參閱

    後端和排程器

返回:

AudioMetaData

使用 info 的教程
Audio I/O

音訊 I/O

音訊 I/O

支援結構

AudioMetaData

class torchaudio.AudioMetaData[source]

torchaudio.info 函式的返回型別。

變數:
  • sample_rate (int) – 取樣率

  • num_frames (int) – 幀數

  • num_channels (int) – 聲道數

  • bits_per_sample (int) – 每樣本的位數。對於有損格式或無法準確推斷時,此值為 0。

  • encoding (str) –

    音訊編碼 encoding 的可能取值如下:

    • PCM_S: 有符號整數線性 PCM

    • PCM_U: 無符號整數線性 PCM

    • PCM_F: 浮點線性 PCM

    • FLAC: Flac,自由無損音訊編碼

    • ULAW: Mu-law

    • ALAW: A-law

    • MP3 : MP3,MPEG-1 Audio Layer III

    • VORBIS: OGG Vorbis

    • AMR_WB: 自適應多速率寬頻

    • AMR_NB: 自適應多速率窄帶

    • OPUS: Opus

    • HTK: 單聲道 16 位 PCM

    • UNKNOWN : 上述都不是

使用 AudioMetaData 的教程
Audio I/O

音訊 I/O

音訊 I/O

文件

訪問 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得解答

檢視資源