快捷方式

torchaudio.load

torchaudio.load(uri: Union[BinaryIO, str, PathLike], frame_offset: int = 0, num_frames: int = -1, normalize: bool = True, channels_first: bool = True, format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) Tuple[Tensor, int]

從源載入音訊資料。

預設情況下(normalize=True, channels_first=True),此函式返回 dtype 為 float32 且形狀為 [channel, time] 的 Tensor。

注意

此函式可處理的格式取決於後端可用性。請使用以下函式獲取支援的格式。

警告

normalize 引數不執行音量歸一化。它僅將樣本型別從原生樣本型別轉換為 torch.float32

當輸入格式為整數型別的 WAV 時,例如 32 位有符號整數、16 位有符號整數、24 位有符號整數和 8 位無符號整數,透過提供 normalize=False,此函式可以返回整數 Tensor,其中樣本值表示在對應 dtype 的完整範圍內,即 32 位有符號 PCM 對應 int32 Tensor,16 位有符號 PCM 對應 int16,8 位無符號 PCM 對應 uint8。由於 torch 不支援 int24 dtype,因此 24 位有符號 PCM 會轉換為 int32 Tensor。

normalize 引數對 32 位浮點 WAV 和其他格式(如 flacmp3)無效。

對於這些格式,此函式始終返回包含值的 float32 Tensor。

引數:
  • uri (路徑類物件檔案類物件) – 音訊資料的源。

  • frame_offset (int, 可選) – 開始讀取資料前要跳過的幀數。

  • num_frames (int, 可選) – 要讀取的最大幀數。-1 表示從 frame_offset 開始讀取所有剩餘樣本。如果給定檔案中沒有足夠的幀,此函式可能會返回少於指定數量的幀。

  • normalize (bool, 可選) –

    當為 True 時,此函式將原生樣本型別轉換為 float32。預設值:True

    如果輸入檔案是整數 WAV,將其設定為 False 將把結果 Tensor 型別更改為整數型別。此引數對整數 WAV 型別以外的格式無效。

  • channels_first (bool, 可選) – 當為 True 時,返回的 Tensor 的維度為 [channel, time]。否則,返回的 Tensor 的維度為 [time, channel]

  • format (strNone, 可選) – 如果不是 None,則被視為一個提示,可能允許後端覆蓋檢測到的格式。(預設值:None

  • buffer_size (int, 可選) – 處理檔案類物件時使用的緩衝區大小,單位為位元組。(預設值:4096

  • backend (strNone, 可選) –

    要使用的 I/O 後端。如果為 None,函式將根據輸入和可用後端選擇後端。否則,必須是 ["ffmpeg", "sox", "soundfile"] 之一,且對應的後端可用。(預設值:None

    另請參閱

    後端和排程器

返回值:

結果 Tensor 和取樣率。

如果輸入檔案是整數 wav 格式且未開啟歸一化,則返回整數型別,否則為 float32 型別。如果 channels_first=True,返回維度為 [channel, time],否則為 [time, channel]

返回型別:

(torch.Tensor, int)

使用 load 的教程
StreamWriter Advanced Usage

StreamWriter 高階用法

StreamWriter 高階用法
Speech Recognition with Wav2Vec2

使用 Wav2Vec2 進行語音識別

使用 Wav2Vec2 進行語音識別
AudioEffector Usages

AudioEffector 用法

AudioEffector 用法
ASR Inference with CUDA CTC Decoder

使用 CUDA CTC 解碼器進行 ASR 推理

使用 CUDA CTC 解碼器進行 ASR 推理
StreamWriter Basic Usage

StreamWriter 基本用法

StreamWriter 基本用法
Torchaudio-Squim: Non-intrusive Speech Assessment in TorchAudio

Torchaudio-Squim:TorchAudio 中的非侵入式語音評估

Torchaudio-Squim:TorchAudio 中的非侵入式語音評估
Music Source Separation with Hybrid Demucs

使用 Hybrid Demucs 進行音樂源分離

使用 Hybrid Demucs 進行音樂源分離
Audio I/O

音訊 I/O

音訊 I/O
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束形成進行語音增強

使用 MVDR 波束形成進行語音增強
CTC forced alignment API tutorial

CTC 強制對齊 API 教程

CTC 強制對齊 API 教程
Audio Feature Extractions

音訊特徵提取

音訊特徵提取
Audio Data Augmentation

音訊資料增強

音訊資料增強
ASR Inference with CTC Decoder

使用 CTC 解碼器進行 ASR 推理

使用 CTC 解碼器進行 ASR 推理
Forced alignment for multilingual data

多語言資料的強制對齊

多語言資料的強制對齊
Forced Alignment with Wav2Vec2

使用 Wav2Vec2 進行強制對齊

使用 Wav2Vec2 進行強制對齊

文件

訪問 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲取問題解答

檢視資源