快捷方式

torchaudio.functional.vad

torchaudio.functional.vad(waveform: Tensor, sample_rate: int, trigger_level: float = 7.0, trigger_time: float = 0.25, search_time: float = 1.0, allowed_gap: float = 0.25, pre_trigger_time: float = 0.0, boot_time: float = 0.35, noise_up_time: float = 0.1, noise_down_time: float = 0.01, noise_reduction_amount: float = 1.35, measure_freq: float = 20.0, measure_duration: Optional[float] = None, measure_smooth_time: float = 0.4, hp_filter_freq: float = 50.0, lp_filter_freq: float = 6000.0, hp_lifter_freq: float = 150.0, lp_lifter_freq: float = 2000.0) Tensor[source]

語音活動檢測器。類似於 SoX 實現。

This feature supports the following devices: CPU, CUDA This API supports the following properties: TorchScript

嘗試從語音錄音的末尾修剪靜音和安靜的背景聲音。該演算法目前使用簡單的倒譜功率測量來檢測語音,因此可能會被其他聲音(尤其是音樂)誤導。

該效果只能從音訊的前面進行修剪,因此要從後面修剪,還必須使用反向效果。

引數:
  • waveform (Tensor) – 維度為 (channels, time)(time) 的音訊張量。形狀為 (channels, time) 的張量被視為同一事件的多通道錄音,其輸出將被修剪到任一通道中最早的語音活動處。

  • sample_rate (int) – 音訊訊號的取樣率。

  • trigger_level (float, optional) – 用於觸發活動檢測的測量級別。可能需要根據輸入音訊的噪聲級別、訊號級別和其他特性進行更改。(預設值: 7.0)

  • trigger_time (float, optional) – 用於忽略短促聲音爆發的時間常數(以秒為單位)。(預設值: 0.25)

  • search_time (float, optional) – 在檢測到的觸發點之前搜尋的音訊量(以秒為單位),以包含更安靜/更短的音訊爆發。(預設值: 1.0)

  • allowed_gap (float, optional) – 在檢測到的觸發點之前,包含的更安靜/更短的音訊爆發之間允許的間隔(以秒為單位)。(預設值: 0.25)

  • pre_trigger_time (float, optional) – 在觸發點和任何找到的更安靜/更短爆發之前保留的音訊量(以秒為單位)。(預設值: 0.0)

  • boot_time (float, optional) 該演算法 (python:internally) – 估計/降低以檢測所需音訊的開始。此選項設定初始噪聲估計的時間。(預設值: 0.35)

  • noise_up_time (float, optional) – 用於噪聲級別升高時。(預設值: 0.1)

  • noise_down_time (float, optional) – 用於噪聲級別降低時。(預設值: 0.01)

  • noise_reduction_amount (float, optional) – 檢測演算法(例如 0, 0.5, ...)。(預設值: 1.35)

  • measure_freq (float, optional) – 處理/測量頻率。(預設值: 20.0)

  • measure_duration – (float, optional) 測量持續時間。(預設值: 測量週期的兩倍;即有重疊。)

  • measure_smooth_time (float, optional) – 光譜測量平滑時間。(預設值: 0.4)

  • hp_filter_freq (float, optional) – 檢測演算法輸入的 HP 濾波器頻率。(預設值: 50.0)

  • lp_filter_freq (float, optional) – 檢測演算法輸入的 LP 濾波器頻率。(預設值: 6000.0)

  • hp_lifter_freq (float, optional) – 檢測演算法中的 HP lifter 頻率。(預設值: 150.0)

  • lp_lifter_freq (float, optional) – 檢測演算法中的 LP lifter 頻率。(預設值: 2000.0)

返回:

維度為 (…, time) 的音訊張量。

返回型別:

Tensor

參考

文件

查閱 PyTorch 全面的開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源