Silero 語音活動檢測器

# this assumes that you have a proper version of PyTorch already installed
pip install -q torchaudio
import torch
torch.set_num_threads(1)

from IPython.display import Audio
from pprint import pprint
# download example
torch.hub.download_url_to_file('https://models.silero.ai/vad_models/en.wav', 'en_example.wav')

model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
                              model='silero_vad',
                              force_reload=True)

(get_speech_timestamps,
 _, read_audio,
 *_) = utils

sampling_rate = 16000 # also accepts 8000
wav = read_audio('en_example.wav', sampling_rate=sampling_rate)
# get speech timestamps from full audio file
speech_timestamps = get_speech_timestamps(wav, model, sampling_rate=sampling_rate)
pprint(speech_timestamps)

模型描述

Silero VAD:預訓練的企業級語音活動檢測器 (VAD)。企業級語音產品,簡單易用(參見我們的 STT 模型)。 每個模型單獨釋出

目前,除了 WebRTC 語音活動檢測器(連結)之外,幾乎沒有高質量/現代/免費/公共的語音活動檢測器。然而,WebRTC 開始顯老,並且存在許多誤報。

(!!!) 重要通知 (!!!) – 模型僅適用於 CPU 執行,並已針對 1 個 CPU 執行緒的效能進行了最佳化。請注意,模型已量化。

其他示例和基準

有關其他示例和其他模型格式,請訪問此 連結,並請參閱 Colab 格式的豐富示例(包括流式示例)。

參考文獻

VAD 模型架構基於類似的 STT 架構。

預訓練語音活動檢測器

模型型別: 音訊 | 可指令碼化
提交者: Silero AI 團隊