Silero 文字轉語音模型

# this assumes that you have a proper version of PyTorch already installed
pip install -q torchaudio omegaconf
import torch

language = 'en'
speaker = 'lj_16khz'
device = torch.device('cpu')
model, symbols, sample_rate, example_text, apply_tts = torch.hub.load(repo_or_dir='snakers4/silero-models',
                                                                      model='silero_tts',
                                                                      language=language,
                                                                      speaker=speaker)
model = model.to(device)  # gpu or cpu
audio = apply_tts(texts=[example_text],
                  model=model,
                  sample_rate=sample_rate,
                  symbols=symbols,
                  device=device)

模型描述

Silero 文字轉語音模型以緊湊的尺寸為多種常用語言提供企業級文字轉語音功能

  • 一行程式碼即可使用
  • 自然發音
  • 無需 GPU 或訓練
  • 極簡主義,無依賴
  • 多種語言的語音庫
  • 原生支援 16kHz8kHz
  • 在慢速硬體上實現高吞吐量。在單個 CPU 執行緒上表現良好

支援的語言和格式

截至本頁面更新,以下語言的說話人支援 8 kHz 和 16 kHz 兩種格式

  • 俄語(6 位說話人)
  • 英語(1 位說話人)
  • 德語(1 位說話人)
  • 西班牙語(1 位說話人)
  • 法語(1 位說話人)

要檢視始終保持最新狀態的語言列表,請訪問我們的儲存庫,並檢視 yml 檔案以獲取所有可用的檢查點。

其他示例和基準測試

如需更多示例和其他模型格式,請訪問此連結。如需質量和效能基準測試,請參閱維基。這些資源會不定期更新。

參考文獻

一套緊湊的企業級多語言預訓練文字轉語音模型

模型型別: 音訊 | 可指令碼化
提交者: Silero AI 團隊