VOXPOPULI_ASR_BASE_10K_FR¶

torchaudio.pipelines.VOXPOPULI_ASR_BASE_10K_FR¶

wav2vec 2.0 模型（“base”架構），使用 VoxPopuli 資料集 [Wang 等人, 2021] 中 10k 小時未標註音訊（“10k”子集，包含 23 種語言）進行預訓練，並使用“fr”子集中 211 小時已轉錄音訊對 ASR 進行微調。

最初由 VoxPopuli [Wang 等人, 2021] 的作者在 CC BY-NC 4.0 下發布，並使用相同許可進行再分發。 [許可, 原始碼]