Nvidia 和 Mozilla 公佈新版 Common Voice 資料集,已支援 76 種語言

2021-08-02 09:00:06

Common Voice 是 Mozilla 的開源專案,基於 MPL 協定發行,到目前為止已經誕生了幾年時間,它允許志願者們為語音識別軟體的資料庫做出貢獻,而這個資料庫屬於公共領域,所有人都可以將這些資料用於語音合成和識別軟體。

今年 4 月,Nvidia 通過向 Mozilla 投資 150 萬美元的方式參與了這項計劃的合作。

近日,在雙方和整個社群的共同努力下,Common Voice 資料集的最新版本正式公開了。它帶來了多項值得注意的新內容。首先,該語料資料集現在有超過 13000 小時的眾包語音資料。與之前的版本相比,最新版本帶來了 4622 小時的全新音訊資料。還增加了 16 種新語言,即巴薩語、斯洛伐克語、北庫爾德語、保加利亞語、哈薩克語、巴什基爾語、加利西亞語、維吾爾語、亞美尼亞語、白俄羅斯語、烏爾都語、瓜拉尼語、塞爾維亞語、烏茲別克語、亞塞拜然語和豪薩語。這使得資料集中的語言總數達到了 76 種。總的來說,該資料集現在有超過 182,000 個獨特的聲音,過去六個月裡貢獻者社群增長了 25% 。

Mozilla 新發布的 Common Voice 資料集的其他內容包括:

  • 按總時長排列的前五的語言是英語(2630 小時)、基尼亞盧安達語(2260 小時)、德語(1040 小時)、加泰羅尼亞語(920 小時)和世界語(840 小時);
  • 按百分比增加最多的語言是泰語(增長了 20 倍,從 12 小時增長到 250 小時),盧幹達語(增長了 10 倍,從 8 小時到 80 小時),世界語(增長了 8 倍多,從 100 小時到 840 小時),以及泰米爾語(增長了 9 倍多,從 24 小時到 220 小時);

如果你有興趣為 Common Voice 資料集做出貢獻,可以存取參與這項計劃,為專案添磚加瓦。想要將資料集用於相關專案開發的開發者可以在 中找到原始碼和使用檔案。作為 Mozilla 和 Nvidia 合作的一部分,在這個公共資料集上訓練的模型可以通過 Nvidia NeMo 免費獲得。

展開閱讀全文