Nvidia 和 Mozilla 公佈新版 Common Voice 資料集，已支援 76 種語言

Common Voice 是 Mozilla 的開源專案，基於 MPL 協定發行，到目前為止已經誕生了幾年時間，它允許志願者們為語音識別軟體的資料庫做出貢獻，而這個資料庫屬於公共領域，所有人都可以將這些資料用於語音合成和識別軟體。

今年 4 月，Nvidia 通過向 Mozilla 投資 150 萬美元的方式參與了這項計劃的合作。

近日，在雙方和整個社群的共同努力下，Common Voice 資料集的最新版本正式公開了。它帶來了多項值得注意的新內容。首先，該語料資料集現在有超過 13000 小時的眾包語音資料。與之前的版本相比，最新版本帶來了 4622 小時的全新音訊資料。還增加了 16 種新語言，即巴薩語、斯洛伐克語、北庫爾德語、保加利亞語、哈薩克語、巴什基爾語、加利西亞語、維吾爾語、亞美尼亞語、白俄羅斯語、烏爾都語、瓜拉尼語、塞爾維亞語、烏茲別克語、亞塞拜然語和豪薩語。這使得資料集中的語言總數達到了 76 種。總的來說，該資料集現在有超過 182,000 個獨特的聲音，過去六個月裡貢獻者社群增長了 25% 。

Mozilla 新發布的 Common Voice 資料集的其他內容包括：

按總時長排列的前五的語言是英語（2630 小時）、基尼亞盧安達語（2260 小時）、德語（1040 小時）、加泰羅尼亞語（920 小時）和世界語（840 小時）；
按百分比增加最多的語言是泰語（增長了 20 倍，從 12 小時增長到 250 小時），盧幹達語（增長了 10 倍，從 8 小時到 80 小時），世界語（增長了 8 倍多，從 100 小時到 840 小時），以及泰米爾語（增長了 9 倍多，從 24 小時到 220 小時）；

如果你有興趣為 Common Voice 資料集做出貢獻，可以存取參與這項計劃，為專案添磚加瓦。想要將資料集用於相關專案開發的開發者可以在中找到原始碼和使用檔案。作為 Mozilla 和 Nvidia 合作的一部分，在這個公共資料集上訓練的模型可以通過 Nvidia NeMo 免費獲得。