語音和噪聲相關資料集(持續更新)

2022-10-07 21:01:44

部落格地址:https://www.cnblogs.com/LXP-Never/p/15474948.html(轉載請註明出處)

部落格作者:凌逆戰

語音資料集

TIMIT

官方提供的下載地址:https://catalog.ldc.upenn.edu/LDC93S1

免費下載地址:https://goo.gl/l0sPwz(420M)

  TIMIT 共包含 6300 個句子,10 個句子由來自美國 8 個主要方言區的 630 位說話人。

Timit原始資料雖然是以wav結尾的但是格式卻不是wav,而是sphere格式,用python中的sphfile庫把他轉換成wav:

from sphfile import SPHFile
import glob
import os
 
if __name__ == "__main__":
    path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV'
    sph_files = glob.glob(path)
    print(len(sph_files),"train utterences")
    for i in sph_files:
        sph = SPHFile(i)
        sph.write_wav(filename=i.replace(".WAV","_.wav"))
        os.remove(i)
    path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV'
    sph_files_test = glob.glob(path)
    print(len(sph_files_test),"test utterences")
    for i in sph_files_test:
        sph = SPHFile(i)
        sph.write_wav(filename=i.replace(".WAV","_.wav"))
        os.remove(i)
    print("Completed")
View Code

VCTK

下載地址:傳送門(10.94Gb)

  CSTR VCTK 語料庫包括 110 位具有各種口音的英語使用者的語音資料。每個發言者讀出大約 400 個句子,所有語音資料都是使用相同的錄音設定錄製的:全向麥克風 (DPA 4035)和一個小振膜電容麥克風,具有非常寬的頻寬(Sennheiser MKH 800),96kHz 取樣頻率,24 位,在愛丁堡大學的半消聲室中。所有錄音都轉換為 16 位,下取樣到 48 kHz,並手動設定終點。

AISHELL-ASR0009-OS1 開源中文語音資料庫

下載地址:傳送門(14.51Gb)

  時長178小時,錄音文字涉及智慧家居、無人駕駛、工業生產等11個領域。錄製過程在安靜室內環境中, 同時使用3種不同裝置: 高保真麥克風(44.1kHz,16-bit);Android系統手機(16kHz,16-bit);iOS系統手機(16kHz,16-bit)。高保真麥克風錄製的音訊降取樣為16kHz。400名來自中國不同口音區域的發言人參與錄製。

AISHELL-2 中文語音資料庫

  時長為1000小時,其中718小時來自AISHELL-ASR0009,282小時來自AISHELL-ASR0010。錄音文字涉及喚醒詞、語音控制詞、智慧家居、無人駕駛、工業生產等12個領域。錄製過程在安靜室內環境中, 同時使用3種不同裝置: 高保真麥克風(44.1kHz,16bit);Android系統手機(16kHz,16bit);iOS系統手機(16kHz,16bit)。AISHELL-2採用iOS系統手機錄製的語音資料。1991名來自中國不同口音區域的發言人參與錄製。

AISHELL-3 高保真中文語音資料庫

  時長為85小時88035句,可做為多說話人合成系統。錄製過程在安靜室內環境中, 使用高保真麥克風(44.1kHz,16bit)。218名來自中國不同口音區域的發言人參與錄製。

AISHELL-WakeUp-1 中英文喚醒詞語音資料庫

AISHELL-DMASH 中文普通話麥克風陣列家居場景語音資料庫

AISHELL-4 多通道中文會議語音資料庫

Mozilla Common Voice

下載地址:https://commonvoice.mozilla.org/zh-CN

時長:1965小時(目前為止)

最早2017年釋出,持續更新,該基金會表示,通過 Common Voice 網站和移動應用,他們正在積極開展 70 種語言的資料收集工作。

Mozilla 宣稱其擁有可供使用的最大的人類語音資料集,當前資料集有包括 29 種不同的語言,其中包括漢語,從 4萬多名貢獻者那裡收集了近 2454 小時(其中1965小時已驗證)的錄音語音資料。並且做出了開放的承諾:向初創公司、研究人員以及對語音技術感興趣的任何人公開我們收集到的高質量語音資料。

Tatoeba

下載地址:傳送門

  專案始於2006年tatoeba是一個用於語言學習的句子、翻譯和口語音訊的大型資料庫。收集面向外語學習者的例句的網站,使用者無須註冊便可以搜尋任何單詞的例句。如果例句含有對應的真人發音,也可以點選收聽。註冊使用者可以新增、翻譯、接管、改進、討論句子。還可以在留言板上和其他註冊使用者討論。在留言板上,所有的語言都是平等的,註冊使用者可以使用自己喜歡的語言與其他使用者交流。

噪聲資料集

noise-92

下載地址:傳送門(250M)

音訊引數:19980Hz;單通道,16位元深

以mat格式儲存,可以通過下面的指令碼轉換到wav格式,所有噪聲的持續時間為 235 秒,19.98 KHz 的取樣率、具有 16 位的模數轉換器 (A/D)、抗混疊濾波器和無預加重級獲得。包含15種噪聲型別:White Noise、Pink Noise、Speech Babble、Factory Floor Noise 1、Factory Floor Noise 2、Cockpit Noise 1 (Buccaneer Jet Traveling at 190 knots)、Cockpit Noise 2 (Buccaneer Jet Traveling at 450 knots)、Cockpit Noise 3 (F-16)、Engine Room Noise (Destroyer)、Operations Room Background Noise (Destroyer)、Military Vehicle Noise (Leopard)、Military Vehicle Noise (M109)、Machine Gun Noise、Vehicle Interior Noise (Volvo 340)、HF Channel Noise

 將mat格式的音訊轉成wav

mat_file=dir('./*.mat');
sr=19980;

for n=1:length(mat_file)
    disp(mat_file(n).name);
    load(mat_file(n).name);
    name = eval(mat_file(n).name(1:end-4));
    % 為了避免寫入被截斷,需要歸一化到(-1,1)
    % 方法1
%     max_val = max(name);
%     min_val = min(name);
%     name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2;
    % 方法2
    name = rescale(name, -1, 1);
    
    audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr);
end
View Code

NOIZEUS資料集

下載地址NOIZEUS:用於評估語音增強演演算法的嘈雜語音語料庫(噪聲和純淨語音對)

包含30個IEEE 句子(由三名男性和三名女性發言者產生),被不同 SNR 下的八種不同的真實世界噪聲破壞。噪音包括郊區火車噪音、雜音、汽車、展覽廳、餐廳、街道、機場和火車站噪音。

DEMAND

下載地址:傳送門(7.4Gb)

音訊引數:48 kHz 和 16 kHz 取樣率在一個目錄中以 16 個單通道 WAV 檔案的形式提供

16 通道環境噪聲記錄資料庫

  麥克風陣列是幾個麥克風的(通常規則的)排列,允許使用許多有趣的訊號處理技術。例如,來自彼此相距很近的麥克風的音訊訊號的相關性可以用於確定聲源相對於陣列的空間位置,或基於聲音到達陣列的方向隔離或增強訊號。

  通常,考慮聲學背景噪聲的麥克風陣列實驗使用受控環境或模擬環境。這種人工設定在噪聲源方面通常是稀疏的。其他已經存在的真實世界噪聲資料庫(例如AURORA-2語料庫CHiME背景噪聲資料NOISEX-92資料庫)往往只提供非常有限的環境多樣性,最多隻能提供2個通道。

  這裡介紹的DEMAND(多元環境多通道聲學噪聲資料庫)提供了一組錄音,允許在各種設定下使用真實環境的噪聲測試演演算法。這個版本提供了15個錄音。所有錄音都使用16通道陣列,麥克風之間的最小距離為5釐米,最大距離為21.8釐米

PNL 100 Nonspeech Sounds

下載地址:傳送門(~10M)

音訊格式:20kHz取樣率,單聲道,16位元深

這些非語音、環境聲音可以用作評估語音分離系統等的非語音噪聲

Crowd 人群噪音:N1-N17
Machine 機器噪音:N18-N29
Alarms 警報和警報器:N30-N43
Traffic 交通和汽車噪音: N44-N46 
Animal 動物聲音:N47-N55
water 水聲:N56-N69
Wind 風:N70-N78
Bell 鈴:N79-N82
Cough 咳嗽:N83-N85
clap hands 拍手:N86
Snoring 打鼾:N87
Click 點選:N88
lol 笑:N88-N90
Yawn 打哈欠:N91-N92
cry 哭:N93
Shower 淋浴:N94
Brush your teeth 刷牙:N95
Footsteps 腳步聲:N96-N97
Door Movement 門移動:N98
Telephone dialing 電話撥號:N99-N100

rnnoise_ontributions

RNNoise提供的捐贈資料集,大部分是一些辦公室噪聲,下載地址:傳送門(6.41G)。

ESC-50:環境聲音分類資料集

下載地址:https://github.com/karolpiczak/ESC-50(~600MB)

國內映象:https://www.heywhale.com/mw/dataset/5ea9337c366f4d002d731d83

音訊引數:44.1kHz;單通道,16位元深

  ESC-50資料集是從Freesound.org中剪輯得到的2000份環境音訊的標記集合,適用於環境聲音分類。該資料集由5秒長的錄音組成,組織成5大類,每個大類有10小類(每個小·類有40個範例),

  1. 動物:狗、公雞、豬、奶牛、青蛙、貓、母雞、昆蟲(飛行)、羊、烏鴉
  2. 自然聲音和水聲:雨、海浪、噼啪作響的火、蟋蟀、鳥鳴、水滴、風、倒水、沖水馬桶、雷雨
  3. 人類的非語音聲音:嬰兒啼哭、打噴嚏、鼓掌、呼吸、咳嗽、腳步聲、笑、刷牙、打鼾、喝酒,啜飲
  4. 室內/家庭聲音:敲門聲、滑鼠點選、鍵盤打字、門,木頭吱吱作響、開罐頭、洗衣機、吸塵器、時鐘鬧鐘、時鐘滴答聲、玻璃破碎
  5. 外部/城市噪聲:直升機、電鋸、警笛、汽車喇叭、引擎、火車、教堂的鐘聲、飛機、煙花、手鋸
# -*- coding:utf-8 -*-
# Author:凌逆戰 | Never.Ling
# Date: 2022/8/8
"""
對ESC-50資料集,根據噪聲類別分類
"""
import os
import librosa
import pandas as pd
import soundfile

csv_path = "./esc50.csv"
dataset_path = "G:/dataset/noise_dataset/ESC-50"
class_basepath = "G:/dataset/noise_dataset/ESC-50/class"

sr = 16000
trainData = pd.read_csv(csv_path)

for filename, category in zip(trainData["filename"], trainData["category"]):
    noise_path = os.path.join(dataset_path, "audio", filename)
    class_path = os.path.join(class_basepath, category)
    if not os.path.exists(class_path):
        os.makedirs(class_path)

    new_path = os.path.join(class_path, "ESC50_" + filename)
    print("new_path", new_path)
    y = librosa.load(noise_path, sr, mono=True)[0]
    soundfile.write(new_path, data=y, samplerate=sr)
分類指令碼

ESC環境噪音分類資料集

下載地址:傳送門(26.8GB)

音訊引數:44.1kHz,單通道,5 秒長剪輯

ESC 資料集是一組以統一格式提供的短期環境記錄。所有剪輯都從通過專案專案獲得的公共Freesound.org中提取

資料集由三部分組成:

  • ESC-50:一組有 2000 個環境記錄(50 個類,每類 40 個剪輯),
  • ESC-10:一組有 400 個環境記錄(每類 10 個類,40 個剪輯)(這是 ESC-50 的子集 - 建立初始化,作為概念驗證/簡單錄製的標準化選擇),
  • ESC-US:一個未標記的資料集,包含 25 萬個環境記錄(5 秒長的剪輯),適合無監督的預培訓。

嬰兒啼哭資料集

https://github.com/giulbia/baby_cry_detection(310M)

https://github.com/gveres/donateacry-corpus(48.2M)

科大訊飛嬰兒啼哭聲識別挑戰賽(810M)

MS-SNSD

下載地址:傳送門

音訊格式:16kHz,單聲道,16位元深

冷氣機、機場公告、Babble、影印機、咀嚼、鄰居、關門、打字、吸塵器

QUT-NOISE

下載地址:傳送門(7.70Gb)

音訊格式:取樣率48kHz;雙聲道;16位元深

音訊引數:街道、咖啡廳、汽車、家庭、混響、

freesound-datasets

下載地址:傳送門

STARSS22:Sony-TAu Realistic Spatial Soundscapes 2022

下載地址:傳送門

VOICe Dataset

下載地址:傳送門(3.23GB)

音訊格式:44.1kHz;單聲道;32位元(浮點)位深

用於開發和評估通用聲音事件檢測域適應方法的新資料集!

嬰兒哭聲
玻璃破碎
槍聲

VOICe 由三種不同聲音事件的 1449 種不同混合組成:

  • 1242 個混合了三種不同類別的聲學場景(「車輛」、「戶外」和「室內」)的背景噪聲,在 2 個 SNR 值(-3,-9 dB)下混合,即 207 個混合 x 3 個聲學場景 x 2 個訊雜比 = 1242

  • 207 種沒有任何背景噪音的混合物。

In-Vehicle Noise Dataset

下載地址:傳送門(~2.47GB)

音訊引數:44.1 kHz,16 位,2通道

  這個開源資料集包含來自多個來源的 5.08 小時車內噪聲,其中包含 7 條噪聲。噪聲源可能包括

輪胎噪聲
發動機噪聲
收音機
人聲

Vehicle Interior Sound Dataset

下載地址:傳送門VISC Dataset SON(1.2GB)

音訊引數:44.1kHz;雙聲道;16位元深

  使用的資料集是從 YouTube 的不同車輛型別的駕駛視點 (PoV) 收集的。這些只是車內聲音。沒有司機,也沒有人聲。5980個聲音被記錄了8個類。這些車輛在露天的柏油路上行駛。我們不喜歡在雨天在未鋪砌的道路上收集車內聲音

這些資料的檔案格式是 wav。使用聲音的長度在 3-5 秒的範圍內,頻率為 48 kHz。選擇的車輛型別是公共汽車、小巴、皮卡、跑車、吉普車、卡車、跨界車和轎車(汽車)。收集的車輛內部聲音 (VIS) 資料集的屬性總結在表中。

Bus(公交車):850個樣本
Minibus(麵包車):850個樣本
Pickup(小卡車):850個樣本
Sports Car(跑車):850個樣本
Jeep(吉普車):850個樣本
Truck(卡車):850個樣本
Crossover(轉線路):850個樣本
Car (C級 – 4K):850個樣本
total:5980

MAVD交通資料集

下載地址:傳送門(~1.3G)

音訊引數:44.1kHz,單聲道,32位元浮點 

  MAVD:城市環境中聲音事件檢測的資料集,該版本主要關注馬路邊收集交通噪聲,因此得名MAVD-traffic,除了音訊記錄,它還包括同步視訊檔。聲音事件註釋遵循一個交通聲音本體,該本體是一組兩種分類的組合:車輛型別(如汽車、公共汽車)和車輛元件(如發動機、剎車),以及一組與之相關的動作(如空轉、加速)。

Dataset-AOB:城市聲音事件分類

下載地址:https://zenodo.org/record/4319802(~2G)

音訊引數:取樣率:22KHz - 44KHz,< 4 秒

資料集 Dataset-AOB 是使用折積神經網路為碩士論文收集和手動編輯的城市聲音事件分類的音訊資料集:

警報器
兒童玩耍
狗吠
引擎
腳步聲
玻璃破碎
槍聲
地鐵列車
下雨和尖叫聲

CHiME-Home

任務描述:DCASE 2016 Domestic audio tagging

下載地址:傳送門(3.9GB)

音訊格式:音訊資料以兩個取樣率(48kHz 和 16kHz)的 4 秒塊提供,其中 48kHz 資料為立體聲,16kHz 資料為單聲道。16kHz 錄音是通過對 48kHz 錄音的右手通道進行下取樣獲得的。

  聲學環境中的主要聲源是兩個成人和兩個兒童、電視和電子產品、廚房用具、人類活動產生的腳步聲和敲擊聲,以及來自屋外的聲音[Christensen2010]。音訊資料以兩個取樣率(48kHz 和 16kHz)的 4 秒塊提供,其中 48kHz 資料為立體聲,16kHz 資料為單聲道。16kHz 錄音是通過對 48kHz 錄音的右手通道進行下取樣獲得的。每個音訊檔對應一個塊。

所有可用的音訊資料都可用於系統開發,但將使用以 16kHz 取樣的單聲道音訊資料進行評估,目的是接近商用硬體的典型錄音能力。

UrbanSound

下載地址:傳送門(17.9 GB)

音訊格式:44.1kHz;雙聲道;16位元深

該資料集包含 1302 條帶標籤的錄音。每個錄音都標有 10 個類別的聲音事件的開始和結束時間。每個錄音可能包含多個聲音事件,但對於每個檔案,僅標記來自單個類的事件。這些類來自城市聲音分類

空調裝置 air_conditioner
汽車喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
鑽孔 drilling
發動機 enginge_idling
槍射擊 gun_shot
手提 jackhammer
汽笛,警報器 siren
街頭音樂 street_music

UrbanSound8K

下載地址:傳送門(6.60GB)

音訊格式:44.1kHz;雙聲道;16位元深

該資料集包含來自 10 個類別的城市聲音的 8732 個標記聲音摘錄 (<=4s)。這些類來自城市聲音分類

空調裝置 air_conditioner
汽車喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
鑽孔 drilling
發動機 enginge_idling
槍射擊 gun_shot
手提 jackhammer
汽笛,警報器 siren
街頭音樂 street_music

Isolated urban sound database

下載地址:傳送門(2.3G)

音訊格式:44.1kHz;雙聲道;16位元深

資料集包含兩個資料夾:

  • 事件:包括 231 個被視為突出的簡短聲音樣本,持續時間為 1 到 20 秒,分為 21 個聲音類別(鈴聲、哨聲、汽車喇叭、過往汽車、錘子、吠狗、警笛、腳步聲、金屬噪音、聲音……)
  • 背景:包括 162 個持續時間較長的聲音(~1mn30),其聲學特性不會隨時間變化。此類別包括鳴叫的鳥鳴、人群噪音、下雨、在校園裡玩耍的孩子、持續的交通噪音......

Acoustic Event Dataset

下載地址:傳送門(1.2GB)

acoustic guitar:原聲吉他
airplane:飛機
applause:掌聲
bird:鳥
car:車
cat:貓
child:小孩
church bell:教堂鐘聲
crowd:人群
dog_barking:狗吠
engine:傳送機
fireworks:煙火
footstep:腳步
glass_breaking:玻璃破碎
hammer:敲擊
helicopter:直升機
knock:敲,擊;碰撞
laughter:笑
mouse click:滑鼠點選
ocean surf:海浪
rustle:沙沙聲
scream:尖叫
speech:演說,發言,談話
squeak:吱吱叫,嘎吱作響
tone:聲調,音調
violin:小提琴
water tap:水龍頭
whistle:口哨聲

 

BBC音效

下載地址:https://sound-effects.bbcrewind.co.uk/

可能需要爬蟲才能把資料下載下來

飛機、動物、掌聲、氣氛、鐘聲、鳥類、時鐘、喜劇、人群、日常生活、破壞、電子產品、活動、火、腳步聲、工業、機器、醫療、軍事、自然、運動、玩具、交通、

NAR 資料集

下載地址:傳送門(35MB)

在 多個真實的家庭環境中錄製

廚房:吃東西、窒息、餐具、裝滿杯子、開啟水龍頭、開啟/關閉抽屜、移動椅子、開啟微波爐、關閉微波爐、微波爐、冰箱、烤麵包機
辦公室:關門、開門、鑰匙、敲門、撕紙、拉鍊、(另一個)拉鍊
非語言:拍手、拍手、拍舌
語音:1,2,3,4,5,6,7,8,9,10, Hello, Left, Right, Turn, Move, Stop, Nao, Yes, No, What

asr-noises

下載地址:傳送門(4.7GB)

這個資料集下載不來了,不知道咋回事

DCASE

dataset、mobile dataset、openset 的區別:

使用四個同時捕獲音訊的裝置進行錄音。

主要錄音裝置包括Soundman OKM II Klassik/studio A3、駐極體雙耳麥克風和使用 48kHz 取樣率和 24 位解析度的Zoom F8錄音機。麥克風經過專門設計,看起來像耳機,戴在耳朵裡。因此,錄製的音訊與到達佩戴裝置的人的人類聽覺系統的聲音非常相似。該裝置進一步稱為裝置 A。

其他裝置是常見的客戶裝置:裝置 B 是三星 Galaxy S7,裝置 C 是 iPhone SE,裝置 D 是 GoPro Hero5 Session。所有同時錄製的內容都是時間同步的。

TAU Urban Acoustic Scenes 2019 開發資料集:僅包含使用裝置 A 錄製的材料,包含 40 小時的音訊,在課程之間保持平衡。資料來自12個城市中的10個。TAU Urban Acoustic Scenes 2019 評估資料集包含來自所有 12 個城市的資料。

TAU Urban Acoustic Scenes 2019 移動開發資料集:包含使用裝置 A、B 和 C 錄製的材料。它由使用裝置 A 錄製的 TAU Urban Acoustic Scenes 2019 資料和使用裝置 B 和 C 錄製的一些並行音訊組成。來自裝置的資料A 被重新取樣並平均到單個通道中,以與裝置 B 和 C 記錄的資料的屬性保持一致。資料集總共包含 46 小時的音訊(40h + 3h + 3h)。TAU Urban Acoustic Scenes 2019 移動評估資料集還包含來自裝置 D 的資料。

TAU Urban Acoustic Scenes 2019 開放集開發資料集:僅包含使用裝置 A 記錄的材料,由 TAU Urban Acoustic Scenes 2019 和開放分類問題的其他音訊範例組成。「開放」資料由TUT Acoustic Scenes 2017 資料集的「海灘」和「辦公室」類以及 2019 年記錄的其他材料組成。資料集總共包含 46 小時的音訊(40 小時 + 6 小時)。TAU Urban Acoustic Scenes 2019 開放集評估資料集包含來自 10 個已知類別和其他未知類別的資料。

TUT Sound events 2016

下載地址:

音訊引數:44.1kHz,雙聲道,24位元深

包含來自兩個聲學場景的 22 段錄音:

家庭(室內),10 個錄音,共 36:16
住宅區(室外),12個錄音,共42:00

TUT Acoustic scenes 2016

下載地址:

音訊引數:44.1kHz,雙聲道,24位元深

由來自 15 個聲學場景的 30 秒音訊片段組成,每個聲學場景有 78 個片段,總共 39 分鐘的音訊。

Bus 公共汽車-在城市乘坐公共汽車(車輛)
Cafe / Restaurant 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內)
Car 汽車 - 在城市中駕駛或作為乘客旅行(車輛)
City center 市中心(室外)
Forest path 林間小徑(室外)
Grocery store 雜貨店 - 中型雜貨店(室內)
Home  家(室內)
Lakeside beach 湖濱海灘(室外)
Library  圖書館(室內)
Metro station 地鐵站(室內)
Office 辦公室 - 多人,典型工作日(室內)
Residential area 住宅區(室外)
Train 火車裡面(旅行,車輛)
Tram 有軌電車(旅行,車輛)
Urban park 城市公園(室外)

smart cars 2017 test4

任務描述:DCASE 2017 Large-scale weakly supervised sound event detection for smart cars

Development: Training (Psswd Training file: DCASE_2017_training_set)

Development: Testing (Psswd Testing file: DCASE_2017_testing_set)

Evaluation dataset (863 MB) password "DCASE_2017_evaluation_set"

音訊引數:44.1kHz,單聲道,16位元深

鳴笛:
- 火車喇叭 (441)
- 氣喇叭、卡車喇叭 (407)
- 汽車防盜器 (273)
- 倒車提示音 (337)
- 救護車(警笛) (624)
- 警車(警笛) (2,399)
- 消防車、消防車(警笛) (2,399)
- 民防警報器 (1,506)
- 尖叫 (744)

車輛聲音:
- 自行車 (2,020)
- 滑板 (1,617)
- 汽車 (25,744)
- 路過的汽車 (3,724)
- 公共汽車 (3,745)
- 卡車 (7,090)
- 摩托車 (3,291)
- 火車 (2,301)

TUT Rare sound events 2017

下載地址:開發資料集 (17.5 GB) | 評估資料集 (7.4 GB)

音訊引數:44.1kHz,單聲道,16位元深

包含用於建立稀有聲音事件(嬰兒哭聲、槍聲、玻璃破碎等)與背景音訊的混合的原始檔,以及一組易於生成的mixtures 和用於生成它們的配方。

資料集的「source」部分由兩個子集組成:

  • 來自 15 個不同聲學場景的背景錄音

- Bus 公共汽車-在城市乘坐公共汽車(車輛vehicle)
- Cafe / Restaurant 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內indoor)
- Car 汽車 - 在城市中駕駛或作為乘客旅行(車輛vehicle)
- City center 市中心(室外outdoor)
- Forest path 林間小徑(室外outdoor)
- Grocery store 雜貨店 - 中型雜貨店(室內indoor)
- Home 家(室內)
- Lakeside beach 湖濱海灘(室外outdoor)
- Library 圖書館(室內indoor)
- Metro station 地鐵站(室內indoor)
- Office 辦公室 - 多人,典型工作日(室內indoor)
- Residential area住宅區(室外outdoor)
- Train 火車(旅行,車輛)
- Tram 有軌電車(旅行,車輛)
- Urban park 城市公園(室外outdoor)
  • 來自三類目標罕見聲音事件的錄音,並附有它們的時間發生的註釋,

  • 一組提供交叉驗證設定的元檔案:背景和目標事件記錄列表分為訓練和測試子集(分別稱為「devtrain」和「devtest」,表示它們作為開發資料集提供,而不是評估資料集單獨釋出)。

mixture set 由兩個子集(訓練和測試)組成,每個子集包含約 1500 個混合(每個子集中每個目標類約 500 個,其中一半的混合不包含任何目標類事件)。

TUT Acoustic Scenes 2017

下載地址:

  • 開發資料集 (10GB) 每個聲學場景有312個片段,總計52分鐘的音訊。
  • 驗證資料集 (3.6 GB) 每個聲音場景有108段,總共18分鐘的音訊。

音訊引數:44.1kHz,雙聲道,24位元深

TUT Acoustic Scenes 2017,開發資料集由來自 15 個聲學場景的 10 秒音訊片段組成:

- Bus 公共汽車-在城市乘坐公共汽車(車輛vehicle)
- Cafe / Restaurant 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內indoor)
- Car 汽車 - 在城市中駕駛或作為乘客旅行(車輛vehicle)
- City center 市中心(室外outdoor)
- Forest path 林間小徑(室外outdoor)
- Grocery store 雜貨店 - 中型雜貨店(室內indoor)
- Home 家(室內)
- Lakeside beach 湖濱海灘(室外outdoor)
- Library 圖書館(室內indoor)
- Metro station 地鐵站(室內indoor)
- Office 辦公室 - 多人,典型工作日(室內indoor)
- Residential area住宅區(室外outdoor)
- Train 火車(旅行,車輛)
- Tram 有軌電車(旅行,車輛)
- Urban park 城市公園(室外outdoor)

TUT Sound events 2017

描述 DACSE 2017 test3

下載地址:

音訊引數:44.1kHz,雙聲道,24位元深

這些錄音是在不同的街道上拍攝的。對於每個錄製位置,都會捕獲 3-5 分鐘長的錄音。用於錄音的裝置包括雙耳Soundman OKM II Klassik/studio A3駐極體入耳式麥克風和使用 44.1 kHz 取樣率和 24 位解析度的Roland Edirol R-09波形記錄器。

街道,包含了(剎車吱吱作響、車、孩子們、大型車輛、說話的人、行走的人)

沒有純淨噪聲,只有噪聲起止點。

TUT Urban Acoustic Scenes 2018

下載地址:

音訊引數:48kHz,雙聲道,24位元深

TUT Urban Acoustic Scenes 2018,排行榜資料集由來自 10 個聲學場景的 10 秒音訊片段組成:

機場 - airport
室內購物中心-shopping_mall
地鐵站 - metro_station
步行街 - street_pedestrian
公共廣場 - public_square
街道交通 - street_traffic
乘坐有軌電車 - tram
公交車上- bus
乘地鐵旅行 - metro
城市公園- park

TAU Urban Acoustic Scenes 2019

下載地址:

音訊引數:48kHz,雙聲道,24位元深

包含來自 10 個聲學場景的 10 秒音訊片段,每個聲學場景有 1440 個片段(240 分鐘的音訊)。該資料集總共包含 40 小時的音訊。

- 機場 -airport
- 室內購物中心 - shopping_mall
- 地鐵站 - metro_station
- 步行街 - street_pedestrian
- 公共廣場 - public_square
- 街道交通 - street_traffic
- 乘坐有軌電車 - tram
- 公交車上- bus
- 乘地鐵旅行 - metro
- 城市公園- park

TAU Urban Acoustic Scenes 2020 Mobile

下載地址:

音訊引數:48kHz,雙聲道,24位元深

TUT城市聲學場景2020移動開發資料集由10個聲學場景中的10秒音訊片段組成

機場 - airport
室內購物中心-shopping_mall
地鐵站 - metro_station
步行街 - street_pedestrian
公共廣場 - public_square
街道交通 - street_traffic
乘坐有軌電車 - tram
公交車上 - bus
乘地鐵旅行 - metro
城市公園- park

TAU Urban Acoustic Scenes 2020 3Class

下載地址:

音訊引數:48kHz,雙聲道,24位元深

TAU Urban Acoustic Scenes 2020 3Class 資料集由來自 10 個聲學場景的 10 秒音訊片段組成,分為以下三大類 :

- 室內場景——*室內*:
    機場:airport
    室內商場:indoor shopping mall
    地鐵站:metro station
- 戶外場景-*戶外*:
    步行街:pedestrian street
    公共廣場:public square
    中等交通街道:street with medium level of traffic
    城市公園:urban park
- 交通相關場景-*交通*:
    乘坐公共汽車:travelling by a bus
    乘坐電車:travelling by a tram
    乘坐地鐵:travelling by an underground metro

TAU Urban Audio-Visual Scenes 2021

下載地址:

音訊引數:

機場 - airport
室內購物中心-shopping_mall
地鐵站 - metro_station
步行街 - street_pedestrian
公共廣場 - public_square
街道交通 - street_traffic
乘坐有軌電車 -tram
公交上 -bus
乘地鐵旅行 -metro
城市公園-park

TAU Urban Acoustic Scenes 2021 Mobile

下載地址:Evaluation dataset (8.8 GB)

音訊引數:44.1kHz;單聲道;24位元深

機場 - airport
室內購物中心-shopping_mall
地鐵站 - metro_station
步行街 - street_pedestrian
公共廣場 - public_square
街道交通 - street_traffic
乘坐有軌電車 -tram
公交車上 -bus
乘地鐵旅行 -metro
城市公園-park

TAU Urban Acoustic Scenes 2022 Mobile

下載地址:

音訊引數:44.1kHz;單聲道;24位元深

機場 - airport
室內購物中心 - shopping_mall
地鐵站 - metro_station
步行街 - street_pedestrian
公共廣場 - public_square
街道交通 - street_traffic
乘坐有軌電車 - tram
公交車上- bus
地鐵 - metro
城市公園- park

綜合資料集 

綜合資料集是 既有語音又有噪聲的資料集

MUSAN

地址:傳送門(11G)

音樂、語音和噪音的語料庫

FSDnoisy18k

下載地址:傳送門 (9.5 GB)

FSDnoisy18k 是一個音訊資料集,旨在促進對聲音事件分類中標籤噪聲的調查。它包含 20 個聲音類別的 42.5 小時音訊,包括少量手動標記的資料和大量真實世界的嘈雜資料。

DS_10283_2791

用於訓練語音增強演演算法和 TTS 模型的嘈雜語音資料庫

乾淨和嘈雜的並行語音資料庫。該資料庫旨在訓練和測試以 48kHz 執行的語音增強方法。更詳細的描述可以在與資料庫相關的論文中找到。對於 28 個說話人資料集,詳細資訊可參見:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,「使用深度迴圈神經網路的噪聲魯棒文字到語音合成系統的語音增強」 「,在過程中。Interspeech 2016。對於 56 位說話者資料集:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,「研究基於 RNN 的語音增強方法以實現抗噪文字到語音」,In Proc. SSW 2016. 用於建立嘈雜語音的一些噪音來自需求資料庫,可在此處獲得:http://parole.loria.fr/DEMAND/。語音資料庫來自 CSTR VCTK 語料庫,可在此處獲取:https://doi.org/10.7488/ds/1994。用於建立此資料集的語音和 babble 噪聲檔案可在此處獲得:http://homepages.inf.ed.ac.uk/cvbotinh/se/noises/。

下載地址:傳送門(1.342G)

綜合資料集就是啥也有

DNS-Challenge:https://github.com/microsoft/DNS-Challenge/tree/master/datasets

Noisy speech database for training speech enhancement algorithms and TTS models

OpenSLR:https://openslr.org/

 

參考

【知乎】語音資料集整理

【github】open-speech-corpora