TensorFlow是由谷歌大腦的研究人員建立、最大的機器學習和數據科學的開源數據庫之一。它是一個端到端平臺,適合完全沒有經驗的初學者和有經驗的數據科學家。TensorFlow庫包括工具、預訓練模型、機器學習教學以及一整套公開數據集。爲了幫助你找到所需的訓練數據,本文將簡單介紹一些TensorFlow中用於機器學習的大型數據集。我們將以下數據集的列表分爲影象、視訊、音訊和文字。
TensorFlow影象數據集
1. CelebA:明星臉屬性數據集(CelebA)是最大的公開可用的人臉影象數據集,其中包含200,000多個名人影象。
每個影象包括5個面部標註和40個二進制屬性標註。
2. Downsampling Imagenet:該數據集是爲密度估計和生成性建模任務而建立的。它包括了130多萬張物體、場景、車輛、人物等影象。這些影象有兩種解析度規格:32×32和64×64。
3. Lsun—Lsun是一個大規模的影象數據集,建立該數據集是爲了幫助訓練模型進行場景理解。該數據集包含超過900萬張影象,按場景類別劃分,如臥室、教室和餐廳。
4. Bigearthnet—Bigearthnet是另一個大規模數據集,它包含來自Sentinel-2衛星的航空影象。每張影象覆蓋了1.2公裡×1.2公裡的一片地面。該數據集中有43個類別不平衡的標籤。
5. Places 365—顧名思義,Places 365包含180多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用於場景識別任務的最大數據集之一。
6. Quickdraw點陣圖—Quickdraw數據集是由Quickdraw玩家社羣繪製的影象集合。它包含500萬張圖紙,跨越345個類別。這個版本的Quickdraw數據集包括28×28的灰度影象。
7. SVHN Cropped—街景房號(SVHN)是爲訓練數位識別演算法,由斯坦福大學建立的TensorFlow數據集。它包含60萬個真實世界的、被裁剪成32×32畫素的影象數據範例。
8. VGGFace2—最大的人臉影象數據集之一,VGGFace2包含從谷歌搜尋引擎下載的影象。數據集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有362張影象。
9. COCO—由谷歌、FAIR、加州理工學院等合作者製作,是世界上最大的標籤影象數據集之一。它是爲物體檢測、分割和影象字幕任務而建立的。
通過cocodataset.org
數據集包含330,000張影象,其中20萬張有標籤。在所有影象中,共包含了80個類別的150萬個物件範例。
10. Open Images Challenge 2019—包含約900萬張影象,該數據集是網上最大的、標註的影象數據集之一。這些影象包含影象級標籤、物件邊界框和物件分割掩碼,以及他們之間的視覺關係。
11. Open Images V4—這個數據集是上述Open Images數據集的另一個迭代。V4版本中包含了600個不同物體類別的1460萬個邊界框。這些邊界框是由人類標註者手動繪製的。
12. AFLW2K3D—該數據集包含2000張面部影象,均有3D面部真實標註。它的建立是爲了評估3D面部標註檢測模型。
視訊數據集
13. UCF101—來自中央佛羅裡達大學,UCF101是爲訓練動作識別模型而建立的視訊數據集。該數據集有101個動作類別的13320個視訊,。
14. BAIR Robot Pushing—來自伯克利人工智慧研究,BAIR Robot Pushing包含44000個機器人推的動作的範例視訊。
15. Moving MNIST—這個數據集是MNIST基準數據集的一個變體。Moving MNIST包含10,000個視訊。
每個視訊都顯示了在64×64大小的幀內2個手寫數位的移動過程。
16. EMNIST—擴充套件的MNIST數據集,包含了原始MNIST數據集轉換成28 x 28畫素大小的圖片。
TensorFlow音訊數據集
17. CREMA-D—爲情感識別任務而建立,CREMA-D由語音情感表達組成。 該數據集包含由年齡,種族和性別不同的91位演員表達的7,442個音訊剪輯。
18. Librispeech—Librispeech是一個簡單的音訊數據集,它包含1000小時的英語語音,這些語音來自LibriVox專案的有聲讀物。它被用於訓練聲學模型和語言模型。
19. Libritts—這個數據集包含約585小時的英語語音,是在Google Brain團隊成員的協助下準備的。Libritts最初是爲Text-to-speech(TTS)研究設計的,但可以用於各種語音識別任務。
20. TED-LIUM—TED-LIUM是一個包含110多個小時的英語TED演講的數據集。 所有的演講內容都已被轉錄。
21. VoxCeleb—VoxCeleb是爲演講者識別任務而建立的大型音訊數據集,包含來自1,251位演講者的150,000多個音訊樣本。
文字數據集
22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個開放原始碼的網頁數據庫。它包含了超過40種語言、跨越7年的數據。
23. Civil Comments—這個數據集是由來自50個英文新聞網站的180多萬條公衆評論構成的。
24. IRC Disentanglement—這個TensorFlow數據集包括來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數據包括訊息ID和時間戳。
25. Lm1b—被稱爲語言模型基準,這個數據集包含10億個單詞。它最初是爲了衡量統計語言建模的進展。
26. SNLI—斯坦福自然語言推理數據集是一個包含57萬個人類寫作句子對的語料庫。所有的句對都經過人工標註,類別是均衡的。
27.e-SNLI—這個數據集是上面提到的SNLI的擴充套件,它包含了原始數據集的57萬個句子對,分類爲:包含、矛盾和中性。
28. MultiNLI—仿照SNLI數據集,MultiNLI包含433,000個句子對,都有尾部資訊註釋。
29. Wiki40b—這個大規模的數據集包括40種不同語言的維基百科文章。這些數據已經被清理,其中的非內容部分以及結構化物件已經被去掉。
30. Yelp極性評論—這個數據集包含598,000條高度極性的Yelp評論。它們是從2015年Yelp數據集挑戰賽中的數據提取出來的。
雖然上述數據集是機器學習中最大、最廣泛使用的一些TensorFlow數據集,但TensorFlow庫是龐大的,並在不斷擴充套件。請存取TensorFlow網站,瞭解更多關於該平臺如何幫助您構建自己的模型的資訊。