巨量資料開放平台彙總（國內+國外）

AI 演算法基本是開源的（開放原始碼），哪怕並不了解演算法原理，也可以呼叫文字識別、影象識別、臉部辨識、語音識別的演算法。比如，語音識別：

利用聲學資訊提高語音的識別率；
利用自然語言中的資訊，消除語音的錯誤，提高文字的識別率。

這樣的演算法是靠資料餵出來的，資訊就是錢......當我們無法收集到他人所沒有的資訊時，我們的演算法再好，也無法很好的消除不確定性。要消除不確定性，就需要不斷的尋找新的資訊。

可惜我們並沒有訓練演算法的大量資料，這些資料往往掌握在大企業裡，如：谷歌/百度有搜尋資料，Facebook/騰訊有社交資料，亞馬遜/阿里有商業行為資料……

所以，我們在此匯總了一些開放的巨量資料平台，可以做資料的獲取和分析。

1. 世界級巨量資料開放平台

data.worldbank：世界銀行，全球人口、大量經濟、發展指標的統計資料。
Google Trends：網際網路搜尋行為、熱門新聞報道。
Google open data：資料極多，此外視覺化資料之間的相關性。
imf：國際貨幣基金（餘額寶就是貨幣基金）組織資料：國際貨幣基金組織公布的有關國際金融，債務利率，外匯儲備，商品價格和投資的巨量資料。
markets.ft：世界各地的金融市場的最新資訊，包括股票價格指數，商品和外匯。
UN comtrade database：全球貿易鉅量資料平台。

2. 國家級巨量資料平台

stats.gov：中國，包含總人口、財政、GDP、物價上漲指數CPI 等。
data.gov：美國，包含農業、氣候、消費、教育、能源、健康、基建等14個主議題。
data.gov.uk：英國，包含商業與經濟，環境，測繪，犯罪與司法，政府，社會等。
open.canada.ca：加拿大，提供資料、地圖資訊、API 等。
verikaynagi.com：土耳其
data.norge.no：挪威
opengovdata.ru：俄羅斯
data.gov.au：澳大利亞
dati.gov.it：意大利

3. 經濟/金融巨量資料平台

Quandl：經濟和金融資料，有助於建立預測經濟指標或股票價格的模型。
理杏仁：提供A股、B股、港股、美股以及行業、指數等歷史估值資料、財報資料、博弈資料。
天天基金網檢視基金業績，規模、持倉、基金經理的基本資訊。

4. 機器學習巨量資料平台

機器學習入門階段：

Kaggle：競賽平台，有許多有趣的資料集
UCI機器學習庫：很古老了，有貨
VisualData：計算機視覺資料集

機器視覺：

谷歌開放影象：開源共用
野外標記面：人臉標記影象
斯坦福狗狗：20580張狗狗的圖片、120個不同品種。
室內場景識別：室內類別的影象
MS COCO：計算機視覺資料集
Labelme：大型影象資料集

情緒分析：

Sentiment140：資料來自推文，且去了表情
斯坦福情緒樹庫：帶有情感注釋的標準情緒資料集。
IMDB評論：二元情緒分類的電影評論資料集。

自動駕駛：

Berkeley DeepDrive BDD100k：帶注釋的影象來自紐約和舊金山地區
度娘Apolloscapes：定義了26種不同物體，如汽車、自行車、行人、建築物、路燈等。
LISA：交通標誌、車輛檢測、交通訊號燈和軌跡模式。

自然語言處理：

HotspotQA：具有自然、多跳問題的問答資料集，具有支援事實的強大監督。
亞馬遜評論
維基百科：有400多萬篇文章、近19億個單詞，可按段落、短語或段落進行搜尋。
Spambase：垃圾郵件過濾資料集

提示：資料的雷區

一般能打起資料官司的，不是侵犯了【隱私】就是【版權】。

如果要做與個人相關的研究，敏感資訊要脫敏；如果是傳統企業，那麼多年，積累下來的資料就是一筆非常寶貴的財富。

可以選擇和缺乏資料，但有技術的企業合作，比如美國的 Splunk公司。但是，一定要考慮的是，這份資料的所有權。

中國網路安全法：https://baike.baidu.com/item/中華人民共和國網路安全法/16843044