巨量資料開放平台彙總(國內+國外)

2020-07-16 10:05:19
AI 演算法基本是開源的(開放原始碼),哪怕並不了解演算法原理,也可以呼叫文字識別、影象識別、臉部辨識、語音識別的演算法。比如,語音識別:
  • 利用聲學資訊提高語音的識別率;
  • 利用自然語言中的資訊,消除語音的錯誤,提高文字的識別率。

這樣的演算法是靠資料餵出來的,資訊就是錢......當我們無法收集到他人所沒有的資訊時,我們的演算法再好,也無法很好的消除不確定性。要消除不確定性,就需要不斷的尋找新的資訊。

可惜我們並沒有訓練演算法的大量資料,這些資料往往掌握在大企業裡,如:谷歌/百度有搜尋資料,Facebook/騰訊有社交資料,亞馬遜/阿里有商業行為資料……

所以,我們在此匯總了一些開放的巨量資料平台, 可以做資料的獲取和分析。

1. 世界級巨量資料開放平台

  • data.worldbank:世界銀行,全球人口、大量經濟、發展指標的統計資料。
  • Google Trends:網際網路搜尋行為、熱門新聞報道。
  • Google open data:資料極多,此外視覺化資料之間的相關性。
  • imf:國際貨幣基金(餘額寶就是貨幣基金)組織資料:國際貨幣基金組織公布的有關國際金融,債務利率,外匯儲備,商品價格和投資的巨量資料。
  • markets.ft:世界各地的金融市場的最新資訊,包括股票價格指數,商品和外匯。
  • UN comtrade database:全球貿易鉅量資料平台。

2. 國家級巨量資料平台

  • stats.gov:中國,包含 總人口、財政、GDP、物價上漲指數CPI 等。
  • data.gov:美國,包含 農業、氣候、消費、教育、能源、健康、基建 等14個主議題。
  • data.gov.uk:英國,包含 商業與經濟,環境,測繪,犯罪與司法,政府,社會 等。
  • open.canada.ca:加拿大,提供 資料、地圖資訊、API 等。
  • verikaynagi.com:土耳其
  • data.norge.no:挪威
  • opengovdata.ru:俄羅斯
  • data.gov.au:澳大利亞
  • dati.gov.it:意大利

3. 經濟/金融巨量資料平台

Quandl:經濟和金融資料,有助於建立預測經濟指標或股票價格的模型。
理杏仁:提供A股、B股、港股、美股以及行業、指數等歷史估值資料、財報資料、博弈資料。
天天基金網 檢視基金業績,規模、持倉、基金經理的基本資訊。

4. 機器學習巨量資料平台

機器學習入門階段:
  • Kaggle:競賽平台,有許多有趣的資料集
  • UCI機器學習庫:很古老了,有貨
  • VisualData:計算機視覺資料集

機器視覺:
  • 谷歌開放影象:開源共用
  • 野外標記面:人臉標記影象
  • 斯坦福狗狗:20580張狗狗的圖片、120個不同品種。
  • 室內場景識別:室內類別的影象
  • MS COCO:計算機視覺資料集
  • Labelme:大型影象資料集

情緒分析:
  • Sentiment140:資料來自推文,且去了表情
  • 斯坦福情緒樹庫:帶有情感注釋的標準情緒資料集。
  • IMDB評論:二元情緒分類的電影評論資料集。

自動駕駛:
  • Berkeley DeepDrive BDD100k:帶注釋的影象來自紐約和舊金山地區
  • 度娘Apolloscapes:定義了26種不同物體,如汽車、自行車、行人、建築物、路燈等。
  • LISA:交通標誌、車輛檢測、交通訊號燈和軌跡模式。

自然語言處理:
  • HotspotQA:具有自然、多跳問題的問答資料集,具有支援事實的強大監督。
  • 亞馬遜評論
  • 維基百科:有400多萬篇文章、近19億個單詞,可按段落、短語或段落進行搜尋。
  • Spambase:垃圾郵件過濾資料集

提示:資料的雷區

一般能打起資料官司的,不是侵犯了【隱私】就是【版權】。

如果要做與個人相關的研究,敏感資訊要脫敏;如果是傳統企業,那麼多年,積累下來的資料就是一筆非常寶貴的財富。

可以選擇和缺乏資料,但有技術的企業合作,比如美國的 Splunk公司。但是,一定要考慮的是,這份資料的所有權。

中國網路安全法:https://baike.baidu.com/item/中華人民共和國網路安全法/16843044