AI 演算法基本是開源的(開放原始碼),哪怕並不了解演算法原理,也可以呼叫文字識別、影象識別、臉部辨識、語音識別的演算法。比如,語音識別:
-
利用聲學資訊提高語音的識別率;
-
利用自然語言中的資訊,消除語音的錯誤,提高文字的識別率。
這樣的演算法是靠資料餵出來的,資訊就是錢......當我們無法收集到他人所沒有的資訊時,我們的演算法再好,也無法很好的消除不確定性。要消除不確定性,就需要不斷的尋找新的資訊。
可惜我們並沒有訓練演算法的大量資料,這些資料往往掌握在大企業裡,如:谷歌/百度有搜尋資料,Facebook/騰訊有社交資料,亞馬遜/阿里有商業行為資料……
所以,我們在此匯總了一些開放的巨量資料平台, 可以做資料的獲取和分析。
1. 世界級巨量資料開放平台
-
data.worldbank:世界銀行,全球人口、大量經濟、發展指標的統計資料。
-
Google Trends:網際網路搜尋行為、熱門新聞報道。
-
Google open data:資料極多,此外視覺化資料之間的相關性。
-
imf:國際貨幣基金(餘額寶就是貨幣基金)組織資料:國際貨幣基金組織公布的有關國際金融,債務利率,外匯儲備,商品價格和投資的巨量資料。
-
markets.ft:世界各地的金融市場的最新資訊,包括股票價格指數,商品和外匯。
-
UN comtrade database:全球貿易鉅量資料平台。
2. 國家級巨量資料平台
-
stats.gov:中國,包含 總人口、財政、GDP、物價上漲指數CPI 等。
-
data.gov:美國,包含 農業、氣候、消費、教育、能源、健康、基建 等14個主議題。
-
data.gov.uk:英國,包含 商業與經濟,環境,測繪,犯罪與司法,政府,社會 等。
-
open.canada.ca:加拿大,提供 資料、地圖資訊、API 等。
-
verikaynagi.com:土耳其
-
data.norge.no:挪威
-
opengovdata.ru:俄羅斯
-
data.gov.au:澳大利亞
-
dati.gov.it:意大利
3. 經濟/金融巨量資料平台
Quandl:經濟和金融資料,有助於建立預測經濟指標或股票價格的模型。
理杏仁:提供A股、B股、港股、美股以及行業、指數等歷史估值資料、財報資料、博弈資料。
天天基金網 檢視基金業績,規模、持倉、基金經理的基本資訊。
4. 機器學習巨量資料平台
機器學習入門階段:
-
Kaggle:競賽平台,有許多有趣的資料集
-
UCI機器學習庫:很古老了,有貨
-
VisualData:計算機視覺資料集
機器視覺:
-
谷歌開放影象:開源共用
-
野外標記面:人臉標記影象
-
斯坦福狗狗:20580張狗狗的圖片、120個不同品種。
-
室內場景識別:室內類別的影象
-
MS COCO:計算機視覺資料集
-
Labelme:大型影象資料集
情緒分析:
-
Sentiment140:資料來自推文,且去了表情
-
斯坦福情緒樹庫:帶有情感注釋的標準情緒資料集。
-
IMDB評論:二元情緒分類的電影評論資料集。
自動駕駛:
-
Berkeley DeepDrive BDD100k:帶注釋的影象來自紐約和舊金山地區
-
度娘Apolloscapes:定義了26種不同物體,如汽車、自行車、行人、建築物、路燈等。
-
LISA:交通標誌、車輛檢測、交通訊號燈和軌跡模式。
自然語言處理:
-
HotspotQA:具有自然、多跳問題的問答資料集,具有支援事實的強大監督。
-
亞馬遜評論
-
維基百科:有400多萬篇文章、近19億個單詞,可按段落、短語或段落進行搜尋。
-
Spambase:垃圾郵件過濾資料集
提示:資料的雷區
一般能打起資料官司的,不是侵犯了【隱私】就是【版權】。
如果要做與個人相關的研究,敏感資訊要脫敏;如果是傳統企業,那麼多年,積累下來的資料就是一筆非常寶貴的財富。
可以選擇和缺乏資料,但有技術的企業合作,比如美國的 Splunk公司。但是,一定要考慮的是,這份資料的所有權。
中國網路安全法:https://baike.baidu.com/item/中華人民共和國網路安全法/16843044