是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
是指一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。
資料集主要特點
Volume(大量): 資料量巨大,從TB到PB級別。
Velocity(高速): 資料量在持續增加(兩位數的年增長率)。
Variety(多樣): 資料型別複雜,超過80%的資料是非結構化的。
Value(低密度高價值): 低成本創造高價值。
在巨量資料背景下,伺服器系統安裝中,系統硬碟、資料硬碟完全隔離。資料硬碟必須獨立掛載,每個硬碟掛載到系統的一個獨立的目錄下。
所要學習的核心軟體
傳統資料與巨量資料處理方式對比
橫向擴充套件:將服務分割為眾多的子服務在負載平衡等技術版主下在應用中新增新的服務範例;
縱向擴充套件:表示在需要處理更多負載時通過提高單個系統處理能力的方法來解決問題。