《巨量資料時代》一書中的巨量資料是指什麼

2022-02-14 13:00:23

「巨量資料時代」一書中的巨量資料是指「全體資料或所有資料」,又稱「巨量資料」,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

本教學操作環境:windows7系統、Dell G3電腦。

《巨量資料時代》一書中的巨量資料是指「全體資料或所有資料」。

巨量資料(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《巨量資料時代》中巨量資料指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料的方法)巨量資料的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

巨量資料概念的發展歷史:

「巨量資料」這個術語最早期的參照可追溯到apache org的開源專案Nutch。當時,巨量資料用來描述為更新網路搜尋索引需要同時進行批次處理或分析的大量資料集。隨著谷歌MapReduce和Google File System (GFS)的釋出,巨量資料不再僅用來描述大量的資料,還涵蓋了處理資料的速度。

早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將巨量資料熱情地讚頌為「第三次浪潮的華彩樂章」。

不過,大約從2009年開始,「163巨量資料」才成為網際網路資訊科技行業的流行詞彙。美國網際網路資料中心指出,網際網路上的資料每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的資料是最近幾年才產生的。此外,資料又並非單純指人們在網際網路上釋出的資訊,全世界的工業裝置、汽車、電錶上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、溼度乃至空氣中化學物質的變化,也產生了海量的資料資訊。

巨量資料概念結構:

巨量資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲端計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,巨量資料會逐步為人類創造更多的價值。

其次,想要系統的認知巨量資料,必須要全面而細緻的分解它,我著手從三個層面來展開:

第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從巨量資料的特徵定義理解行業對巨量資料的整體描繪和定性;從對巨量資料價值的探討來深入解析巨量資料的珍貴所在;洞悉巨量資料的發展趨勢;從巨量資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。

第二層面是技術,技術是巨量資料價值體現的手段和前進的基石。我將分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明巨量資料從採集、處理、儲存到形成結果的整個過程。

第三層面是實踐,實踐是巨量資料的最終價值體現。我將分別從網際網路的巨量資料,政府的巨量資料,企業的巨量資料和個人的巨量資料四個方面來描繪巨量資料已經展現的美好景象及即將實現的藍圖。

巨量資料概念的特點:

巨量資料分析相比於傳統的資料倉儲應用,具有資料量大、查詢分析複雜等特點。《計算機學報》刊登的「架構巨量資料:挑戰、現狀與展望」一文列舉了巨量資料分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——並行資料庫、MapReduce及基於兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在巨量資料分析方面的努力進行了介紹,對未來研究做了展望。

巨量資料的4個「V」,或者說特點有四個層面:第一,資料體量巨大。從TB級別,躍升到PB級別;第二,資料型別繁多。前文提到的網路紀錄檔、視訊、圖片、地理位置資訊等等。第三,處理速度快,1秒定律,可從各種型別的資料中快速獲得高價值的資訊,這一點也是和傳統的資料探勘技術有著本質的不同。第四,只要合理利用資料並對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個「V」——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。

從某種程度上說,巨量資料是資料分析的前沿技術。簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是巨量資料技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。

巨量資料概念的用途:

巨量資料可分成巨量資料技術、巨量資料工程、巨量資料科學和巨量資料應用等領域。目前人們談論最多的是巨量資料技術和巨量資料應用。工程和科學問題尚未被重視。巨量資料工程指巨量資料的規劃建設運營管理的系統工程;巨量資料科學關注巨量資料網路發展和運營過程中發現和驗證巨量資料的規律及其與自然和社會活動之間的關係。

物聯網、雲端計算、行動網際網路、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的感測器,無一不是資料來源或者承載的方式。

有些例子包括網路紀錄檔,RFID,感測器網路,社會網路,社會資料(由於資料革命的社會),網際網路文字和檔案;網際網路搜尋索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他複雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視訊檔案;和大規模的電子商務 。

巨量資料的作用

對於一般的企業而言,巨量資料的作用主要表現在兩個方面,分別是資料的分析使用與進行二次開發專案。通過對禧金資訊巨量資料進行分析,不僅能把隱藏的資料探勘出來,還能通過這些隱藏的訊息,通過實體的銷售,提升自己的客戶源。至於對資料進行二次開發,在網路服務專案中被運用的比較多,通過將這些資訊進行總結與分析,從而制定出符合客戶需要的個性化方案,並營造出一種全新的廣告行銷方式,在這裡,你需要明白的是,通過巨量資料的分析,將產品與服務進行結合起來的並不是偶然事件,實現這種的往往是資料時代的領導者。

綜上所述,巨量資料的運用,不僅標誌著時代的進步,同時還激勵著人們進行更深領域的探究。此外,針對巨量資料的研究,除了上述內容外,還需要了解巨量資料的三個特徵,分別是規模大、運轉速度快及資料多樣性。通過對這三個方面的研究,不僅可以更容易的觀察到資料的本質嗎,有利於軟體處理平臺的有效運轉。

更多相關知識,請存取欄目!

以上就是《巨量資料時代》一書中的巨量資料是指什麼的詳細內容,更多請關注TW511.COM其它相關文章!