Hadoop教學 - tw511教學網

Hadoop是一個開源框架，它允許在整個叢集使用簡單程式設計模型計算機的分散式環境儲存並處理巨量資料。它的目的是從單一的伺服器到上千台機器的擴充套件，每一個台機都可以提供本地計算和儲存。

“90％的世界資料在過去的幾年中產生”。

由於新技術，裝置和類似的社群網站通訊裝置的出現，人類產生的資料量每年都在迅速增長。美國從一開始的時候到2003年產生的資料量為5十億千兆位元組。如果以堆放的資料磁碟的形式，它可以填補整個足球場。在2011年建立相同資料量只需要兩天，在2013年該速率仍在每十分鐘極大地增長。雖然生產的所有這些資訊是有意義的，處理起來有用的，但是它被忽略了。

什麼是巨量資料？

巨量資料是不能用傳統的計算技術處理的大型資料集的集合。它不是一個單一的技術或工具，而是涉及的業務和技術的許多領域。

在巨量資料會發生什麼？

巨量資料包括通過不同的裝置和應用程式所產生的資料。下面給出的是一些在資料的框架下的領域。

黑匣子資料：這是直升機，飛機，噴氣機的一個組成部分，它捕獲飛行機組的聲音，麥克風和耳機的錄音，以及飛機的效能資訊。
社會化媒體資料：社會化媒體，如Facebook和Twitter保持資訊發布的數百萬世界各地的人的意見觀點。
證券交易所資料：交易所資料儲存有關的“買入”和“賣出”，客戶由不同的公司所佔的份額決定的資訊。
電網資料：電網資料保持相對於基站所消耗的特定節點的資訊。
交通運輸資料：交通資料包括車輛的型號，容量，距離和可用性。
搜尋引擎資料：搜尋引擎獲取大量來自不同資料庫中的資料。

因此，巨量資料包括體積龐大，高流速和可延伸的各種資料。它的資料為三種型別。

結構化資料：關係資料。
半結構化資料：XML資料。
非結構化資料：Word, PDF, 文字，媒體紀錄檔。

巨量資料的好處

通過保留了社群網路如Facebook的資訊，市場行銷機構了解可以他們的活動，促銷等廣告媒介的響應。
利用資訊計劃生產在社會化媒體一樣喜好並讓消費者對產品的認知，產品企業和零售企業。
使用關於患者以前的病歷資料，醫院提供更好的和快速的服務。

巨量資料技術

巨量資料的技術是在提供更準確的分析，這可能影響更多的具體決策導致更大的執行效率，降低成本，並減少了對業務的風險。

為了利用巨量資料的力量，需要管理和處理的實時結構化和非結構化的海量資料，可以保護資料隱私和安全的基礎設施。

目前在市場上的各種技術，從不同的供應商，包括亞馬遜，IBM，微軟等來處理巨量資料。儘管找到了處理巨量資料的技術，我們研究了以下兩類技術：

操作巨量資料

這些包括像MongoDB系統，提供業務實時的能力，這裡主要是資料捕獲和儲存互動工作。

NoSQL巨量資料系統的設計充分利用已經出現在過去的十年，而讓大量的計算，以廉價，高效地執行新的雲端計算架構的優勢。這使得運營巨量資料工作負載更容易管理，更便宜，更快的實現。

一些NoSQL系統可以提供深入了解基於使用最少的編碼無需資料科學家和額外的基礎架構的實時資料模式。

分析巨量資料

這些包括，如大規模並行處理（MPP）資料庫系統和MapReduce提供用於回顧性和複雜的分析，可能觸及大部分或全部資料的分析能力的系統。

MapReduce提供分析資料的基礎上，MapReduce可以按比例增加從單個伺服器向成千上萬的高階和低端機的互補SQL提供的功能，這是系統的一種新方法。

這兩個類技術是互補的，並經常一起部署。

操作與分析系統

	操作	分析
等待時間	1 ms - 100 ms	1 min - 100 min
並行	1000 - 100,000	1 - 10
存取模式	寫入和讀取	讀取
查詢	選擇	非選擇性
資料範圍	操作	回溯
終端使用者	顧客	資料科學家
技術	NoSQL	MapReduce, MPP 資料庫

巨量資料的挑戰

巨量資料相關的主要挑戰如下：

採集資料
策展
儲存
搜尋
分享
傳輸
分析
展示

為了實現上述挑戰，企業通常需要企業級伺服器的幫助。