1.1 巨量資料簡介-hadoop-最全最完整的保姆級的java巨量資料學習資料

2022-12-03 06:00:31

1 hadoop-最全最完整的保姆級的java巨量資料學習資料

巨量資料技術解決的是什麼問題?
巨量資料技術解決的主要是海量資料的儲存和計算。
Hadoop的廣義和狹義之分
狹義的Hadoop:指的是一個框架,Hadoop是由三部分組成:HDFS:分散式檔案系統--> 儲存; MapReduce:分散式離線計算框架-->計算;Yarn:資源排程框架
廣義的Hadoop:廣義Hadoop是不僅僅包含Hadoop框架,除了Hadoop框架之外還有一些輔助框 架。Flume:紀錄檔資料採集,Sqoop:關係型資料庫資料的採集;
Hive:深度依賴Hadoop框架完成計算(sql),Hbase:巨量資料領域的資料庫(mysql)
Sqoop:資料的匯出
廣義Hadoop指的是一個生態圈。

主要學習內容

第一部分:巨量資料簡介(定義,特點,應用場景,發展趨勢,職業發展路線)
第二部分:Hadoop簡介(歷史,發展路線-版本變更,發行版(CDH))
第三部分:Hadoop的重要組成(hdfs,mapreduce,yarn)
第四部分:Apache Hadoop 完全分散式叢集搭建
第五部分:HDFS 分散式檔案系統(架構,原理,常用api, 後設資料管理,許可權,紀錄檔採集的綜合案例)
第六部分:MapReduce分散式計算框架 (原理,常用的程式設計規範等,大量案例練習-分割區,排序-快 排-歸併排序,壓縮,自定義元件,綜合案例)
第七部分:Yarn 資源排程框架(架構,原理,三種資源排程策略)
第八部分:Apche Hadoop核心原始碼剖析(nn,dn啟動流程原始碼分析,nn高並行的支撐原理, hadoop3.0新特性)
第九部分: 調優及二次開發範例(hdfs,mr,yarn調優,nn常見GC問題,完成二次開發編譯原始碼)

1.1 巨量資料簡介

1.1.1 巨量資料的定義

​ 巨量資料是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處 理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

1.1.2 巨量資料的特點

巨量資料的特點可以用 IBM 曾經提出的 「5V」 來描述,如下:

  • 大量

    採集、儲存和計算的資料量都非常大。

    計算機儲存單位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB來表示, 它們之間的關係是
    1GB = 1024 MB
    1TB = 1024 GB
    1PB = 1024 TB
    1EB = 1024 PB
    1ZB = 1024 EB
    1YB = 1024 ZB
    1BB = 1024 YB
    1NB = 1024 BB
    1DB = 1024 NB

    以PB為例,PB級資料量有多大?是怎樣的一個概念?

    假如手機播放MP3的速度為平均每分鐘1MB,而1首歌曲的平均時長為4分鐘,那麼1PB存量的歌曲可以連續播放2000年。

    1PB 也相當於50%的全美學術研究圖書館藏書諮詢內容。

    (1)1986年,全球只有0.02EB也就是約21000TB的資料量
    (2)2007年,全球就是280EB也就是約300000000TB的資料量,翻了14000倍
    (3)近些年,由於行動網際網路及物聯網的出現,各種終端裝置的接入,各種業務形式的普 及,平均每40個月,全球的資料量就會翻倍!2012年,每天會產生2.5EB的資料量
    (4)基於IDC的報告預測,從2013年到2020年,全球資料量會從4.4ZB猛增到44ZB!而到了 2025年,全球會有163ZB的資料量!

    全球的資料量已經大到爆了!而傳統的關係型資料庫根本處理不了如此海量的資料!

  • 高速

    在巨量資料時代,資料的建立、儲存、分析都要求被高速處理,比如電商網站的個性化推薦儘可能要求實時完成推薦,這也是巨量資料區別於傳統資料探勘的顯著特徵。

  • 多樣

    資料形式和來源多樣化。包括結構化、半結構化和非結構化資料,具體表現為網路紀錄檔、音 頻、視訊、圖片、地理位置資訊等等,多型別的資料對資料的處 理能力提出了更高的要求。

  • 真實

    確保資料的真實性,才能保證資料分析的正確性

  • 低價值

    資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。網際網路發展催生了大量資料,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演演算法來挖掘資料價值,是巨量資料時代最需要解決的問題,也是一個有難度的課題。

1.1.3 巨量資料的應用場景

隨著巨量資料的發展,巨量資料技術已經廣泛應用在眾多行業,比如倉儲物流、電商零售、汽車、電信、生物醫學、人工智慧、智慧城市等等領域,包括在疫情防控戰中,巨量資料技術也發揮了重要的作用。

  • 倉儲物流
    巨量資料技術驅動了倉儲物流領域的智慧化發展,以蘇寧為例,蘇寧物流可在全國的各級倉庫間實現 智慧分倉、就近備貨和預測式調撥,實現」客戶需要的商品就在離客戶最近的配送中心「。

  • 電商零售

    • 零售業 」 啤酒+紙尿褲 「 案例

  • 個性推薦

  • 」 雙11購物節 「 實時銷售額大屏

  • 汽車

    利用了巨量資料和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活

  • 電信
    移動聯通根據使用者年齡、職業、消費情況,分析統計哪種套餐適合哪類人群,對市場人群精準客製化。

  • 生物醫學

    巨量資料可以幫助我們實現流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,瞭解更多的生命奧祕。比如影像巨量資料支撐下的早期肺癌支撐平臺,基於大量病例資料樣本,制定早期肺癌高危人群預警指標。

  • 人工智慧

  • 智慧城市

    巨量資料有效支撐智慧城市發展,成為城市的」資料大腦「。比如,在智慧城市建設上,杭州始終走在全國前列。如覆蓋面廣的行動支付、新穎的線上醫療模式、創新的物流運輸模式,都受到較大關注。2016年,杭州被《中國新型智慧城市》白皮書評為「中國最智慧的城市」。

巨量資料的價值,遠遠不止於此,巨量資料對各行各業的滲透,大大推動了社會生產和生活,未來必將產生重大而深遠的影響。

1.1.4 巨量資料的發展趨勢及職業路線

1.4.4.1 巨量資料發展趨勢

  1. 2015年黨的十八屆五中全會提出「實施國家巨量資料戰略」,國務院印發《促進巨量資料發展行動綱要》,巨量資料技術和應用處於創新突破期,國內市場需求處於爆發期,我國巨量資料產業面臨重要的發展機遇

  2. 2017年十九大報告明確 "推動網際網路、巨量資料、人工智慧和實體經濟深度融合"

  3. 2020年全國政協十三屆三次會議新聞釋出會上,更進一步強調:巨量資料、人工智慧、5G是引領 未來發展的戰略性技術

    顯然,發展巨量資料是我國的戰略性決策,前景自然不言而喻

  4. 2017年北京大學、中國人民大學、北京郵電大學等25所高校成功申請開設巨量資料課程

  5. 巨量資料屬於高新技術,大牛少,升職競爭小

  6. 2020年5月6日,人力資源和社會保障部發布《新職業—巨量資料工程技術人員就業景氣現狀分析報告》,報告顯示:預計2020年中國巨量資料行業人才需求規模將達210萬,2025年前巨量資料人才需求仍將保持30%~40%的增速,需求總量在2000萬人左右

  7. 在北京巨量資料開發工程師的平均薪水已經超越 1.5w 直逼2w,而且目前還保持強勁的發展勢頭

1.4.4.2 巨量資料職業發展路線

​ 目前巨量資料高、中、低三個檔次的人才都很缺。現在我們談巨量資料,就像當年談電商一樣,未來前景已經很明確,接下來就是優勝劣汰,競爭上崗。不想當架構師的程式設計師不是好架構師!但是,巨量資料發展到現階段,涉及巨量資料相關的職業崗位也越來越精細。

​ 從職業發展來看,由巨量資料開發、挖掘、演演算法、到架構。從級別來看,從工程師、高階工程師,再到架構師,甚至到科學家。而且,契合不同的行業領域,又有專屬於這些行業的崗位衍生,如涉及金融領域的資料分析師等。巨量資料的相關工作崗位有很多,有資料分析師、資料探勘工程師、巨量資料開發工程師、巨量資料產品經理、視覺化工程師、爬蟲工程師、巨量資料運營經理、巨量資料架構師、資料科學家等等。

​ 從事崗位:ETL工程師,資料倉儲工程師,實時流處理工程師,人物誌工程師,資料探勘,演演算法工程師,推薦系統工程。