在Linux系統各個發行版中,Ubuntu系統在伺服器端和桌面端使用佔比最高,網路上資料最是齊全,所以這裡使用Ubuntu LTS。
整體的系統安裝檔案較大(>1G),這裡採用了迅雷加速下載。迅雷下載地址:下載迅雷工具
下載地址:Download Ubuntu Desktop。
對於虛擬機器器,這裡採用VMware,因為在諸多免費軟體裡面VMware是最好用的。
VMware 官網連結 https://www.vmware.com/
使用版本:VMware Workstation 16 Pro
百度一個祕鑰就好了,有很多可以查得到的。
推薦可以再下個Xshell用於操作終端。
Xshell免費版官網下載地址:https://www.xshell.com/zh/free-for-home-school/
這裡採用的是來自CSDN部落格的流程,圖文相當詳細所以就不再繼續贅述。
唯一需要強調一下的是在「13. 設定磁碟容量,並選擇 "將虛擬磁碟拆分成多個檔案" 。(這裡的磁碟大小看個人需求,大於等於推薦的大小)」時,可以將磁碟大小調大一點,像我這裡選擇的是80GB,這並不是意味著會馬上佔用你電腦80GB,而是一個類似上限的意思,這東西初始設定好改,後面不夠用了就很麻煩,所以初始給多一點。
首先按 ctrl+alt+t 開啟終端視窗,輸入如下命令建立新使用者 。這條命令建立了可以登陸的 hadoop 使用者,並使用 /bin/bash 作為 shell。
sudo useradd -m hadoop -s /bin/bash
接著使用如下命令設定密碼,如果提示密碼過於簡單可以無視,只要兩次相同即可:
sudo passwd hadoop
可為 hadoop 使用者增加管理員許可權,方便部署:
sudo adduser hadoop sudo
然後切換到新建的hadoop使用者下:
su hadoop
更新 apt,在 Ubuntu 中使用 apt 來下載安裝軟體,如果沒更新可能有一些軟體安裝不了。
sudo apt-get update
按照下圖依次點選 ① ②:
選擇「其他」然後選擇阿里雲映象伺服器。這等效於我們平時在 Windows 系統下安裝 python 包時使用清華映象站。
選擇關閉後會提醒你資訊過時
後續操作將不再需要圖形化介面,故建議使用 xshell 軟體,下面演示一下,如不需要可以直接跳轉至Part2。
安裝vim,提示時按y即可:
sudo apt-get install vim
安裝SSH,設定無密碼登入:
sudo apt-get install openssh-server
SSH首次登陸提示),輸入 yes 。然後按提示輸入密碼,利用 ssh-keygen 生成金鑰,並將金鑰加入到授權中:
ssh localhost exit cd ~/.ssh/ # 若沒有該目錄,再執行一次ssh localhost ssh-keygen -t rsa # 會有提示,都按回車就可以 cat ./id_rsa.pub >> ./authorized_keys # 加入授權
此時再用 ssh localhost
命令,無需輸入密碼就可以直接登入了。
我們需要先將 JDK1.8 (目前企業中主流的 java 版本仍然是 jdk1.8)下載到電腦。
然後將檔案上傳到 Ubuntu 中,這裡我採用的是 rz 的上傳方式,需要借用 xshell 工具。
cd ~ sudo mkdir Downloads # 建立 ~/Downloads 目錄用來存放下載的檔案 cd Downloads # 進入目標目錄 rz # 上傳檔案到 Ubuntu 系統中
解壓 JDK 檔案:
cd /usr/lib sudo mkdir jvm # 建立/usr/lib/jvm目錄用來存放JDK檔案 cd ~ # 進入hadoop使用者的主目錄 cd Downloads sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm # 把JDK檔案解壓到 /usr/lib/jvm 目錄下
設定環境變數:
cd ~
vim ~/.bashrc
在檔案中輸入以下內容後,按 Esc 鍵,輸入「:wq」儲存並退出
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH
執行如下命令讓.bashrc檔案的設定立即生效:
source ~/.bashrc
驗證環境變數是否生效:
java -version
如果能夠在螢幕上返回如下資訊,則說明安裝成功:
首先,你需要下載一個 hadoop-3.3.4.tar.gz(這是一個官網連結),當然你也可以下載 3.1.3 的版本,這並沒有很大的改變。
然後使用同樣的方法將檔案上傳到 Ubuntu 中。
cd ~/Downloads # 進入目標目錄 rz # 上傳檔案到 Ubuntu 系統中
將 Hadoop 安裝至 /usr/local/ 中:
sudo tar -zxvf ~/Downloads/hadoop-3.3.4.tar.gz -C /usr/local # 解壓到/usr/local中 cd /usr/local/ sudo mv ./hadoop-3.3.4/ ./hadoop # 將資料夾名改為hadoop sudo chown -R hadoop ./hadoop # 修改檔案許可權
驗證 hadoop 是否安裝成功:
cd /usr/local/hadoop
bin/hadoop version
如果能夠在螢幕上返回如下資訊,則說明安裝成功:
Hadoop 的組態檔位於 /usr/local/hadoop/etc/hadoop/ 中,偽分散式需要修改2個組態檔 core-site.xml 和 hdfs-site.xml 。Hadoop的組態檔是 xml 格式,每個設定以宣告 property 的 name 和 value 的方式來實現。
修改組態檔 core-site.xml
vim etc/hadoop/core-site.xml
將原先的<configuration></configuration>改為下面的內容:
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
修改組態檔 hdfs-site.xml:
vim etc/hadoop/hdfs-site.xml
將原先的<configuration></configuration>改為下面的內容:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
設定完成後,執行 NameNode 的格式化:
cd /usr/local/hadoop
bin/hdfs namenode -format
成功格式化返回樣例(部分):
STARTUP_MSG: Starting NameNode STARTUP_MSG: host = hadoop/127.0.1.1 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 3.3.4
如果在這一步時提示 Error: JAVA_HOME is not set and could not be found. 的錯誤,首先你要確定前面關於JDK的環境變陣列態檔中沒有出現問題。然後,到hadoop的安裝目錄修改組態檔「/usr/local/hadoop/etc/hadoop/hadoop-env.sh」,在裡面找到「export JAVA_HOME=${JAVA_HOME}」這行,然後,把它修改成JAVA安裝路徑的具體地址,比如,「export JAVA_HOME=/usr/lib/jvm/default-java」,再次啟動Hadoop。
接著開啟 NameNode 和 DataNode 守護行程:
cd /usr/local/hadoop sbin/start-all.sh #start-all.sh是個可執行檔案,中間沒有空格
對於偽分散式可以用 start-dfs.sh 啟動hadoop,等效於前面的 start-all.sh。
如果啟動 Hadoop 時遇到輸出非常多「ssh: Could not resolve hostname xxx」的異常情況,可通過設定 Hadoop 環境變數來解決。首先按鍵盤的 ctrl + c 中斷啟動,然後在 ~/.bashrc 中,增加如下兩行內容(設定過程與 JAVA_HOME 變數一樣,其中 HADOOP_HOME 為 Hadoop 的安裝目錄):
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
啟動完成後,可以通過命令 jps
來判斷是否成功啟動,若成功啟動則會列出如下程序: "NameNode"、"DataNode" 和 "SecondaryNameNode"(如果 SecondaryNameNode 沒有啟動,請執行 sbin/stop-all.sh 關閉程序,然後再次嘗試啟動嘗試)。如果沒有 NameNode 或 DataNode ,那就是設定不成功,請仔細檢查之前步驟。由於我前面執行的命令為 start-all.sh,所以是下面這個樣子。
成功啟動後,可以存取 Web 介面 http://localhost:9870 (由於hadoop版本不同,可能你需要存取的埠號是50070)以及 http://localhost:8088 檢視 NameNode 和 Datanode 資訊,還可以線上檢視 HDFS 中的檔案。
偽分散式到此就搭建完成啦!
下面會再補充一些報錯以及解決方案
(1)若是 DataNode 沒有啟動,可嘗試如下的方法(注意這會刪除 HDFS 中原有的所有資料,如果原有的資料很重要請不要這樣做)
cd /usr/local/hadoop
sbin/stop-all.sh # 關閉
rm -r ./tmp # 刪除 tmp 檔案,注意這會刪除 HDFS 中原有的所有資料
./bin/hdfs namenode -format # 重新格式化 NameNode
sbin/start-all.sh # 啟動
(2)解決 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable警告問題
vim ~/.bashrc
# 新增以下內容
export JAVA_LIBRARY_PATH=/usr/local/hadoop/lib/native
然後重新應用環境變數
source ~/.bashrc
(3)當遇到9870埠被佔用的問題時,可以通過更改啟動時的埠號來實現啟動,記得先通過 sbin/stop-dfs.sh 關閉服務,然後更改前面的 core-site.xml 檔案,往裡面新增以下內容到<configuration></configuration>中間
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>localhost:50090</value>
</property>
(4)無法存取網站,這可能是Linux中的防火牆未關閉的問題:
sudo ufw status # 檢視防火牆狀態
sudo ufw disable # 關閉防火牆
啊,好累,這篇寫了巨久
整理:BDT20040