Kettle數據抽取——建立轉換的詳細步驟(叢集模式執行)

2020-08-11 16:30:50

Kettle使用教學(叢集模式提交)

Kettle自己有三個主要元件:Spoon,Kitchen,Pan。其中Spoon是一個圖形化的介面,用於windows的時候,先設定環境變數:pentaho_java_home,例如:C:\Program Files\jdk1.8,其實就是你的java安裝目錄,1.6以上即可。windows下雙擊Spoon.bat就可以了,介面如下:
在这里插入图片描述

全量數據抽取範例(以Postgresql到Postgresql爲例)

檔案->新建轉換

在这里插入图片描述

  1. 新建轉換後在左邊的主物件樹中建立DB連線用以連線數據庫。如圖所示:
    在这里插入图片描述

  2. 建立DB連線資訊(以Postgresql爲例)
    在这里插入图片描述

  3. 數據庫連線高階設定

    • 指定預設連線Scheme資訊
      在这里插入图片描述
  4. 設定成功後點擊測試或者瀏覽驗證連線設定是否正確
    在这里插入图片描述

  5. 在覈心物件樹中的輸入建立表輸入(拖拽或者雙擊)在这里插入图片描述

  6. 雙擊拖過來的表,可以編輯表輸入,選擇數據庫連線和編輯sql語句。
    在这里插入图片描述

  7. 在覈心物件樹中的輸出建立表輸出(拖拽或者雙擊)

  8. 通過「跳」將兩個操作關聯(或者按下shift鍵將表輸入指向表輸出)
    在这里插入图片描述

  9. 設定表輸出

  • 表輸出時可以通過主選項設定導出數據的自動分割區依據
  • 可以通過勾選指定數據庫欄位然後在數據庫欄位選項設定表輸入與表輸出之間的欄位對應關係
    在这里插入图片描述
  1. 建立子伺服器連線
    在这里插入图片描述
  • master節點(勾選主伺服器)
    在这里插入图片描述

  • slave1節點
    在这里插入图片描述

  • slave2節點
    在这里插入图片描述

  1. 建立Kettle叢集
    在这里插入图片描述
  • 點選選擇子伺服器將三臺機器全選
    在这里插入图片描述

  • 最終設定頁面
    在这里插入图片描述

  1. 建立執行設定
    在这里插入图片描述
  • 最終設定介面
    在这里插入图片描述
  1. 執行轉換範例(叢集模式執行)
    在这里插入图片描述
  • 設定執行模式爲剛纔設定的叢集執行模式、日誌級別爲詳細
    在这里插入图片描述
  1. 檢視執行結果