讓Apache Beam在GCP Cloud Dataflow上跑起來

2023-02-02 06:00:28

簡介

在文章《Apache Beam入門及Java SDK開發初體驗》中大概講了Apapche Beam的簡單概念和本地執行,本文將講解如何把程式碼執行在GCP Cloud Dataflow上。

本地執行

通過maven命令來建立專案:

mvn archetype:generate \
    -DarchetypeGroupId=org.apache.beam \
    -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \
    -DarchetypeVersion=2.37.0 \
    -DgroupId=org.example \
    -DartifactId=word-count-beam \
    -Dversion="0.1" \
    -Dpackage=org.apache.beam.examples \
    -DinteractiveMode=false

上面會建立一個目錄word-count-beam,裡面是一個例子專案。做一些簡單修改就可以使用了。

先build一次,保證依賴下載成功:

$ mvn clean package

通過IDEA本地執行一下,新增入參如下:

--output=pkslow-beam-counts --inputFile=/Users/larry/IdeaProjects/pkslow-samples/README.md

處理的檔案是README.md,輸出結果字首為pkslow-beam-counts

或者通過命令列來執行也可以:

mvn compile exec:java \
    -Dexec.mainClass=org.apache.beam.examples.WordCount \
    -Dexec.args="--output=pkslow-beam-counts --inputFile=/Users/larry/IdeaProjects/pkslow-samples/README.md"

在GCP Cloud Dataflow上執行

準備環境

要有對應的Service Account和key,當然還要有許可權;

要開啟對應的Service;

建立好對應的Bucket,上傳要處理的檔案。

執行

然後在本地執行命令如下:

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \
     -Dexec.args="--runner=DataflowRunner --gcpTempLocation=gs://pkslow-dataflow/temp \
                  --project=pkslow --region=us-east1 \
                  --inputFile=gs://pkslow-dataflow/input/README.md --output=gs://pkslow-dataflow//pkslow-counts" \
     -Pdataflow-runner

紀錄檔比較長,它大概做的事情就是把相關Jar包上傳到temp目錄下,因為執行的時候要參照。如:

Nov 03, 2022 8:41:48 PM org.apache.beam.runners.dataflow.util.PackageUtil tryStagePackage
INFO: Uploading /Users/larry/.m2/repository/org/apache/commons/commons-compress/1.8.1/commons-compress-1.8.1.jar to gs://pkslow-dataflow/temp/staging/commons-compress-1.8.1-X8oTZQP4bsxsth-9F7E31Z5WtFx6VJTmuP08q9Rpf70.jar
Nov 03, 2022 8:41:48 PM org.apache.beam.runners.dataflow.util.PackageUtil tryStagePackage
INFO: Uploading /Users/larry/.m2/repository/org/codehaus/jackson/jackson-mapper-asl/1.9.13/jackson-mapper-asl-1.9.13.jar to gs://pkslow-dataflow/temp/staging/jackson-mapper-asl-1.9.13-dOegenby7breKTEqWi68z6AZEovAIezjhW12GX6b4MI.jar

檢視Bucket,確實有一堆jar包:

接著會建立dataflow jobs開始工作了。可以檢視介面的Jobs如下:

點進去可以看到流程和更多細節:

最後到Bucket檢視結果也出來了:

程式碼

程式碼請看GitHub: https://github.com/LarryDpk/pkslow-samples