摘要: HetuEngine作為MRS服務中互動式分析&多源統一SQL引擎,親自全程體驗其如何實現多資料來源的跨源跨域分析能力。
本文分享自華為雲社群《MRS HetuEngine體驗跨源跨域分析【玩轉華為雲】》,作者:龍哥手記。
HetuEngine作為MRS服務中互動式分析&多源統一SQL引擎,親自全程體驗其如何實現多資料來源的跨源跨域分析能力。
1)使用者通過登入Windows跳板機,使用SQL開發工具DBeaver連線MRS叢集A的HetuEngine進行分析體驗
2)跨源分析體驗,通過HetuEngine0連線叢集內部資料來源hive
3)跨源分析體驗,通過HetuEngine0連線叢集內部資料來源hbase
4)跨倉分析體驗,通過HetuEngine0連線關係型資料庫DWS
5)跨湖分析體驗,通過HetuEngine0連線到MRS叢集B的HetuEngine1再連線到叢集B的資料來源hive
登入:http://121.13.226.78:18080/ssh/#/
① 使用者名稱:hdc01,
② 密碼:請聯絡現場引導員獲取
點選右下角的MIT Kerberos,選擇Get Tickets輸入使用者名稱密碼獲取Kerberos認證票據
① Principal:[email protected],
② Password: Admin12!
點選三角符號開啟已設定好的HetuEngine連線
說明:
① dws: 外部dws資料庫
② hbase: MRS叢集A中的hbase資料來源
③ hetu1: 遠端MRS叢集B的HetuEngine
④ hive: MRS叢集A中的hive資料來源
選擇設定好的hive資料來源92-hive - New Connection,右鍵選擇SQL Editor
輸入以下SQL語句並檢視結果與時間
SELECT * FROM sales h1 WHERE h1.price >30;
選擇設定好的hive資料來源92-HetuEngine - New Connection,右鍵選擇SQL Editor
輸入以下的SQL語句並檢視結果和時間
SELECT * FROM hive.default.sales h1 WHERE h1.price >30;
通過比較兩次查詢時間,可以看到HetuEngine會加速查詢效能,比普通的hive查詢更加快速;
在開啟的SQL Editor中輸入如下SQL語句查詢MRS叢集A的HBase資料
SELECT * FROM hbase.default.sales;
在開啟的SQL Editor中輸入如下SQL語句查詢DWS叢集C中的維表資料
SELECT * FROM dws.public.person;
在開啟的SQL Editor中輸入如下SQL語句可做MRS叢集A的hive與DWS叢集C的跨倉資料分析
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hive.default.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id WHERE h1.price >30;
在開啟的SQL Editor中輸入如下SQL語句可做MRS叢集A的hbase與DWS叢集C的跨倉資料分析
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hbase.default.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id WHERE h1.price >50;
出於管理和資訊收集的需要,企業內部會儲存海量資料,包括數目眾多的各種資料庫、資料倉儲等,此時會面臨資料來源種類繁多、資料集結構化混合、相關資料存放分散等困境,導致跨源查詢開發成本高,跨源複雜查詢耗時長。HetuEngine提供了統一標準SQL實現跨源協同分析,簡化跨源分析操作;
在開啟的SQL Editor中輸入如下SQL語句可做MRS叢集B中HetuEngine的hive跨湖查詢
SELECT * FROM hetu1.hetu1_hive.sales;
開啟SQL Editor輸入如下SQL語句可做MRS叢集B中HetuEngine的hive同DWS叢集C的跨湖查詢
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hetu1.hetu1_hive.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id;
HetuEngine提供統一標準SQL對分佈於多個地域(或資料中心)的多種資料來源實現高效存取,遮蔽資料在結構、儲存及地域上的差異,實現資料與應用的解耦。