可以使用AggregatingMergeTree表來做增量資料的聚合統計,包括物化檢視的資料聚合。
引擎使用以下型別來處理所有列:
AggregatingMergeTree適用於能夠按照一定的規則縮減行數的情況。
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
...
) ENGINE = AggregatingMergeTree()
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[TTL expr]
[SETTINGS name=value, ...]
AggregatingMergeTree表引數與MergeTree表是一致。MergeTree表引擎的解析可以參考ClickHouse(09)ClickHouse合併樹MergeTree家族表引擎之MergeTree詳細解析
要插入資料,需使用帶有-State-聚合函數的INSERT或SELECT語句。從AggregatingMergeTree表中查詢資料時,需使用GROUP BY子句並且要使用與插入時相同的聚合函數,但字尾要改為-Merge。
對於SELECT查詢的結果,AggregateFunction型別的值對ClickHouse的所有輸出格式都實現了特定的二進位制表示法。在進行資料轉儲時,例如使用TabSeparated格式進行SELECT查詢,那麼這些轉儲資料也能直接用INSERT語句導回。
如下面的例子。
-- 建立一個AggregatingMergeTree物化檢視
CREATE MATERIALIZED VIEW test.basic
ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(StartDate) ORDER BY (CounterID, StartDate)
AS SELECT
CounterID,
StartDate,
sumState(Sign) AS Visits,
uniqState(UserID) AS Users
FROM test.visits
GROUP BY CounterID, StartDate;
--向 test.visits 表中插入資料,資料會同時插入到表和檢視中,並且檢視 test.basic 會將裡面的資料聚合。
INSERT INTO test.visits ...
-- 獲取聚合資料,需要在test.basic檢視上執行類似SELECT ... GROUP BY ...這樣的查詢
SELECT
StartDate,
sumMerge(Visits) AS Visits,
uniqMerge(Users) AS Users
FROM test.basic
GROUP BY StartDate
ORDER BY StartDate;
最後總結一下AggregatingMergeTree的處理邏輯。
本文來自部落格園,作者:張飛的豬,轉載請註明原文連結:https://www.cnblogs.com/the-pig-of-zf/p/17096571.html
公眾號:張飛的豬巨量資料分享,不定期分享巨量資料學習的總結和相關資料,歡迎關注。
個人網站"張飛的豬程式設計工作室"連結: https://zhangfeidezhu.com