ClickHouse(12)ClickHouse合併樹MergeTree家族表引擎之AggregatingMergeTree詳細解析

2023-02-06 21:00:29


AggregatingMergeTree引擎繼承自 MergeTree,並改變了資料片段的合併邏輯。ClickHouse會將一個資料片段內所有具有相同主鍵(準確的說是排序鍵)的行替換成一行,這一行會儲存一系列聚合函數的狀態。

可以使用AggregatingMergeTree表來做增量資料的聚合統計,包括物化檢視的資料聚合。

引擎使用以下型別來處理所有列:

  • AggregateFunction
  • SimpleAggregateFunction

AggregatingMergeTree適用於能夠按照一定的規則縮減行數的情況。

建表語法

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
) ENGINE = AggregatingMergeTree()
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[TTL expr]
[SETTINGS name=value, ...]

AggregatingMergeTree表引數與MergeTree表是一致。MergeTree表引擎的解析可以參考ClickHouse(09)ClickHouse合併樹MergeTree家族表引擎之MergeTree詳細解析

查詢和插入資料

要插入資料,需使用帶有-State-聚合函數的INSERT或SELECT語句。從AggregatingMergeTree表中查詢資料時,需使用GROUP BY子句並且要使用與插入時相同的聚合函數,但字尾要改為-Merge。

對於SELECT查詢的結果,AggregateFunction型別的值對ClickHouse的所有輸出格式都實現了特定的二進位制表示法。在進行資料轉儲時,例如使用TabSeparated格式進行SELECT查詢,那麼這些轉儲資料也能直接用INSERT語句導回。

如下面的例子。

-- 建立一個AggregatingMergeTree物化檢視
CREATE MATERIALIZED VIEW test.basic
ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(StartDate) ORDER BY (CounterID, StartDate)
AS SELECT
    CounterID,
    StartDate,
    sumState(Sign)    AS Visits,
    uniqState(UserID) AS Users
FROM test.visits
GROUP BY CounterID, StartDate;

--向 test.visits 表中插入資料,資料會同時插入到表和檢視中,並且檢視 test.basic 會將裡面的資料聚合。

INSERT INTO test.visits ...

-- 獲取聚合資料,需要在test.basic檢視上執行類似SELECT ... GROUP BY ...這樣的查詢

SELECT
    StartDate,
    sumMerge(Visits) AS Visits,
    uniqMerge(Users) AS Users
FROM test.basic
GROUP BY StartDate
ORDER BY StartDate;

資料處理邏輯

最後總結一下AggregatingMergeTree的處理邏輯。

  1. 用ORBER BY排序鍵作為聚合資料的條件Key。
  2. 使用AggregateFunction欄位型別定義聚合函數的型別以及聚合的欄位。
  3. 只有在合併分割區的時候才會觸發聚合計算的邏輯。
  4. 以資料分割區為單位來聚合資料。當分割區合併時,同一資料分割區內聚合Key相同的資料會被合併計算,而不同分割區之間的資料則不會被計算。
  5. 在進行資料計算時,因為分割區內的資料已經基於ORBER BY排序,所以能夠找到那些相鄰且擁有相同聚合Key的資料。
  6. 在聚合資料時,同一分割區內,相同聚合Key的多行資料會合併成一行。對於那些非主鍵、非AggregateFunction型別欄位,則會使用第一行資料的取值。
  7. AggregateFunction型別的欄位使用二進位制儲存,在寫入資料時,需要呼叫*State函數;而在查詢資料時,則需要呼叫相應的*Merge函數。其中,*表示定義時使用的聚合函數。
  8. AggregatingMergeTree通常作為物化檢視的表引擎,與普通MergeTree搭配使用。

ClickHouse相關資料分享

ClickHouse經典中文檔案分享

參考文章:ClickHouse(03)ClickHouse怎麼安裝和部署