很多的開發者都使用過mongodb,在mongodb中資料記錄是以檔案的形式存在的(類似於一種多級巢狀SQL的形式)。比如下面的JSON資料結構:dev_ip表示某一臺伺服器的ip、location欄位存放經緯度、meminfo.total和meminfo.userd分別代表記憶體總量和使用量。
[{
"dev_ip": "123.46.5.111",
"location": [39.916527, 116.397128],
"meminfo": {
"total": 64,
"used": 23.2
}
},
{
"dev_ip": "123.46.5.112",
"location": [39.916144, 116.392582],
"meminfo": {
"total": 64,
"used": 27.8
}
}]
儲存檔案需要使用到Map這種資料型別,在某些比較舊的版本中,Map資料型別還是實驗性的,不能直接使用。如果想使用,需要執行set allow_experimental_map_type = 1;
。
然後我們可以按照JSON的資料結構來建表,location是陣列Array資料型別,meminfo是Map資料型別。
CREATE TABLE dev_meminfo (
dev_ip String,
location Array(Float64),
meminfo Map(String, Float32)
)
ENGINE = MergeTree()
ORDER BY dev_ip;
clickhouse提供了陣列型別Array(T),陣列型別由多個T元素組成。T可以是任意的基礎資料型別,或者也可以是陣列型別。如果是陣列型別就形成了多維陣列,Cickhouse對多維陣列的支援有限,所以不建議使用多維陣列。陣列裡面所有的T元素的資料型別必須是一樣的,否則會丟擲異常。
在linux環境下,我們可以將JSON資料儲存為一個檔案,命名如:dev_meminfo.json。然後使用下面的命令列,完成檔案JSON資料的入庫。jq
的作用是將JSON陣列及Map從結構中剝離出來,從而符合JSONEachRow要求的輸入格式。
cat dev_meminfo.json |jq -c .[] | clickhouse-client --database acaidb -m -u acai --password '<你的密碼>' \
--query="INSERT INTO dev_meminfo FORMAT JSONEachRow"
或者我們可以直接使用INSERT語句來完成資料的單條插入,如下:
INSERT INTO dev_meminfo FORMAT JSONEachRow {"dev_ip": "123.46.5.112", "location": [39.916144, 116.392582],"meminfo": {"total": 64,"used": 27.8}};
select *
的方式查詢資料:
# clickhouse-client --database acaidb -m -u acai --password '4rfv$RFV' --query="SELECT * FROM dev_meminfo"
123.46.5.111 [39.916527,116.397128] {'total':64,'used':23.2}
123.46.5.112 [39.916144,116.392582] {'total':64,'used':27.8}
使用欄位名稱方式查詢資料,需要注意的是Ciickhouse的陣列的下標是從0開始的,這與我們傳統程式設計開發中的規範是不一致的。
# clickhouse-client --database acaidb -m -u acai --password '4rfv$RFV' --query="SELECT dev_ip,location[1],location[2],meminfo['total'],meminfo['used'] FROM dev_meminfo"
123.46.5.111 39.916527 116.397128 64 23.2
123.46.5.112 39.916144 116.392582 64 27.8
我們看到clickhouse可以代替mongodb進行類JSON檔案資料的儲存,而且支援SQL查詢統計分析,這一點是比較吸引人的。我只是介紹了簡單的查詢,其實針對各種統計分析場景,clickhouse提供了超級多的統計分析函數、視窗函數等等,當然針對陣列的資料型別也有很多的統計分析函數。
更為值得注意的是:筆者看到一些測評文章,clickhouse的的統計分析效能是mongodb的近百倍之多(筆者自己尚未驗證,請關注我的專欄後續文章)。但是也不是說clickhouse可以代替mongodb的所有應用場景,至少面向使用者的並行請求的場景clickhouse是不滿足的,因為clickhouse的定位是資料倉儲,主要是面向資料分析OLAP場景,而不是面向使用者高並行的聯機事務處理OLTP。
限於博文篇幅,更多精彩內容我就不一一列舉了,推薦閱讀
《原創精品視訊及配套檔案:springboot-已錄製97節(免費)》
等等等等