隨著資料量的增大,傳統關係型資料庫越來越不能滿足對於海量資料儲存的需求。對於分散式關係型資料庫,我們瞭解其底層儲存結構是非常重要的。本文將介紹下分散式關係型資料庫 TiDB 所採用的底層儲存結構 LSM 樹的原理。
LSM 樹(Log-Structured-Merge-Tree) 紀錄檔結構合併樹由 Patrick O’Neil 等人在論文《The Log-Structured Merge Tree》(https://www.cs.umb.edu/~poneil/lsmtree.pdf)中提出,它實際上不是一棵樹,而是2個或者多個不同層次的樹或類似樹的結構的集合。
LSM 樹的核心特點是利用順序寫來提高寫效能,代價就是會稍微降低讀效能(讀放大),寫入量增大(寫放大)和佔用空間增大(空間放大)。
LSM 樹主要被用於 NoSql 資料庫中,如 HBase、RocksDB、LevelDB 等,知名的分散式關係型資料庫 TiDB 的 kv 儲存引擎 TiKV 底層儲存就是用的上面所說的 RocksDB,也就是用的 LSM 樹。
LSM 樹由兩個或多個樹狀的結構組成。
這一節我們以兩個樹狀的結構構成的簡單的雙層 LSM 樹舉例,來簡單說下 LSM 樹大概思路,讓大家對 LSM 樹實現有個整體的認識。
原論文中的圖
雙層 LSM 樹有一個較小的層,該層完全駐留在記憶體中,作為 C0 樹(或 C0 層),以及駐留在磁碟上的較大層,稱為 C1 樹。
儘管 C1 層駐留在磁碟上,但 C1 中經常參照的節點將保留在記憶體緩衝區中,因此C1經常參照的節點也可以被視為記憶體駐留節點。
寫入時,首先將記錄行寫入順序紀錄檔檔案 WAL 中,然後再將此記錄行的索引項插入到記憶體駐留的 C0 樹中,然後通過非同步任務及時遷移到磁碟上的 C1 樹中。
任何搜尋索引項將首先在 C0 中查詢,在 C0 中未找到,然後再在 C1 中查詢。
如果存在崩潰恢復,還需要讀取恢復崩潰前未從磁碟中取出的索引項。
將索引條目插入駐留在記憶體中的 C0 樹的操作沒有 I/O 成本,然而,與磁碟相比,容納 C0 元件的記憶體容量成本較高,這對其大小施加了限制。達到一定大小後,我們就需要將資料遷移到下一層。
我們需要一種有效的方法將記錄項遷移到駐留在成本較低的磁碟媒介上的 C1 樹中。為了實現這一點,當插入達到或接近每一層分配的最大值的閾值大小,將進行一個捲動合併(Compact)過程,用於從 C0 樹中刪除一些連續的記錄項,並將其合併到 C1 中。
Compact 目前有兩種策略,size-tiered 策略,leveled策略,我們將在下面的內容裡詳細介紹這兩種策略。
在 C0 樹中的項遷移到駐留在磁碟上的C1樹之前,存在一定的延遲(延遲),為了保證機器崩潰後C0樹中的資料不丟失,在生成每個新的歷史記錄行時,首先將用於恢復此插入的紀錄檔記錄寫入以常規方式建立的順序紀錄檔檔案 WAL 中,然後再寫入 C0 中。
LSM樹有三個重要組成部分,MemTable,Immutable MemTable,SSTable(Sorted String Table),如下圖。
這張經典圖片來自 Flink PMC 的 Stefan Richter 在Flink Forward 2018演講的PPT
這幾個組成部分分別對應 LSM 樹的不同層次,不同層級間資料轉移見下圖。這節就是介紹 LSM 樹抽象的不同層的樹狀資料結構的某個具體實現方式。
MemTable 是在記憶體中的資料結構,用於儲存最近更新的資料,會按照 Key 有序地組織這些資料。LSM 樹對於具體如何組織有序地組織資料並沒有明確的資料結構定義,例如你可以任意選擇紅黑樹、跳錶等資料結構來保證記憶體中 key 的有序。
為了使記憶體資料持久化到磁碟時不阻塞資料的更新操作,在 MemTable 變為 SSTable 中間加了一個 Immutable MemTable。
當 MemTable 達到一定大小後,會轉化成 Immutable MemTable,並加入到 Immutable MemTable 佇列尾部,然後會有任務從 Immutable MemTable 佇列頭部取出 Immutable MemTable 並持久化磁碟裡。
有序鍵值對集合,是 LSM 樹組在磁碟中的資料結構。
其檔案結構基本思路就是先劃分為資料塊(類似於 mysql 中的頁),然後再為資料塊建立索引,索引項放在檔案末尾,並用布隆過濾器優化查詢。
當某層資料量大小達到我們預設的閾值後,我們就會通過 Compact 策略將其轉化到下一層。
在介紹 Compact 策略前,我們先想想如果讓我們自己設計 Compact 策略,對於以下幾個問題,我們該如何選擇。
不同的選擇會造成不同的讀寫策略,基於以上 3 個問題,又帶來了 3 個概念:
不同的策略實際就是圍繞這三個概念之間做出權衡和取捨,我們主要介紹兩種基本策略:size-tiered 策略和 leveled 策略,這兩個策略對於以上 3 個概念做了不同的取捨。
由此可以看出 size-tiered 策略幾個特點:
由此可以看出 leveled 策略幾個特點:
從 LSM 樹的名字,Log-Structured-Merge-Tree 紀錄檔結構合併樹中我們大概就能知道 LSM 樹的插入、修改、刪除的方法了——順序追加而非修改(對磁碟操作而言)。
LSM 樹特點:順序寫入、Compact 操作、讀、寫和空間放大。
LSM 樹適用場景:對於寫操作吞吐量要求很高、讀操作吞吐量要就較高的場景,目前主要在 NoSql 資料庫中用的比較多。