推薦學習:
首先我們要知道,由於為了實現持久化,只能將索引儲存在硬碟上,通過索引來進行查詢的時候就會產生硬碟的 I/O 操作,因此,設計索引時需要儘可能的減少查詢次數,從而減少 I/O 耗時。
此外還需要知道一個很重要的原理:資料庫管理儲存空間的基本單位是頁(Page)
,一個頁中儲存多條行記錄(Row)。
計算機系統對磁碟 I/O 會做預讀
優化,當一次I/O時,除了當前磁碟地址的資料以外,還會把相鄰的資料也讀取到記憶體緩衝池中,每一次 I/O 讀取的資料成為一頁,InnoDB 預設的頁大小是 16KB。
連續的 64 個頁組成一個區(Extent)
,一個或多個區組成一個段(Segment)
,一個或多個段組成表空間(Tablespace)
。InnoDB 有兩種表空間型別,共用表空間表示多張表共用一個表空間,獨立表空間表示每張表的資料和索引全部存在獨立的表空間中。
資料頁結構如下(圖源:極客時間《MySQL 必知必會》):
資料頁的 7 個結構內容可以大致分為以下三類:
詳情可參考淘寶的資料庫核心月報
很自然的,我們會想到查詢演演算法中涉及到的一些常用資料結構,比如二叉查詢樹,二叉平衡樹等等,實際上,Innodb 的索引是用 B+ 樹
來實現的,下面我們來看看為何會選擇這種索引結構。
先來簡單回顧一下二元搜尋樹(Binary Search Tree)的定義,二元搜尋樹中,如果要查詢的 key 大於根節點,則在右子樹中搜尋,如果 key 小於根節點,則在左子樹中搜尋,直到找到 key 為止,時間複雜度為 O(logn)。比如數列 [4,2,6,1,3,5,7],會生成如下二元搜尋樹:
但是在某些特殊情況下,二元樹的深度會非常大,比如 [1,2,3,4,5,6,7],則會生成如下的樹:
在下面這種情況中,最壞的情況下需要查 7 次才能夠查到想要的結果,查詢時間變成了 O(n)。
為了優化這種情況,就有了平衡二元搜尋樹(AVL 樹),AVL 樹是指左右子樹的高度相差不超過 1 的樹,搜尋時間複雜度為 O(logn),這已經是比較理想的搜尋樹了,但是在動輒幾千萬行記錄的資料庫中,樹的深度還是會很高,依然不是最理想的結構。
那麼,如果從二元樹擴充套件到 N 叉樹呢,很容易想象到,N 叉樹可以大大的減少樹的深度,實際上,4 層樹結構就已經可以支撐幾十 T 的資料了。
B 樹(Balance Tree)就是這樣的一種 N 叉樹, B 樹也稱為 B- 樹,滿足如下定義:
設 k 為 B 樹的度 (degree, 表示每個節點最多能有多少個子節點),
k - 1
個關鍵字 和 k
個子節點的指標上面已經提到,每一次 I/O 會預讀一個磁碟塊的資料,大小為一頁,用一個磁碟塊的內容表示一次 I/O,B 樹的結構如下圖 (圖源:極客時間 SQL 必知必會):
B 樹也是有序的,由於子節點指標一定比關鍵字多 1,所以正好可以用關鍵字劃分子節點的區段,如圖中的例子,每個節點有 2 個關鍵字,3 個子節點,如磁碟塊 2 ,第一個位元組點的關鍵字 3,5 小於自身的第一個子節點 8,第二個子節點的 9,10 在 8 和 12 之間,第三個子節點的值 13,15 大於自身的第二個子節點 12。
假設我們現在要查詢 9,步驟如下:
可以看到,雖然做了很多次比較的操作,但是由於進行了預讀,所以在磁碟塊內部的比較是在記憶體中進行的,不耗費磁碟 I/O,上述操作只需要進行 3 次 I/O 即可完成,已經是比較理想的結構了。
B+ 樹在 B 樹的基礎上進行了進一步的改進,B+ 樹和 B 樹的區別有以下幾點:
範例如下,本例中,父節點的關鍵字都是子節點中的最小值 (圖源:極客時間 SQL 必知必會):
假設要查詢關鍵字 16,查詢步驟如下:
B+ 樹優點:
MySQL 的 memory 儲存引擎預設的索引結構是 Hash 索引,Hash 是一種函數, 稱為雜湊函數,通過特定演演算法(如 MD5, SHA1,SHA2 等)將任意長度的輸入轉換為固定長度的輸出,輸入和輸出一一對應,本文不會對 hash 函數做深入的介紹,詳情請參考 百度百科。
Hash 查詢的效率為 O(1),效率非常高,python 的 dict,golang 中的 map,java 中的 hash map 都是基於 hash 實現的,在 Redis 這樣的 Key-Value 資料庫也是由 Hash 實現。
對於精確查詢而言,Hash 索引的效率會比 B+ 樹索引更高,但是 Hash 索引有一些侷限性,因此不是最主流的索引結構。
基於上述原因考慮,Mysql InnoDB 引擎不支援 Hash 索引,但是在記憶體結構中有一個自適應 Hash 索引的功能,當某個索引值使用非常頻繁的時候,會在 B+ 樹索引的基礎上自動建立一個 Hash 索引,來提高查詢效能。
自適應 Hash 索引可以理解為一種 「索引的索引」,採用 Hash 索引儲存 B+ 樹索引中的頁面地址,迅速定位到對應的葉子節點。可以通過 innodb_adaptive_hash_index
變數來檢視。
推薦學習:
以上就是深入瞭解MySQL索引結構的詳細內容,更多請關注TW511.COM其它相關文章!