數據庫設計規範

2020-08-14 11:06:36

設計規範

1.【推薦】欄位允許適當冗餘,以提高查詢效能,但必須考慮數據一致。冗餘欄位應遵循:

不是頻繁修改的欄位。
不是 varchar 超長欄位,更不能是 text 欄位。

正例:商品類目名稱使用頻率高,欄位長度短,名稱基本一成不變,可在相關聯的表中冗餘存 儲類目名稱,避免關聯查詢。

2.【推薦】單錶行數超過 500 萬行或者單表容量超過 2GB,才推薦進行分庫分表。 說明:如果預計2年後的數據量根本達不到這個級別,請不要在建立表時就分庫分表。

3.【推薦】id必須是主鍵,每個表必須有主鍵,且保持增長趨勢的, 小型系統可以依賴於 MySQL 的自增主鍵,大型系統或者需要分庫分表時才使用內建的 ID 生成器

4.【強制】id型別沒有特殊要求,必須使用bigint unsigned,禁止使用int,即使現在的數據量很小。id如果是數位型別的話,必須是8個位元組。參見最後例子

  • 方便對接外部系統,還有可能產生很多廢數據
  • 避免廢棄數據對系統id的影響
  • 未來分庫分表,自動生成id,一般也是8個位元組

5.【推薦】欄位儘量設定爲 NOT NULL, 爲欄位提供預設值。 如字元型的預設值爲一個空字元值串’’;數值型預設值爲數值 0;邏輯型的預設值爲數值 0;

6.【推薦】每個欄位和表必須提供清晰的註釋

7.【推薦】時間統一格式:‘YYYY-MM-DD HH:MM:SS’

8.【強制】更新數據表記錄時,必須同時更新記錄對應的 gmt_modified 欄位值爲當前時間,

命名規範

1.【強制】表達是與否概唸的欄位,必須使用 is_xxx 的方式命名,數據型別是 unsigned tinyint ( 1表示是,0表示否)。
說明:任何欄位如果爲非負數,必須是 unsigned。
正例:表達邏輯刪除的欄位名 is_deleted,1 表示刪除,0 表示未刪除。
2.【強制】表名、欄位名必須使用小寫字母或數位,禁止出現數字開頭,禁止兩個下劃線中間只 出現數字。數據庫欄位名的修改代價很大,因爲無法進行預發佈,所以欄位名稱需要慎重考慮。 說明:MySQL 在 Windows 下不區分大小寫,但在 Linux 下預設是區分大小寫。因此,數據庫 名、表名、欄位名,都不允許出現任何大寫字母,避免節外生枝。 正例:health_user,rdc_config,level3_name 反例:HealthUser,rdcConfig,level_3_name
3.【強制】表名不使用複數名詞。 說明:表名應該僅僅表示表裏面的實體內容,不應該表示實體數量,對應於 DO 類名也是單數 形式,符合表達習慣。
4.【強制】禁用保留字,如 desc、range、match、delayed 等,請參考 MySQL 官方保留字。
5.【強制】主鍵索引名爲 pk_欄位名;唯一索引名爲 uk_欄位名;普通索引名則爲 idx_欄位名。
說明:pk_ 即 primary key;uk_ 即 unique key;idx_ 即 index 的簡稱。
6.【強制】小數型別爲 decimal,禁止使用 float 和 double。
說明:float 和 double 在儲存的時候,存在精度損失的問題,很可能在值的比較時,得到不 正確的結果。如果儲存的數據範圍超過 decimal 的範圍,建議將數據拆成整數和小數分開儲存。
7.【強制】如果儲存的字串長度幾乎相等,使用 char 定長字串型別。
8.【強制】varchar 是可變長字串,不預先分配儲存空間,長度不要超過 5000,如果儲存長 度大於此值,定義欄位型別爲 text,獨立出來一張表,用主鍵來對應,避免影響其它欄位索 引效率。
9.【強制】表必備三欄位:id, is_delete,gmt_create, gmt_modified。 說明:其中id必爲主鍵,型別爲unsigned bigint、單表時自增、步長爲1。gmt_create, gmt_modified 的型別均爲 date_time 型別,前者現在時表示主動建立,後者過去分詞表示被 動更新。
10.【強制】所有命名必須使用全名,有預設約定的除外,如果超過 30 個字元,使用縮寫,請儘量名字易懂簡短,如 description --> desc;information --> info;address --> addr 等
11.【推薦】表的命名最好是加上「業務名稱_表的作用」。 正例:health_user / trade_config
12.【推薦】庫名與應用名稱儘量一致。如health
13.【推薦】如果修改欄位含義或對欄位表示的狀態追加時,需要及時更新欄位註釋
14.【推薦】所有時間欄位,都以 gmt_開始,後面加上動詞的過去式,最後不要加上 time 單詞,例如 gmt_create

型別規範

1.表示狀態欄位(0-255)的使用 TINYINT UNSINGED,禁止使用列舉 型別,註釋必須清晰地說明每個列舉的含義,以及是否多選等

2.表示boolean型別的都使用TINYINT(1),因爲mysql本身是沒有boolean型別的,在自動生成程式碼的時候,DO物件的欄位就是boolean型別,例如 is_delete;其餘所有時候都使用TINYINT(4)

TINYINT(4),這個括號裏面的數值並不是表示使用多大空間儲存,而是最大顯示寬度,並且只有欄位指定zerofill時有用,沒有zerofill,(m)就是無用的,例如id
BIGINT ZEROFILL NOT
NULL,所以建表時就使用預設就好了,不需要加括號了,除非有特殊需求,例如TINYINT(1)代表boolean型別。

TINYINT(1),TINYINT(4)都是儲存一個位元組,並不會因爲括號裡的數位改變。例如TINYINT(4)儲存22則會顯示0022,因爲最大寬度爲4,達不到的情況下用0來補充。

3.【參考】合適的字元儲存長度,不但節約數據庫表空間、節約索引儲存,更重要的是提升檢索速度。

型別 位元組 範圍
tinyint 1 無符號值: 0~255;有符號值: -128~127
smallint 2 無符號值: 0~65536;有符號值: -32768~32767
mediumint 3 無符號值: 0~16777215;有符號值: -8388608~8388607
int 4 無符號值: 0~4294967295;有符號值: -2147483648~2147483647
bigint 8 無符號值: 0~((2³²×²)-1);有符號值: -(2³²×²)/2 ~ (2³²×²)/2-1

4.非負的數位型別欄位,都新增上 UNSINGED, 如可以使用 INT UNSINGED 欄位存 IPV4

5.時間欄位使用時間日期型別,不要使用字串型別儲存,日期使用DATE型別,年使用YEAR型別,日期時間使用DATETIME

6.字串VARCHAR(N), 其中 N表示字元個數,請儘量減少 N 的大小,參考:code VARCHAR(32);name VARCHAR(32);memo VARCHAR(512);

7.Blob 和 Text 型別所儲存的數據量大,刪除和修改操作容易在數 據表裏產生大量的碎片,避免使用 Blob 或 Text 型別

索引規範

1.【強制】業務上具有唯一特性的欄位,即使是多個欄位的組合,也必須建成唯一索引。

不要以爲唯一索引影響了 insert 速度,這個速度損耗可以忽略,但提高查詢速度是明
顯的;另外,即使在應用層做了非常完善的校驗控制,只要沒有唯一索引,根據墨菲定律,必 然有髒數據產生。

2.【強制】超過三個表禁止 join。需要 join 的欄位,數據型別必須絕對一致;多表關聯查詢時, 保證被關聯的欄位需要有索引。

即使雙表 join 也要注意表索引、SQL 效能。

3.【強制】在 varchar 欄位上建立索引時,必須指定索引長度,沒必要對全欄位建立索引,根據 實際文字區分度決定索引長度即可。 說明:索引的長度與區分度是一對矛盾體,一般對字串型別數據,長度爲 20 的索引,區分度會高達 90%以上,可以使用 count(distinct left(列名, 索引長度))/count(*)的區分度來確定。

4.【強制】頁面搜尋嚴禁左模糊或者全模糊,如果需要請走搜尋引擎來解決。

索引檔案具有 B-Tree 的最左字首匹配特性,如果左邊的值未確定,那麼無法使用此索引。

5.【推薦】如果有 order by 的場景,請注意利用索引的有序性。order by 最後的欄位是組合索引的一部分,並且放在索引組合順序的最後,避免出現 file_sort 的情況,影響查詢效能。

正例:where a=? and b=? order by c; 索引:a_b_c
反例:索引中有範圍查詢,那麼索引有序性無法利用,如:WHERE a>10 ORDER BY b; 索引 a_b 無法排序。

6.【推薦】利用覆蓋索引來進行查詢操作,避免回表。
說明:如果一本書需要知道第11章是什麼標題,會翻開第11章對應的那一頁嗎?目錄瀏覽一下就好,這個目錄就是起到覆蓋索引的作用。

正例:能夠建立索引的種類:主鍵索引、唯一索引、普通索引,而覆蓋索引是一種查詢的效果,用explain的結果,extra列會出現:using index。

7.【推薦】利用延遲關聯或者子查詢優化超多分頁場景。
說明:MySQL並不是跳過 offset 行,而是取 offset+N 行,然後返回放棄前 offset 行,返回 N 行,那當 offset 特別大的時候,效率就非常的低下,要麼控制返回的總頁數,要麼對超過特定閾值的頁數進行 SQL 改寫。

正例:先快速定位需要獲取的 id 段,然後再關聯:

SELECT a.* FROM 表 1 a, (select id from 表 1 where 條件 LIMIT 100000,20 ) b where a.id=b.id

8.【推薦】SQL 效能優化的目標:至少要達到 range 級別,要求是 ref 級別,如果可以是 consts 最好。

說明:

  • consts 單表中最多隻有一個匹配行(主鍵或者唯一索引),在優化階段即可讀取到數據。
  • ref 指的是使用普通的索引(normal index)。
  • range 對索引進行範圍檢索。
    反例:explain 表的結果,type=index,索引物理檔案全掃描,速度非常慢,這個 index 級 別比較 range 還低,與全表掃描是小巫見大巫。

9.【推薦】建組合索引的時候,區分度最高的在最左邊。
正例:如果 where a=? and b=? ,a 列的幾乎接近於唯一值,那麼只需要單建 idx_a 索引即 可。

說明:存在非等號和等號混合判斷條件時,在建索引時,請把等號條件的列前置。如:where a>? and b=? 那麼即使 a 的區分度更高,也必須把 b 放在索引的最前列。

10【推薦】防止因欄位型別不同造成的隱式轉換,導致索引失效。

11.【參考】建立索引時避免有如下極端誤解

  • 寧濫勿缺。認爲一個查詢就需要建一個索引。
  • 寧缺勿濫。認爲索引會消耗空間、嚴重拖慢更新和新增速度。
  • 抵制惟一索引。認爲業務的惟一性一律需要在應用層通過「先查後插」方式解決。

總結

• 索引佔磁碟空間,不要重複的索引,儘量短  
• 只給常用的查詢條件加索引  
• 過濾性高的列建索引,取值範圍固定的列不建索引 
• 唯一的記錄新增唯一索引  
• 頻繁更新的列不要建索引  
• 不要對索引列運算  
• 同樣過濾效果下,保持索引長度最小  
• 合理利用組合索引,注意索引欄位先後順序  
• 多列組合索引,過濾性高的欄位最前  
• order by 欄位建立索引,避免 filesort  
• 組合索引,不同的排序順序不能使用索引  
• <>!=無法使用索引

SQL規範

1.【強制】不要使用 count(列名)或 count(常數)來替代 count(),count()是 SQL92 定義的 標準統計行數的語法,跟數據庫無關,跟 NULL 和非 NULL 無關。

count(*)會統計值爲 NULL 的行,而 count(列名)不會統計此列爲 NULL 值的行。

2.【強制】count(distinct col) 計算該列除 NULL 之外的不重複行數,

count(distinct col1, col2) 如果其中一列全爲NULL,那麼即使另一列有不同的值,也返回爲0。

3.【強制】當某一列col的值全是 NULL 時,count(col)的返回結果爲 0,但 sum(col)的返回結果爲 NULL,因此使用 sum()時需注意 NPE 問題。

正例:可以使用如下方式來避免sum的NPE問題:SELECT IF(ISNULL(SUM(g)),0,SUM(g)) FROM table;

4.【強制】使用 ISNULL()來判斷是否爲 NULL 值。 說明:NULL 與任何值的直接比較都爲 NULL。

  • NULL<>NULL的返回結果是NULL,而不是false。
  • NULL=NULL的返回結果是NULL,而不是true。
  • NULL<>1的返回結果是NULL,而不是true。

5.【強制】 在程式碼中寫分頁查詢邏輯時,若 count 爲 0 應直接返回,避免執行後面的分頁語句。

6.【強制】不得使用外來鍵與級聯,一切外來鍵概念必須在應用層解決。 說明:以學生和成績的關係爲例,學生表中的 student_id 是主鍵,那麼成績表中的 student_id 則爲外來鍵。如果更新學生表中的 student_id,同時觸發成績表中的 student_id 更新,即爲 級聯更新。外來鍵與級聯更新適用於單機低併發,不適合分佈式、高併發叢集;級聯更新是強阻 塞,存在數據庫更新風暴的風險;外來鍵影響數據庫的插入速度。

7.【強制】禁止使用儲存過程,儲存過程難以偵錯和擴充套件,更沒有移植性。

8.【強制】數據訂正時,刪除和修改記錄時,要先 select,避免出現誤刪除,確認無誤才能 纔能執行更新語句。

9.【推薦】in操作能避免則避免,若實在避免不了,需要仔細評估 in 後邊的集合元素數量,控
制在 1000 個之內。

10.【參考】如果有全球化需要,所有的字元儲存與表示,均以 utf-8 編碼,注意字元統計函數 的區別。

說明:

SELECT LENGTH(「輕鬆工作」); 返回爲12
SELECT CHARACTER_LENGTH(「輕鬆工作」); 返回爲4 如果需要儲存表情,那麼選擇 utfmb4 來進行儲存,注意它與 utf-8 編碼的區別。

11.【參考】TRUNCATE TABLE 比 DELETE 速度快,且使用的系統和事務日誌資源少,但 TRUNCATE 無事務且不觸發trigger,有可能造成事故,故不建議在開發程式碼中使用此語句。 說明:TRUNCATE TABLE 在功能上與不帶 WHERE 子句的 DELETE 語句相同。

12.【推薦】不要寫一個大而全的數據更新介面。傳入爲 POJO 類,不管是不是自己的目標更新字 段,都進行 update table set c1=value1,c2=value2,c3=value3; 這是不對的。執行 SQL 時,不要更新無改動的欄位,一是易出錯;二是效率低;三是增加 binlog 儲存。

13.總結

• 能夠快速縮小結果集的 WHERE 條件寫在前面,如果有恆量條 件,也儘量放在前面 ,例如 where 1=1  
• 避免使用 GROUP BY、DISTINCT 等語句的使用,避免聯表查 詢和子查詢 
• 能夠使用索引的欄位儘量進行有效的合理排列  
• 針對索引欄位使用 >, >=, =, <, <=, IF NULL 和 BETWEEN 將會 使用索引,如果對某個索引欄位進行 LIKE 查詢,使用 LIKE   ‘%abc%’ 不能使用索引,使用 LIKE ‘abc%’ 將能夠使用索引  
• 如果在 SQL 裡使用了 MySQL部分自帶函數,索引將失效
• 避免直接使用 select *,只取需要的欄位,增加使用覆蓋索引使用的可能  
• 對於大數據量的查詢,儘量避免在 SQL 語句中使用 order by 字
句 
• 連表查詢的情況下,要確保關聯條件的數據型別一致,避免嵌
套子查詢  
• 對於連續的數值,使用 between 代替 in  
• where 語句中儘量不要使用 CASE 條件  
• 當只要一行數據時使用 LIMIT 1

例子

CREATE TABLE `health_package` (
  `id` bigint unsigned NOT NULL AUTO_INCREMENT COMMENT '序號',
  `package_id` int unsigned NOT NULL COMMENT '套系 id',
  `module_id`  int unsigned NOT NULL COMMENT '模組 id',
  `is_delete` tinyint unsigned NOT NULL DEFAULT 0 COMMENT '是否刪除,0-未刪除,1-刪除,預設爲0',
  `gmt_create` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT 'Create time, common column by DB rules',
  `gmt_modified` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT 'Modified time,common column by DB rules ',
  PRIMARY KEY (`id`)
) COMMENT='This table stores module and package of health for ...';

數據庫欄位型別有多少位元組

1 bytes = 8 bit ,一個位元組最多可以代表的數據長度是2的8次方 11111111 在計算機中也就是

-128到127

1.BIT[M]

位欄位型別,M表示每個值的位數,範圍從1到64,如果M被忽略,預設爲1

2.TINYINT[(M)] [UNSIGNED] [ZEROFILL] M預設爲4

很小的整數。帶符號的範圍是-128到127。無符號的範圍是0到255。

  1. BOOL,BOOLEAN

是TINYINT(1)的同義詞。zero值被視爲假。非zero值視爲真。

4.SMALLINT[(M)] [UNSIGNED] [ZEROFILL] M預設爲6

小的整數。帶符號的範圍是-32768到32767。無符號的範圍是0到65535。

5.MEDIUMINT[(M)] [UNSIGNED] [ZEROFILL] M預設爲9

中等大小的整數。帶符號的範圍是-8388608到8388607。無符號的範圍是0到16777215。

6.INT[(M)] [UNSIGNED] [ZEROFILL] M預設爲11

普通大小的整數。帶符號的範圍是-2147483648到2147483647。無符號的範圍是0到4294967295。

7.BIGINT[(M)] [UNSIGNED] [ZEROFILL] M預設爲20

大整數。帶符號的範圍是-9223372036854775808到9223372036854775807。無符號的範圍是0到18446744073709551615。

注意:這裏的M代表的並不是儲存在數據庫中的具體的長度,以前總是會誤以爲int(3)只能儲存3個長度的數位,int(11)就會儲存11個長度的數位,這是大錯特錯的。

其實當我們在選擇使用int的型別的時候,不論是int(3)還是int(11),它在數據庫裏面儲存的都是4個位元組的長度,在使用int(3)的時候如果你輸入的是10,會預設給你儲存位010,也就是說這個3代表的是預設的一個長度,當你不足3位時,會幫你不全,當你超過3位時,就沒有任何的影響。

前天組管問我 int(10)與int(11)有什麼區別,當時覺得就是長度的區別吧,現在看,他們之間除了在儲存的時候稍微有點區別外,在我們使用的時候是沒有任何區別的。int(10)也可以代表2147483647這個值int(11)也可以代表。