【Redis實戰專題】「效能監控系列」全方位探索Redis的效能監控以及優化指南

Redis基本簡介

Redis是一個開源（BSD 許可）、記憶體儲存的資料結構伺服器，可用作資料庫，快取記憶體和訊息佇列代理。它支援字串、雜湊表、列表、集合、有序集合等資料型別。內建複製、Lua 指令碼、LRU收回、事務以及不同級別磁碟持久化功能，同時通過 Redis Sentinel 提供高可用，通過Redis Cluster提供自動分割區。

Redis監控指標

Redis本身提供的INFO命令會返回豐富的範例執行監控資訊，這個命令是Redis監控工具的基礎。總體INFO命令的返回資訊分成以下5大類。

效能指標：Performance
記憶體指標: Memory
基本活動指標：Basic activity
永續性指標: Persistence
錯誤指標：Error

Redis基本的監控命令—INFO 命令

INFO命令在使用時，可以帶一個引數section，這個引數的取值有好幾種，相應的，INFO 命令也會返回不同型別的監控資訊。如下圖所示：

在監控Redis 執行狀態時，INFO命令返回的結果非常有用。如果你想了解 INFO 命令的所有引數返回結果的詳細含義。可以根據Redis中文官方檔案-Info質量以及Redis官方檔案進行介紹說明。這裡，我給你提幾個運維時需要重點關注的引數以及它們的重要返回結果。

效能指標：Performance指令

無論你是執行單範例或是叢集，我建議你重點關注一下stat 、commandstat 、cpu 和 memory 這四個引數的返回結果，這裡麵包含了命令的執行情況（比如命令的執行次數和執行時間、命令使用的 CPU資源），記憶體資源的使用情況（比如記憶體已使用量、記憶體碎片率），CPU 資源使用情況等，這可以幫助我們判斷範例的執行狀態和資源消耗情況。

info stats

當執行info stats指令的時候所出現的效果：

分析的大多數結果

total_connections_received：1083173900
total_commands_processed：8313824390
instantaneous_ops_per_sec：271
total_net_input_bytes：1356487222784
total_net_output2bytes：2360788536838
instantaneous_input_kbps：13.49
instantaneous_output_kbps：1.84
rejected_connections: 0

基礎的相關的資料資訊統計

total_connections_received：主要用於統計累計的接收的總體連線數。
total_commands_processed：主要用於統計累計的命令的處理指令數量。
instantaneous_ops_per_sec：瞬時的每秒的請求數量，主要用於跟蹤已處理命令的吞吐量對於診斷Redis範例中高延遲的原因至關重要。
total_net_input_bytes：主要用於統計網路輸入的總體位元組數
total_net_output_bytes：主要用於統計網路輸出的總體位元組數
instantaneous_input_kbps：瞬時的較高的輸入的kb指。
instantaneous_output_kbps：瞬時的較高的輸出的kb指。
rejected_connections：被總體的拒接的連線數量。

永續性指標: Persistence

當你啟用RDB或AOF功能時，你就需要重點關注下 persistence 引數的返回結果，你可以通過它檢視到 RDB 或者 AOF 的執行情況。總體介紹一下持久化相關的監控資訊，如下圖所示：

RDB相關的資訊統計

rdb_changes_since_last_save:24455275 - 表明上次RDB儲存以後改變的key次數
rdb_bgsave_in_progress:0 - 表示當前是否在進行bgsave操作。是為1
rdb_last_save_time:1673341911 - 上次儲存RDB檔案的時間戳
rdb_last_bgsave_status:ok - 上次儲存的狀態
rdb_last_bgsave_time_sec:9 - 上次儲存的耗時
rdb_current_bgsave_time_sec:-1 - 目前儲存RDB檔案已花費的時間
rdb_last_cow_size:11120640 -

AOF相關的資訊統計

檔案狀態監控相關的引數

aof_enabled : 一個標誌值，記錄了 AOF 是否處於開啟狀態，1代表開啟。
aof_rewrite_in_progress : 一個標誌值，記錄了伺服器是否正在建立AOF檔案。
aof_rewrite_scheduled : 一個標誌值，記錄了在 RDB 檔案建立完畢之後，是否需要執行預約的 AOF 重寫操作。
aof_last_rewrite_time_sec : 最近一次建立 AOF 檔案耗費的時長。
aof_current_rewrite_time_sec : 如果伺服器正在建立 AOF 檔案，那麼這個域記錄的就是當前的建立操作已經耗費的秒數。
aof_last_bgrewrite_status : 一個標誌值，記錄了最近一次建立 AOF 檔案的結果是成功還是失敗。

info clients

主要標識已連線使用者端的資訊，它包含以下域：

connected_clients:406
client_recent_max_input_buffer:4
client_recent_max_output_buffer:0
blocked_clients:40

針對於使用者端的相關的結果資訊介紹說明：

connected_clients : 已連線使用者端的數量（不包括通過從屬伺服器連線的使用者端）
client_longest_output_list : 當前連線的使用者端當中，最長的輸出列表
client_longest_input_buf : 當前連線的使用者端當中，最大輸入快取
blocked_clients : 正在等待阻塞命令（BLPOP、BRPOP、BRPOPLPUSH）的使用者端的數量

info commandstats

主要用於統計相關的命令指令的執行速度以及相關的指令執行頻率。

部分記錄了各種不同型別的命令的執行統計資訊，比如命令執行的次數、命令耗費的 CPU 時間、執行每個命令耗費的平均 CPU 時間等等。對於每種型別的命令，這個部分都會新增一行以下格式的資訊：

cmdstat_multi:calls=2792,usec=188,usec_per_call=0.07

cmdstat_multi：代表著指令名稱：cmdstat_指令名稱
calls：代表著指令執行次數
usec：執行的指令時間（微秒）
usec_per_call：每秒的呼叫次數，用於計算頻次

info cpu

cpu 部分記錄了 CPU 的計算量統計資訊，它包含以下域：

used_cpu_sys : Redis 伺服器耗費的系統 CPU時間。
used_cpu_user : Redis 伺服器耗費的使用者 CPU時間。
used_cpu_sys_children : 後臺程序耗費的系統 CPU時間。
used_cpu_user_children : 後臺程序耗費的使用者 CPU時間。

user_cpu_sys 和user_cpu_sys_children

user_cpu_sys是Redis主程序消耗，user_cpu_sys_children是後臺程序消耗（後臺包括RDB檔案的消耗，master，slave同步產生的消耗等等）

user指的是指令在使用者態（User Mode）所消耗的CPU時間
sys指的是指令在核心態（Kernel Mode）所消耗的CPU時間。

發現這4個CPU指標是一個統計指標，比如used_cpu_sys是將所有Redis主程序在核心態所佔用的CPU時間求和累計起來，所以它會隨著Redis啟動的時間長度不斷累計上升，並在你重啟Redis服務後清0。

info memory

memory 部分記錄了伺服器的記憶體資訊，它包含以下域

used_memory : 由Redis分配器分配的記憶體總量，以位元組（byte）為單位
used_memory_human : 以使用者可讀的格式返回Redis分配的記憶體總量
used_memory_rss : 從作業系統的角度，返回 Redis 已分配的記憶體總量（俗稱常駐集大小）。這個值和 top 、 ps 等命令的輸出一致。
used_memory_peak : Redis的記憶體消耗峰值（以位元組為單位）
used_memory_peak_human : 以使用者可讀的格式返回 Redis 的記憶體消耗峰值
used_memory_lua : Lua引擎所使用的記憶體大小（以位元組為單位）
mem_fragmentation_ratio : used_memory_rss 和 used_memory 之間的比率
mem_allocator : 在編譯時指定的， Redis 所使用的記憶體分配器。可以是 libc 、 jemalloc 或者 tcmalloc 。

在理想情況下， used_memory_rss 的值應該只比 used_memory 稍微高一點兒。
當 rss > used ，且兩者的值相差較大時，表示存在（內部或外部的）記憶體碎片。
記憶體碎片的比率可以通過 mem_fragmentation_ratio 的值看出。

當 used > rss 時，表示Redis的部分記憶體被作業系統換出到交換空間了，在這種情況下，操作可能會產生明顯的延遲。

當 Redis 釋放記憶體時，分配器可能會，也可能不會，將記憶體返還給作業系統。如果 Redis 釋放了記憶體，卻沒有將記憶體返還給作業系統，那麼 used_memory 的值可能和作業系統顯示的 Redis 記憶體佔用並不一致。

基本活動指標：Basic activity

如果你在使用主從叢集，就要重點關注下 replication 引數的返回結果，這裡麵包含了主從同步的實時狀態。

info replication

主/從複製資訊

role : 如果當前伺服器沒有在複製任何其他伺服器，那麼這個域的值就是 master ；否則的話，這個域的值就是 slave 。注意，在建立複製鏈的時候，一個從伺服器也可能是另一個伺服器的主伺服器。

如果當前伺服器是一個從伺服器的話，那麼這個部分還會加上以下域：

master_host : 主伺服器的 IP 地址。
master_port : 主伺服器的 TCP 監聽埠號。
master_link_status : 複製連線當前的狀態， up 表示連線正常， down 表示連線斷開。
master_last_io_seconds_ago : 距離最近一次與主伺服器進行通訊已經過去了多少秒鐘。
master_sync_in_progress : 一個標誌值，記錄了主伺服器是否正在與這個從伺服器進行同步。

如果同步操作正在進行，那麼這個部分還會加上以下域：

master_sync_left_bytes : 距離同步完成還缺少多少位元組資料。
master_sync_last_io_seconds_ago : 距離最近一次因為 SYNC 操作而進行 I/O 已經過去了多少秒。

如果主從伺服器之間的連線處於斷線狀態，那麼這個部分還會加上以下域：

master_link_down_since_seconds : 主從伺服器連線斷開了多少秒。

INFO 命令只是提供了文字形式的監控結果，並沒有視覺化，所以，在實際應用中，我們還可以使用一些第三方開源工具，將 INFO 命令的返回結果視覺化。接下來，我要講的 Prometheus ，就可以通過外掛將 Redis 的統計結果視覺化。

參考資料

Prometheus的Redis-exporter監控

Prometheus監控體系

Prometheus是一套開源的系統監控報警框架。它的核心功能是從被監控系統中拉取監控資料，結合Grafana 工具，進行視覺化展示。

監控資料

監控資料可以儲存到時序資料庫中，以便運維人員進行歷史查詢。同時，Prometheus 會檢測系統的監控指標是否超過了預設的閾值，一旦超過閾值，Prometheus 就會觸發報警。

對於系統的日常運維管理來說，這些功能是非常重要的。而Prometheus已經實現了使用這些功能的工具框架。我們只要能從被監控系統中獲取到監控資料，就可以用 Prometheus 來實現運維監控。

Redis-exporter外掛

Prometheus 正好提供了外掛功能來實現對一個系統的監控，我們把外掛稱為 exporter ，每一個 exporter實際是一個採集監控資料的元件。exporter採集的資料格式符合 Prometheus 的要求，Prometheus 獲取這些資料後，就可以進行展示和儲存了。

Redis-exporter

Redis-exporter就是用來監控 Redis的，它將 INFO 命令監控到的執行狀態和各種統計資訊提供給 Prometheus，從而進行視覺化展示和報警設定。目前，Redis-exporter 可以支援 Redis 2.0 至 6.0 版本，適用範圍比較廣。

除了獲取 Redis 範例的執行狀態，Redis-exporter 還可以監控鍵值對的大小和集合型別資料的元素個數，這個可以在執行 Redis-exporter 時，使用 check-keys 的命令列選項來實現。

此外，我們可以開發一 Lua 指令碼，客製化化採集所需監控的資料。然後，我們使用 scripts 命令列選項，讓 Redis-exporter 執行這個特定的指令碼，從而可以滿足業務層的多樣化監控需求。

Redis-stat 和Redis Live工具

Redis-exporter 相比，這兩個都是輕量級的監控工具。它們分別是用 Ruby 和 Python 開發的，也是將 INFO 命令提供的範例執行狀態資訊視覺化展示。雖然這兩個工具目前已經很少更新了，不過，如果你想自行開發 Redis 監控工具，它們都是不錯的參考。