作者:京東零售 王雷
• 哨兵模式
在redis3.0以前的版本要實現叢集一般是藉助哨兵sentinel工具來監控master節點的狀態,如果master節點異常,則會做主從切換,將某一臺slave作為master,哨兵的設定略微複雜,並且效能和高可用性等各方面表現一般。
特別是在主從切換的瞬間存在存取瞬斷的情況,而且哨兵模式只有一個主節點對外提供服務,沒法支援很高的並行,且單個主節點記憶體也不宜設定得過大,否則會導致持久化檔案過大,影響資料恢復或主從同步的效率。
• 高可用叢集模式
redis叢集是一個由多個主從節點群組成的分散式伺服器群,它具有複製、高可用和分片特性。Redis叢集不需要sentinel哨兵也能完成節點移除和故障轉移的功能。
需要將每個節點設定成叢集模式,這種叢集模式沒有中心節點,可水平擴充套件,據官方檔案稱可以線性擴充套件到上萬個節點(官方推薦不超過1000個節點)。redis叢集的效能和高可用性均優於之前版本的哨兵模式,且叢集設定非常簡單。
• redis叢集搭建
redis叢集需要至少三個master節點,我們這裡搭建三個master節點,並且給每個master再搭建一個slave節點,總共6個redis節點,這裡用三臺機器部署6個redis範例,每臺機器一主一從,搭建叢集的步驟如下:
第一步:在第一臺機器的/usr/local下建立資料夾redis-cluster,然後在其下面分別建立2個檔案夾如下
(1)mkdir -p /usr/local/redis-cluster
(2)mkdir 8001 8004
第二步:把之前的redis.conf組態檔copy到8001下,修改如下內容:
(1)daemonize yes
(2)port 8001(分別對每個機器的埠號進行設定)
(3)pidfile /var/run/redis_8001.pid # 把pid程序號寫入pidfile設定的檔案
(4)dir /usr/local/redis-cluster/8001/(指定資料檔案存放位置,必須要指定不同的目錄位置,不然會丟失資料)
(5)cluster-enabled yes(啟動叢集模式)
(6)cluster-config-file nodes-8001.conf(叢集節點資訊檔案,這裡800x最好和port對應上)
(7)cluster-node-timeout 10000
(8)# bind 127.0.0.1(bind繫結的是自己機器網路卡的ip,如果有多塊網路卡可以配多個ip,代表允許使用者端通過機器的哪些網路卡ip去存取,內網一般可以不設定bind,註釋掉即可)
(9)protected-mode no (關閉保護模式)
(10)appendonly yes
如果要設定密碼需要增加如下設定:
(11)requirepass test (設定redis存取密碼)
(12)masterauth test (設定叢集節點間存取密碼,跟上面一致)
第三步:把修改後的組態檔,copy到8004,修改第2、3、4、6項裡的埠號,可以用批次替換:
:%s/源字串/目的字串/g
第四步:另外兩臺機器也需要做上面幾步操作,第二臺機器用8002和8005,第三臺機器用8003和8006
第五步:分別啟動6個redis範例,然後檢查是否啟動成功
(1)/usr/local/redis-5.0.3/src/redis-server /usr/local/redis-cluster/800*/redis.conf
(2)ps -ef | grep redis 檢視是否啟動成功
第六步:用redis-cli建立整個redis叢集(redis5以前的版本叢集是依靠ruby指令碼redis-trib.rb實現)
# 下面命令裡的1代表為每個建立的主伺服器節點建立一個從伺服器節點
# 執行這條命令需要確認三臺機器之間的redis範例要能相互存取,可以先簡單把所有機器防火牆關掉,如果不關閉防火牆則需要開啟redis伺服器埠和叢集節點gossip通訊埠16379(預設是在redis埠號上加1W)
# 關閉防火牆
# systemctl stop firewalld # 臨時關閉防火牆
# systemctl disable firewalld # 禁止開機啟動
# 注意:下面這條建立叢集的命令大家不要直接複製,裡面的空格編碼可能有問題導致建立叢集不成功
(1)/usr/local/redis-5.0.3/src/redis-cli -a test --cluster create --cluster-replicas 1 192.168.0.61:8001 192.168.0.62:8002 192.168.0.63:8003 192.168.0.61:8004 192.168.0.62:8005 192.168.0.63:8006
第七步:驗證叢集:
(1)連線任意一個使用者端即可:./redis-cli -c -h -p (-a存取伺服器端密碼,-c表示叢集模式,指定ip地址和埠號)
如:/usr/local/redis-5.0.3/src/redis-cli -a test -c -h 192.168.0.61 -p 800*
(2)進行驗證: cluster info(檢視叢集資訊)、cluster nodes(檢視節點列表)
(3)進行資料操作驗證
(4)關閉叢集則需要逐個進行關閉,使用命令:
/usr/local/redis-5.0.3/src/redis-cli -a test -c -h 192.168.0.60 -p 800* shutdown
藉助redis的java使用者端jedis可以操作以上叢集,參照jedis版本的maven座標如下:
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>2.9.0</version>
</dependency>
Java編寫存取redis叢集的程式碼非常簡單,如下所示:
public class JedisClusterTest {
public static void main(String[] args) throws IOException {
JedisPoolConfig config = new JedisPoolConfig();
config.setMaxTotal(20);
config.setMaxIdle(10);
config.setMinIdle(5);
Set<HostAndPort> jedisClusterNode = new HashSet<HostAndPort>();
jedisClusterNode.add(new HostAndPort("192.168.0.61", 8001));
jedisClusterNode.add(new HostAndPort("192.168.0.62", 8002));
jedisClusterNode.add(new HostAndPort("192.168.0.63", 8003));
jedisClusterNode.add(new HostAndPort("192.168.0.61", 8004));
jedisClusterNode.add(new HostAndPort("192.168.0.62", 8005));
jedisClusterNode.add(new HostAndPort("192.168.0.63", 8006));
JedisCluster jedisCluster = null;
try {
//connectionTimeout:指的是連線一個url的連線等待時間
//soTimeout:指的是連線上一個url,獲取response的返回等待時間
jedisCluster = new JedisCluster(jedisClusterNode, 6000, 5000, 10, "zhuge", config);
System.out.println(jedisCluster.set("cluster", "test"));
System.out.println(jedisCluster.get("cluster"));
} catch (Exception e) {
e.printStackTrace();
} finally {
if (jedisCluster != null)
jedisCluster.close();
}
}
}
執行效果如下:
OK
test
叢集的Spring Boot整合Redis連執行緒式碼見範例專案:redis-sentinel-cluster
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-redis</artifactId>
</dependency>
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-pool2</artifactId>
</dependency>
springboot專案核心設定:
server:
port: 8080
spring:
redis:
database: 0
timeout: 3000
password: wl
cluster:
nodes: 192.168.0.61:8001,192.168.0.62:8002,192.168.0.63:8003,192.168.0.61:8004,192.168.0.62:8005,192.168.0.63:8006
lettuce:
pool:
max-idle: 50
min-idle: 10
max-active: 100
max-wait: 1000
存取程式碼:
@RestController
public class IndexController {
private static final Logger logger = LoggerFactory.getLogger(IndexController.class);
@Autowired
private StringRedisTemplate stringRedisTemplate;
@RequestMapping("/test_cluster")
public void testCluster() throws InterruptedException {
stringRedisTemplate.opsForValue().set("test", "666");
System.out.println(stringRedisTemplate.opsForValue().get("test"));
}
}
Redis Cluster 將所有資料劃分為 16384 個 slots(槽位),每個節點負責其中一部分槽位。槽位的資訊儲存於每個節點中。
當 Redis Cluster 的使用者端來連線叢集時,它也會得到一份叢集的槽位設定資訊並將其快取在使用者端本地。這樣當用戶端要查詢某個 key 時,可以直接定位到目標節點。同時因為槽位的資訊可能會存在使用者端與伺服器不一致的情況,還需要糾正機制來實現槽位資訊的校驗調整。
• 槽位定位演演算法
Cluster 預設會對 key 值使用 crc16 演演算法進行 hash 得到一個整數值,然後用這個整數值對 16384 進行取模來得到具體槽位。
HASH_SLOT = CRC16(key) mod 16384
• 跳轉重定位
當用戶端向一個錯誤的節點發出了指令,該節點會發現指令的 key 所在的槽位並不歸自己管理,這時它會向用戶端傳送一個特殊的跳轉指令攜帶目標操作的節點地址,告訴使用者端去連這個節點去獲取資料。使用者端收到指令後除了跳轉到正確的節點上去操作,還會同步更新糾正原生的槽位對映錶快取,後續所有 key 將使用新的槽位對映表。
• Redis叢集節點間的通訊機制
redis cluster節點間採取gossip協定進行通訊
維護叢集的後設資料(叢集節點資訊,主從角色,節點數量,各節點共用的資料等)有兩種方式:集中式和gossip
• 集中式
優點在於後設資料的更新和讀取,時效性非常好,一旦後設資料出現變更立即就會更新到集中式的儲存中,其他節點讀取的時候立即就可以立即感知到;不足在於所有的後設資料的更新壓力全部集中在一個地方,可能導致後設資料的儲存壓力。 很多中介軟體都會藉助zookeeper集中式儲存後設資料。
• gossip:
gossip協定包含多種訊息,包括ping,pong,meet,fail等等。
1)meet:某個節點傳送meet給新加入的節點,讓新節點加入叢集中,然後新節點就會開始與其他節點進行通訊;
2)ping:每個節點都會頻繁給其他節點傳送ping,其中包含自己的狀態還有自己維護的叢集後設資料,互相通過ping交換後設資料(類似自己感知到的叢集節點增加和移除,hash slot資訊等);
3)pong: 對ping和meet訊息的返回,包含自己的狀態和其他資訊,也可以用於資訊廣播和更新;
4)fail: 某個節點判斷另一個節點fail之後,就傳送fail給其他節點,通知其他節點,指定的節點宕機了。
gossip協定的優點在於後設資料的更新比較分散,不是集中在一個地方,更新請求會陸陸續續,打到所有節點上去更新,有一定的延時,降低了壓力;缺點在於後設資料更新有延時可能導致叢集的一些操作會有一些滯後。
gossip通訊的10000埠
每個節點都有一個專門用於節點間gossip通訊的埠,就是自己提供服務的埠號+10000,比如7001,那麼用於節點間通訊的就是17001埠。 每個節點每隔一段時間都會往另外幾個節點傳送ping訊息,同時其他幾點接收到ping訊息之後返回pong訊息。
• 網路抖動
真實世界的機房網路往往並不是風平浪靜的,它們經常會發生各種各樣的小問題。比如網路抖動就是非常常見的一種現象,突然之間部分連線變得不可存取,然後很快又恢復正常。
為解決這種問題,Redis Cluster 提供了一種選項cluster-node-timeout,表示當某個節點持續 timeout 的時間失聯時,才可以認定該節點出現故障,需要進行主從切換。如果沒有這個選項,網路抖動會導致主從頻繁切換 (資料的重新複製)。
Redis叢集選舉原理分析
當slave發現自己的master變為FAIL狀態時,便嘗試進行Failover,以期成為新的master。由於掛掉的master可能會有多個slave,從而存在多個slave競爭成為master節點的過程, 其過程如下:
1)slave發現自己的master變為FAIL
2)將自己記錄的叢集currentEpoch加1,並廣播FAILOVER_AUTH_REQUEST 資訊
3)其他節點收到該資訊,只有master響應,判斷請求者的合法性,並行送FAILOVER_AUTH_ACK,對每一個epoch只傳送一次ack
4)嘗試failover的slave收集master返回的FAILOVER_AUTH_ACK
5)slave收到超過半數master的ack後變成新Master(這裡解釋了叢集為什麼至少需要三個主節點,如果只有兩個,當其中一個掛了,只剩一個主節點是不能選舉成功的)
6)slave廣播Pong訊息通知其他叢集節點。
從節點並不是在主節點一進入 FAIL 狀態就馬上嘗試發起選舉,而是有一定延遲,一定的延遲確保我們等待FAIL狀態在叢集中傳播,slave如果立即嘗試選舉,其它masters或許尚未意識到FAIL狀態,可能會拒絕投票
DELAY = 500ms + random(0 ~ 500ms) + SLAVE_RANK * 1000ms
SLAVE_RANK表示此slave已經從master複製資料的總量的rank。Rank越小代表已複製的資料越新。這種方式下,持有最新資料的slave將會首先發起選舉(理論上)。
redis叢集沒有過半機制會有腦裂問題,網路分割區導致腦裂後多個主節點對外提供寫服務,一旦網路分割區恢復,會將其中一個主節點變為從節點,這時會有大量資料丟失。
規避方法可以在redis設定里加上引數(這種方法不可能百分百避免資料丟失,參考叢集leader選舉機制):
min-replicas-to-write 1 //寫資料成功最少同步的slave數量,這個數量可以模仿大於半數機制設定,比如叢集總共三個節點可以設定1,加上leader就是2,超過了半數
*注意:這個設定在一定程度上會影響叢集的可用性,比如slave要是少於1個,這個叢集就算leader正常也不能提供服務了,需要具體場景權衡選擇。
當redis.conf的設定
cluster-require-full-coverage為no時,表示當負責一個插槽的主庫下線且沒有相應的從庫進行故障恢復時,叢集仍然可用,如果為yes則叢集不可用。
Redis叢集為什麼至少需要三個master節點,並且推薦節點數為奇數?
因為新master的選舉需要大於半數的叢集master節點同意才能選舉成功,如果只有兩個master節點,當其中一個掛了,是達不到選舉新master的條件的。
奇數個master節點可以在滿足選舉該條件的基礎上節省一個節點,比如三個master節點和四個master節點的叢集相比,大家如果都掛了一個master節點都能選舉新master節點,如果都掛了兩個master節點都沒法選舉新master節點了,所以奇數的master節點更多的是從節省機器資源角度出發說的。
Redis叢集對批次操作命令的支援
對於類似mset,mget這樣的多個key的原生批次操作命令,redis叢集只支援所有key落在同一slot的情況,如果有多個key一定要用mset命令在redis叢集上操作,則可以在key的前面加上{XX},這樣引數資料分片hash計算的只會是大括號裡的值,這樣能確保不同的key能落到同一slot裡去,範例如下:
mset {user1}:1:name zhuge {user1}:1:age 18
假設name和age計算的hash slot值不一樣,但是這條命令在叢集下執行,redis只會用大括號裡的 user1 做hash slot計算,所以算出來的slot值肯定相同,最後都能落在同一slot。
哨兵leader選舉流程
當一個master伺服器被某sentinel視為下線狀態後,該sentinel會與其他sentinel協商選出sentinel的leader進行故障轉移工作。每個發現master伺服器進入下線的sentinel都可以要求其他sentinel選自己為sentinel的leader,選舉是先到先得。同時每個sentinel每次選舉都會自增設定紀元(選舉週期),每個紀元中只會選擇一個sentinel的leader。如果所有超過一半的sentinel選舉某sentinel作為leader。之後該sentinel進行故障轉移操作,從存活的slave中選舉出新的master,這個選舉過程跟叢集的master選舉很類似。
哨兵叢集只有一個哨兵節點,redis的主從也能正常執行以及選舉master,如果master掛了,那唯一的那個哨兵節點就是哨兵leader了,可以正常選舉新master。
不過為了高可用一般都推薦至少部署三個哨兵節點。為什麼推薦奇數個哨兵節點原理跟叢集奇數個master節點類似。