redis 集群介绍
主从架构无法实现master和slave角色的自动切换,即当master出现redis服务异常、主机断电、磁盘损 坏等问题导致master无法使用,而redis主从复制无法实现自动的故障转移(将slave 自动提升为新 master),需要手动修改环境配置,才能切换到slave redis服务器,另外当单台Redis服务器性能无法满足 业务写入需求的时候,也无法横向扩展Redis服务的并行写入性能 需要解决以上的两个核心问题: master和slave角色的无缝切换,让业务无感知从而不影响业务使用 可横向动态扩展Redis服务器,从而实现多台服务器并行写入以实现更高并发的目的。 Redis 集群实现方式: 客户端分片: 由应用决定将不同的KEY发送到不同的Redis服务器 代理分片: 由代理决定将不同的KEY发送到不同的Redis服务器,代理程序如:codis,twemproxy等 Redis Cluster
sentinel 架构和故障转移
Sentinel 进程是用于监控redis集群中Master主服务器工作的状态,在Master主服务器发生故障的时 候,可以实现Master和Slave服务器的切换,保证系统的高可用,此功能在redis2.6+的版本已引用, Redis的哨兵模式到了2.8版本之后就稳定了下来。一般在生产环境也建议使用Redis的2.8版本的以后版 本 哨兵(Sentinel) 是一个分布式系统,可以在一个架构中运行多个哨兵(sentinel) 进程,这些进程使用流言 协议(gossip protocols)来接收关于Master主服务器是否下线的信息,并使用投票协议(Agreement Protocols)来决定是否执行自动故障迁移,以及选择哪个Slave作为新的Master 每个哨兵(Sentinel)进程会向其它哨兵(Sentinel)、Master、Slave定时发送消息,以确认对方是否”活” 着,如果发现对方在指定配置时间(此项可配置)内未得到回应,则暂时认为对方已离线,也就是所谓的” 主观认为宕机” (主观(单个):是每个成员都具有的独自的而且可能相同也可能不同的意识),英文名称: Subjective Down,简称SDOWN 有主观宕机,对应的有客观宕机。当“哨兵群”中的多数Sentinel进程在对Master主服务器做出SDOWN 的判断,并且通过 SENTINEL is-master-down-by-addr 命令互相交流之后,得出的Master Server下线判断,这种方式就是“客观宕机”(客观(多个):是不依赖于某种意识而已经实际存在的一切事物),英文名称是: Objectively Down, 简称 ODOWN 通过一定的vote算法,从剩下的slave从服务器节点中,选一台提升为Master服务器节点,然后自动修 改相关配置,并开启故障转移(failover) Sentinel 机制可以解决master和slave角色的自动切换问题,但单个 Master 的性能瓶颈问题无法解决, 类似于MySQL中的MHA功能 Redis Sentinel中的Sentinel节点个数应该为大于等于3且最好为奇数 客户端初始化时连接的是Sentinel节点集合,不再是具体的Redis节点,但Sentinel只是配置中心不是代 理。 Redis Sentinel 节点与普通redis 没有区别,要实现读写分离依赖于客户端程序 redis 3.0 之前版本中,生产环境一般使用哨兵模式,3.0后推出redis cluster功能,可以支持更大规模的生产环境
sentinel中的三个定时任务
每10秒每个sentinel对master和slave执行info发现slave节点确认主从关系 每2秒每个sentinel通过master节点的channel交换信息(pub/sub)通过sentinel__:hello频道交互 交互对节点的“看法”和自身信息 每1秒每个sentinel对其他sentinel和redis执行ping
哨兵的准备实现主从复制架构
哨兵的前提是已经实现了一个redis的主从复制的运行环境,从而实现一个一主两从基于哨兵的高可用
redis架构
注意: master 的配置文件中masterauth 和slave 都必须相同
所有主从节点的redis.conf中关键配置
范例: 准备主从环境配置
#在所有主从节点执行 [root@centos8 ~]# yum -y install redis [root@centos8 ~]# vim /etc/redis.conf bind 0.0.0.0 masterauth "123456" requirepass "123456" #或者非交互执行 [root@centos8 ~]# sed -i -e 's/bind 127.0.0.1/bind 0.0.0.0/' -e 's/^# masterauth.*/masterauth 123456/' -e 's/^#requirepass .*/requirepass 123456/' /etc/redis.conf #在所有从节点执行 [root@centos8 ~]# echo "replicaof 172.31.0.8 6379" >> /etc/redis.conf #在所有主从节点执行 [root@centos8 ~]# systemctl enable --now redis
master服务器状态
[root@redis-master ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not 127.0.0.1:6379> INFO replication # Replication role:master connected_slaves:2 slave0:ip=172.31.0.28,port=6379,state=online,offset=112,lag=1 slave1:ip=172.31.0.18,port=6379,state=online,offset=112,lag=0 ...
配置slave1
[root@redis-slave1 ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:6379> REPLICAOF 172.31.0.8 6379 OK 127.0.0.1:6379> CONFIG SET masterauth "123456" OK 127.0.0.1:6379> INFO replication # Replication role:slave master_host:172.31.0.8 master_port:6379 master_link_status:up ...
配置slave2
[root@redis-slave2 ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:6379> REPLICAOF 172.31.0.8 6379 OK 127.0.0.1:6379> CONFIG SET masterauth "123456" OK 127.0.0.1:6379> INFO replication # Replication role:slave master_host:172.31.0.8 master_port:6379 master_link_status:up
sentinel配置
Sentinel实际上是一个特殊的redis服务器,有些redis指令支持,但很多指令并不支持.默认监听在26379/tcp端口.
哨兵可以不和Redis服务器部署在一起,但一般部署在一起以节约成本
所有redis节点使用相同的以下示例的配置文件
#如果是编译安装,在源码目录有sentinel.conf,复制到安装目录即可, 如:/apps/redis/etc/sentinel.conf [root@centos8 ~]# vim /etc/redis-sentinel.conf bind 0.0.0.0 port 26379 daemonize yes pidfile "/var/run/redis-sentinel.pid" logfile "/var/log/redis/sentinel_26379.log" dir "/tmp" #工作目录 sentinel monitor mymaster 172.31.0.8 6379 2 #mymaster是集群的名称,此行指定当前mymaster集群中master服务器的地址和端口 #2为法定人数限制(quorum),即有几个sentinel认为master down了就进行故障转移,一般此值是所有 sentinel节点(一般总数是>=3的奇数,如:3,5,7等)的一半以上的整数值,比如,总数是3,即3/2=1.5,取整为2,是master的ODOWN客观下线的依据 sentinel auth-pass mymaster 123456 #mymaster集群中master的密码,注意此行要在上面行的下面 sentinel down-after-milliseconds mymaster 30000 #(SDOWN)判断mymaster集群中所有节点的主观下线的时间,单位:毫秒,建议3000 sentinel parallel-syncs mymaster 1 #发生故障转移后,可以同时向新master同步数据的slave的数量,数字越小总同步时间越长,但可以减轻新master的负载压力 sentinel failover-timeout mymaster 180000 #所有slaves指向新的master所需的超时时间,单位:毫秒 sentinel deny-scripts-reconfig yes #禁止修改脚本 logfile /var/log/redis/sentinel.log
三个哨兵服务器的配置都如下
[root@redis-master ~]#grep -vE "^#|^$" /etc/redis-sentinel.conf port 26379 daemonize yes pidfile "/var/run/redis-sentinel.pid" logfile "/var/log/redis/sentinel.log" dir "/tmp" sentinel monitor mymaster 172.31.0.8 6379 2 #修改此行 sentinel auth-pass mymaster 123456 #增加此行 sentinel down-after-milliseconds mymaster 3000 #修改此行 sentinel parallel-syncs mymaster 1 sentinel failover-timeout mymaster 180000 sentinel deny-scripts-reconfig yes #以下内容自动生成,不需要修改 sentinel myid 50547f34ed71fd48c197924969937e738a39975b #此行自动生成必须唯一,修改此值需重启redis和sentinel服务 ..... # Generated by CONFIG REWRITE protected-mode yes supervised systemd sentinel leader-epoch mymaster 0 sentinel known-replica mymaster 172.31.0.28 6379 sentinel known-replica mymaster 172.31.0.18 6379 sentinel current-epoch 0 # 如果是配置好一台然后使用远程拷贝文件的, [root@redis-master ~]# scp /etc/redis-sentinel.conf redis-slave1:/etc/ [root@redis-master ~]# scp /etc/redis-sentinel.conf redis-slave2:/etc/
注意:改好配置文件先不要启动redis和redis-sentinel服务,等所有节点都拷贝完成再启动,不然myid会出现相同的问题
启动哨兵,
三台哨兵服务器都要启动
#确保每个哨兵主机myid不同 [root@redis-slave1 ~]# grep myid /etc/redis-sentinel.conf sentinel myid 9088ef55d94627b6078c22968dde240ced300b14 [root@redis-slave2 ~]# grep myid /etc/redis-sentinel.conf sentinel myid ad0e1f899fa97fba92d286b3ba5baa997eac59f8 [root@redis-master ~]# systemctl enable --now redis-sentinel.service [root@redis-slave1 ~]# systemctl enable --now redis-sentinel.service [root@redis-slave2 ~]# systemctl enable --now redis-sentinel.service #如果是编译安装在所有节点生成新的service文件 [root@redis-master ~]# cat /lib/systemd/system/redis-sentinel.service [Unit] Description=Redis Sentinel After=network.target [Service] ExecStart=/apps/redis/bin/redis-sentinel /apps/redis/etc/redis-sentinel.conf -- supervised systemd ExecStop=/bin/kill -s QUIT $MAINPID User=redis Group=redis RuntimeDirectory=redis RuntimeDirectoryMode=0755 [Install] WantedBy=multi-user.target #注意所有节点的目录权限,否则无法启动服务 [root@redis-master ~]# chown -R redis.redis /apps/redis/
[root@redis-master ~]# vim /apps/redis/etc/sentinel.conf bind 0.0.0.0 port 26379 daemonize yes pidfile "redis-sentinel.pid" Logfile "sentinel_26379.log" dir "/apps/redis/data" sentinel monitor mymaster 172.31.0.8 6379 2 sentinel auth-pass mymaster 123456 (如果是master不需要设置这个密码) sentinel down-after-milliseconds mymaster 15000 sentinel parallel-syncs mymaster 1 sentinel failover-timeout mymaster 180000 sentinel deny-scripts-reconfig yes #/apps/redis/bin/redis-sentinel /apps/redis/etc/sentinel.conf
验证哨兵端口
[root@redis-master ~]# ss -ntl 26379
查看哨兵日志
master的哨兵日志
[root@redis-master ~]# tail -f /var/log/redis/sentinel.log 38028:X 20 Feb 2021 17:13:08.702 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo 38028:X 20 Feb 2021 17:13:08.702 # Redis version=5.0.3, bits=64, commit=00000000, modified=0, pid=38028, just started
slave的哨兵日志
[root@redis-slave1 ~]# tail -f /var/log/redis/sentinel.log 25509:X 20 Feb 2021 17:13:27.435 * Removing the pid file. 25509:X 20 Feb 2021 17:13:27.435 # Sentinel is now ready to exit, bye bye... 25572:X 20 Feb 2021 17:13:27.448 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo 25572:X 20 Feb 2021 17:13:27.448 # Redis version=5.0.3, bits=64, commit=00000000, modified=0, pid=25572, just started
在sentinel状态中尤其是最后一行,涉及到masterIP是多少,有几个slave,有几个sentinels,必须是符合全部服务器数量
[root@redis-master ~]# redis-cli -p 26379 127.0.0.1:26379> INFO sentinel # Sentinel sentinel_masters:1 sentinel_tilt:0 sentinel_running_scripts:0 sentinel_scripts_queue_length:0 sentinel_simulate_failure_flags:0 master0:name=mymaster,status=ok,address=172.31.0.8:6379,slaves=2,sentinels=3 #两个 slave,三个sentinel服务器,如果sentinels值不符合,检查myid可能冲突
停止Redis Master 节点测试故障转移
[root@redis-master ~]# killall redis-server
查看各节点上哨兵信息:
[root@redis-master ~]# redis-cli -a 123456 -p 26379 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:26379> INFO sentinel # Sentinel sentinel_masters:1 sentinel_tilt:0 sentinel_running_scripts:0 sentinel_scripts_queue_length:0 sentinel_simulate_failure_flags:0 master0:name=mymaster,status=ok,address=172.31.0.18:6379,slaves=2,sentinels=2
故障转移时sentinel的信息:
[root@redis-master ~]# tail -f /var/log/redis/sentinel.log 38028:X 20 Feb 2021 17:42:27.362 # +sdown master mymaster 172.31.0.8 6379 38028:X 20 Feb 2021 17:42:27.418 # +odown master mymaster 172.31.0.8 6379 #quorum
故障转移后redis.conf中的replicaof行的master IP会被修改
[root@redis-slave2 ~]# grep ^replicaof /etc/redis.conf replicaof 172.31.0.18 6379
哨兵配置文件的sentinel monitor IP 同样也会被修改
[root@redis-slave1 ~]# grep "^[a-Z]" /etc/redis-sentinel.conf port 26379 daemonize yes pidfile "/var/run/redis-sentinel.pid" logfile "/var/log/redis/sentinel.log" dir "/tmp" sentinel myid 50547f34ed71fd48c197924969937e738a39975b sentinel deny-scripts-reconfig yes sentinel monitor mymaster 172.31.0.18 6379 2 #自动修改此行 [root@redis-slave2 ~]# grep "^[a-Z]" /etc/redis-sentinel.conf port 26379 daemonize yes pidfile "/var/run/redis-sentinel.pid" logfile "/var/log/redis/sentinel.log" dir "/tmp" sentinel myid 50547f34ed71fd48c197924969937e738a39975d sentinel deny-scripts-reconfig yes sentinel monitor mymaster 172.31.0.18 6379 2 #自动修改此行
当前 redis状态
新的master 状态
[root@redis-slave1 ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:6379> INFO replication # Replication role:master #提升为master connected_slaves:1 slave0:ip=172.31.0.28,port=6379,state=online,offset=56225,lag=1
另一个slave指向新的master
[root@redis-slave2 ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:6379> INFO replication # Replication role:slave master_host:172.31.0.18 #指向新的master master_port:6379 master_link_status:up
恢复故障的原master重新加入redis集群
[root@redis-master ~]# cat /etc/redis.conf #sentinel会自动修改下面行指向新的master replicaof 172.31.0.18 6379
在原 master上观察状态
[root@redis-master ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:6379> INFO replication # Replication role:slave master_host:172.31.0.18 master_port:6379 master_link_status:up ... [root@redis-master ~]# redis-cli -p 26379 127.0.0.1:26379> INFO sentinel # Sentinel sentinel_masters:1 sentinel_tilt:0 sentinel_running_scripts:0 sentinel_scripts_queue_length:0 sentinel_simulate_failure_flags:0 master0:name=mymaster,status=ok,address=172.31.0.18:6379,slaves=2,sentinels=3
观察新master上状态和日志
[root@redis-slave1 ~]# redis-cli -a 123456 Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe. 127.0.0.1:6379> INFO replication # Replication role:master connected_slaves:2 slave0:ip=172.31.0.28,port=6379,state=online,offset=769027,lag=0 slave1:ip=172.31.0.8,port=6379,state=online,offset=769027,lag=0 [root@redis-slave1 ~]# tail -f /var/log/redis/sentinel.log 25717:X 20 Feb 2021 17:42:33.757 # +sdown slave 172.31.0.8:6379 10.0.0.8 6379 @ mymaster 172.31.0.18 6379 25717:X 20 Feb 2021 18:41:29.566 # -sdown slave 172.31.0.8:6379 172.31.0.8 6379 @ mymaster 172.31.0.18 6379
手动让主节点下线
sentinel failover <masterName>
范例: 手动故障转移
[root@centos8 ~]# vim /etc/redis.conf replica-priority 10 #指定优先级,值越小sentinel会优先将之选为新的master,默为值为100 [root@centos8 ~]# redis-cli -p 26379 127.0.0.1:26379> sentinel failover mymaster OK
Redis 官方客户端:https://redis.io/clients
客户端连接 sentinel 工作原理
1. 客户端获取sentinel节点集合,选举出一个sentinel 2. 由这个sentinel通过masterName获取master节点信息,客户端通过sentinel get-master-addr-byname master-name这个api来获取对应主节点信息 3. 客户端发送role指令确认mater的信息,验证当前获取的“主节点”是真正的主节点,这样的目的是为了防止故障转移期间主节点的变化 4. 客户端保持和sentinel节点集合的联系,即订阅sentinel节点相关频道,时刻获取关于主节点的相关信息,获取新的master 信息变化,并自动连接新的master
java 连接Sentinel哨兵
java 客户端连接Redis:https://github.com/xetorthio/jedis/blob/master/pom.xml
python 连接Sentinel哨兵
[root@centos8 ~]# yum -y install python3 python3-redis [root@centos8 ~]# cat sentinel_test.py
[root@centos8 ~]# tail -f /var/log/redis/sentinel.log 34767:X 08 Jul 2021 05:58:08.885 # +new-epoch 10 34767:X 08 Jul 2021 05:58:08.886 # +vote-for-leader bfde7cf3bed44d35a9ff08699d705219bfeb2bdf 10 34767:X 08 Jul 2021 05:58:08.886 # +sdown master mymaster 172.31.0.8 6379 34767:X 08 Jul 2021 05:58:08.886 # +odown master mymaster 172.31.0.8 6379 #quorum 1/1 34767:X 08 Jul 2021 05:58:08.886 # Next failover delay: I will not start a failover before Thu Jul 8 06:04:09 2021
解决办法:
添加这个参数: sentinel failover-timeout mymaster 180000 #所有slaves指向新的master所需的超时时间,单位:毫秒