zoukankan      html  css  js  c++  java
  • NoSQL数据库之Redis(Sentinel)哨兵

    redis 哨兵(Sentinel)

    redis 集群介绍

    主从架构无法实现master和slave角色的自动切换,即当master出现redis服务异常、主机断电、磁盘损
    坏等问题导致master无法使用,而redis主从复制无法实现自动的故障转移(将slave 自动提升为新
    master),需要手动修改环境配置,才能切换到slave redis服务器,另外当单台Redis服务器性能无法满足
    业务写入需求的时候,也无法横向扩展Redis服务的并行写入性能
    
    需要解决以上的两个核心问题:
    master和slave角色的无缝切换,让业务无感知从而不影响业务使用
    可横向动态扩展Redis服务器,从而实现多台服务器并行写入以实现更高并发的目的。
    Redis 集群实现方式:
    客户端分片: 由应用决定将不同的KEY发送到不同的Redis服务器
    代理分片: 由代理决定将不同的KEY发送到不同的Redis服务器,代理程序如:codis,twemproxy等
    Redis Cluster
    

    哨兵 (Sentinel) 工作原理

    sentinel 架构和故障转移

    Sentinel 进程是用于监控redis集群中Master主服务器工作的状态,在Master主服务器发生故障的时
    候,可以实现Master和Slave服务器的切换,保证系统的高可用,此功能在redis2.6+的版本已引用,
    Redis的哨兵模式到了2.8版本之后就稳定了下来。一般在生产环境也建议使用Redis的2.8版本的以后版
    本
    哨兵(Sentinel) 是一个分布式系统,可以在一个架构中运行多个哨兵(sentinel) 进程,这些进程使用流言
    协议(gossip protocols)来接收关于Master主服务器是否下线的信息,并使用投票协议(Agreement
    Protocols)来决定是否执行自动故障迁移,以及选择哪个Slave作为新的Master
    每个哨兵(Sentinel)进程会向其它哨兵(Sentinel)、Master、Slave定时发送消息,以确认对方是否”活”
    着,如果发现对方在指定配置时间(此项可配置)内未得到回应,则暂时认为对方已离线,也就是所谓的”
    主观认为宕机” (主观(单个):是每个成员都具有的独自的而且可能相同也可能不同的意识),英文名称:
    Subjective Down,简称SDOWN
    
    有主观宕机,对应的有客观宕机。当“哨兵群”中的多数Sentinel进程在对Master主服务器做出SDOWN
    的判断,并且通过 SENTINEL is-master-down-by-addr 命令互相交流之后,得出的Master Server下线判断,这种方式就是“客观宕机”(客观(多个):是不依赖于某种意识而已经实际存在的一切事物),英文名称是:
    Objectively Down, 简称 ODOWN
    通过一定的vote算法,从剩下的slave从服务器节点中,选一台提升为Master服务器节点,然后自动修
    改相关配置,并开启故障转移(failover)
    Sentinel 机制可以解决master和slave角色的自动切换问题,但单个 Master 的性能瓶颈问题无法解决,
    类似于MySQL中的MHA功能
    Redis Sentinel中的Sentinel节点个数应该为大于等于3且最好为奇数
    客户端初始化时连接的是Sentinel节点集合,不再是具体的Redis节点,但Sentinel只是配置中心不是代
    理。
    Redis Sentinel 节点与普通redis 没有区别,要实现读写分离依赖于客户端程序
    redis 3.0 之前版本中,生产环境一般使用哨兵模式,3.0后推出redis cluster功能,可以支持更大规模的生产环境
    

    sentinel中的三个定时任务

    每10秒每个sentinel对master和slave执行info发现slave节点确认主从关系
    
    每2秒每个sentinel通过master节点的channel交换信息(pub/sub)通过sentinel__:hello频道交互
    交互对节点的“看法”和自身信息
    
    每1秒每个sentinel对其他sentinel和redis执行ping
    

    实现哨兵

    哨兵的准备实现主从复制架构

    哨兵的前提是已经实现了一个redis的主从复制的运行环境,从而实现一个一主两从基于哨兵的高可用
    redis架构
    注意: master 的配置文件中masterauth 和slave 都必须相同
    所有主从节点的redis.conf中关键配置

    范例: 准备主从环境配置

    #在所有主从节点执行
    [root@centos8 ~]# yum -y install redis
    [root@centos8 ~]# vim /etc/redis.conf
    bind 0.0.0.0
    masterauth "123456"
    requirepass "123456"
    
    #或者非交互执行
    [root@centos8 ~]# sed -i -e 's/bind 127.0.0.1/bind 0.0.0.0/' -e 's/^# masterauth.*/masterauth 123456/' -e 's/^#requirepass .*/requirepass 123456/' /etc/redis.conf
    
    #在所有从节点执行
    [root@centos8 ~]# echo "replicaof 172.31.0.8 6379" >> /etc/redis.conf
    
    #在所有主从节点执行
    [root@centos8 ~]# systemctl enable --now redis
    

    master服务器状态

    [root@redis-master ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface may not
    127.0.0.1:6379> INFO replication
    # Replication
    role:master
    connected_slaves:2
    slave0:ip=172.31.0.28,port=6379,state=online,offset=112,lag=1
    slave1:ip=172.31.0.18,port=6379,state=online,offset=112,lag=0
    ...
    

    配置slave1

    [root@redis-slave1 ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
    127.0.0.1:6379> REPLICAOF 172.31.0.8 6379
    OK
    127.0.0.1:6379> CONFIG SET masterauth "123456"
    OK
    127.0.0.1:6379> INFO replication
    # Replication
    role:slave
    master_host:172.31.0.8
    master_port:6379
    master_link_status:up
    ...
    

    配置slave2

    [root@redis-slave2 ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
    127.0.0.1:6379> REPLICAOF 172.31.0.8 6379
    OK
    127.0.0.1:6379> CONFIG SET masterauth "123456"
    OK
    127.0.0.1:6379> INFO replication
    # Replication
    role:slave
    master_host:172.31.0.8
    master_port:6379
    master_link_status:up
    

    编辑哨兵的配置文件

    sentinel配置

    Sentinel实际上是一个特殊的redis服务器,有些redis指令支持,但很多指令并不支持.默认监听在26379/tcp端口.
    哨兵可以不和Redis服务器部署在一起,但一般部署在一起以节约成本

    所有redis节点使用相同的以下示例的配置文件

    #如果是编译安装,在源码目录有sentinel.conf,复制到安装目录即可,
    如:/apps/redis/etc/sentinel.conf
    [root@centos8 ~]# vim /etc/redis-sentinel.conf
    bind 0.0.0.0
    port 26379
    daemonize yes
    pidfile "/var/run/redis-sentinel.pid"
    logfile "/var/log/redis/sentinel_26379.log"
    dir "/tmp" #工作目录
    sentinel monitor mymaster 172.31.0.8 6379 2
    #mymaster是集群的名称,此行指定当前mymaster集群中master服务器的地址和端口
    #2为法定人数限制(quorum),即有几个sentinel认为master down了就进行故障转移,一般此值是所有
    sentinel节点(一般总数是>=3的奇数,如:3,5,7等)的一半以上的整数值,比如,总数是3,即3/2=1.5,取整为2,是master的ODOWN客观下线的依据
    sentinel auth-pass mymaster 123456
    #mymaster集群中master的密码,注意此行要在上面行的下面
    sentinel down-after-milliseconds mymaster 30000
    #(SDOWN)判断mymaster集群中所有节点的主观下线的时间,单位:毫秒,建议3000
    sentinel parallel-syncs mymaster 1
    #发生故障转移后,可以同时向新master同步数据的slave的数量,数字越小总同步时间越长,但可以减轻新master的负载压力
    sentinel failover-timeout mymaster 180000
    #所有slaves指向新的master所需的超时时间,单位:毫秒
    sentinel deny-scripts-reconfig yes #禁止修改脚本
    logfile /var/log/redis/sentinel.log
    

    三个哨兵服务器的配置都如下

    [root@redis-master ~]#grep -vE "^#|^$" /etc/redis-sentinel.conf
    port 26379
    daemonize yes
    pidfile "/var/run/redis-sentinel.pid"
    logfile "/var/log/redis/sentinel.log"
    dir "/tmp"
    sentinel monitor mymaster 172.31.0.8 6379 2 #修改此行
    sentinel auth-pass mymaster 123456 #增加此行
    sentinel down-after-milliseconds mymaster 3000 #修改此行
    sentinel parallel-syncs mymaster 1
    sentinel failover-timeout mymaster 180000
    sentinel deny-scripts-reconfig yes
    
    #以下内容自动生成,不需要修改
    sentinel myid 50547f34ed71fd48c197924969937e738a39975b
    #此行自动生成必须唯一,修改此值需重启redis和sentinel服务
    .....
    # Generated by CONFIG REWRITE
    protected-mode yes
    supervised systemd
    sentinel leader-epoch mymaster 0
    sentinel known-replica mymaster 172.31.0.28 6379
    sentinel known-replica mymaster 172.31.0.18 6379
    sentinel current-epoch 0
    
    # 如果是配置好一台然后使用远程拷贝文件的,
    [root@redis-master ~]# scp /etc/redis-sentinel.conf redis-slave1:/etc/
    [root@redis-master ~]# scp /etc/redis-sentinel.conf redis-slave2:/etc/
    

    注意:改好配置文件先不要启动redis和redis-sentinel服务,等所有节点都拷贝完成再启动,不然myid会出现相同的问题

    启动哨兵,
    三台哨兵服务器都要启动

    #确保每个哨兵主机myid不同
    [root@redis-slave1 ~]# grep myid /etc/redis-sentinel.conf
    
    sentinel myid 9088ef55d94627b6078c22968dde240ced300b14
    
    [root@redis-slave2 ~]# grep myid /etc/redis-sentinel.conf
    sentinel myid ad0e1f899fa97fba92d286b3ba5baa997eac59f8
    
    [root@redis-master ~]# systemctl enable --now redis-sentinel.service
    [root@redis-slave1 ~]# systemctl enable --now redis-sentinel.service
    [root@redis-slave2 ~]# systemctl enable --now redis-sentinel.service
    
    #如果是编译安装在所有节点生成新的service文件
    [root@redis-master ~]# cat /lib/systemd/system/redis-sentinel.service
    [Unit]
    Description=Redis Sentinel
    After=network.target
    [Service]
    ExecStart=/apps/redis/bin/redis-sentinel /apps/redis/etc/redis-sentinel.conf --
    supervised systemd
    ExecStop=/bin/kill -s QUIT $MAINPID
    User=redis
    Group=redis
    RuntimeDirectory=redis
    RuntimeDirectoryMode=0755
    [Install]
    WantedBy=multi-user.target
    
    #注意所有节点的目录权限,否则无法启动服务
    [root@redis-master ~]# chown -R redis.redis /apps/redis/
    

    如果是编译安装,在所有哨兵服务器执行下面操作启动哨兵

    [root@redis-master ~]# vim /apps/redis/etc/sentinel.conf
    bind 0.0.0.0
    port 26379
    daemonize yes
    pidfile "redis-sentinel.pid"
    Logfile "sentinel_26379.log"
    dir "/apps/redis/data"
    sentinel monitor mymaster 172.31.0.8 6379 2
    sentinel auth-pass mymaster 123456 (如果是master不需要设置这个密码)
    sentinel down-after-milliseconds mymaster 15000
    sentinel parallel-syncs mymaster 1
    sentinel failover-timeout mymaster 180000
    sentinel deny-scripts-reconfig yes
    
    #/apps/redis/bin/redis-sentinel /apps/redis/etc/sentinel.conf
    

    验证哨兵端口

    [root@redis-master ~]# ss -ntl
    26379
    

    查看哨兵日志
    master的哨兵日志

    [root@redis-master ~]# tail -f /var/log/redis/sentinel.log
    38028:X 20 Feb 2021 17:13:08.702 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
    38028:X 20 Feb 2021 17:13:08.702 # Redis version=5.0.3, bits=64,
    commit=00000000, modified=0, pid=38028, just started
    

    slave的哨兵日志

    [root@redis-slave1 ~]# tail -f /var/log/redis/sentinel.log
    25509:X 20 Feb 2021 17:13:27.435 * Removing the pid file.
    25509:X 20 Feb 2021 17:13:27.435 # Sentinel is now ready to exit, bye bye...
    25572:X 20 Feb 2021 17:13:27.448 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
    25572:X 20 Feb 2021 17:13:27.448 # Redis version=5.0.3, bits=64,
    commit=00000000, modified=0, pid=25572, just started
    

    当前sentinel状态

    在sentinel状态中尤其是最后一行,涉及到masterIP是多少,有几个slave,有几个sentinels,必须是符合全部服务器数量

    [root@redis-master ~]# redis-cli -p 26379
    127.0.0.1:26379> INFO sentinel
    # Sentinel
    sentinel_masters:1
    sentinel_tilt:0
    sentinel_running_scripts:0
    sentinel_scripts_queue_length:0
    sentinel_simulate_failure_flags:0
    master0:name=mymaster,status=ok,address=172.31.0.8:6379,slaves=2,sentinels=3 #两个
    slave,三个sentinel服务器,如果sentinels值不符合,检查myid可能冲突
    

    停止Redis Master 节点测试故障转移

    [root@redis-master ~]# killall redis-server
    

    查看各节点上哨兵信息:

    [root@redis-master ~]# redis-cli -a 123456 -p 26379
    Warning: Using a password with '-a' or '-u' option on the command line interface
    may not be safe.
    127.0.0.1:26379> INFO sentinel
    # Sentinel
    sentinel_masters:1
    sentinel_tilt:0
    sentinel_running_scripts:0
    sentinel_scripts_queue_length:0
    sentinel_simulate_failure_flags:0
    master0:name=mymaster,status=ok,address=172.31.0.18:6379,slaves=2,sentinels=2
    

    故障转移时sentinel的信息:

    [root@redis-master ~]# tail -f /var/log/redis/sentinel.log
    38028:X 20 Feb 2021 17:42:27.362 # +sdown master mymaster 172.31.0.8 6379
    38028:X 20 Feb 2021 17:42:27.418 # +odown master mymaster 172.31.0.8 6379 #quorum
    

    故障转移后的redis配置文件会被自动修改

    故障转移后redis.conf中的replicaof行的master IP会被修改

    [root@redis-slave2 ~]# grep ^replicaof /etc/redis.conf
    replicaof 172.31.0.18 6379
    

    哨兵配置文件的sentinel monitor IP 同样也会被修改

    [root@redis-slave1 ~]# grep "^[a-Z]" /etc/redis-sentinel.conf
    port 26379
    daemonize yes
    pidfile "/var/run/redis-sentinel.pid"
    logfile "/var/log/redis/sentinel.log"
    dir "/tmp"
    sentinel myid 50547f34ed71fd48c197924969937e738a39975b
    sentinel deny-scripts-reconfig yes
    sentinel monitor mymaster 172.31.0.18 6379 2 #自动修改此行
    
    [root@redis-slave2 ~]# grep "^[a-Z]" /etc/redis-sentinel.conf
    port 26379
    daemonize yes
    pidfile "/var/run/redis-sentinel.pid"
    logfile "/var/log/redis/sentinel.log"
    dir "/tmp"
    sentinel myid 50547f34ed71fd48c197924969937e738a39975d
    sentinel deny-scripts-reconfig yes
    sentinel monitor mymaster 172.31.0.18 6379 2 #自动修改此行
    

    当前 redis状态
    新的master 状态

    [root@redis-slave1 ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface
    may not be safe.
    127.0.0.1:6379> INFO replication
    # Replication
    role:master #提升为master
    connected_slaves:1
    slave0:ip=172.31.0.28,port=6379,state=online,offset=56225,lag=1
    

    另一个slave指向新的master

    [root@redis-slave2 ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface
    may not be safe.
    127.0.0.1:6379> INFO replication
    # Replication
    role:slave
    master_host:172.31.0.18 #指向新的master
    master_port:6379
    master_link_status:up
    

    恢复故障的原master重新加入redis集群

    [root@redis-master ~]# cat /etc/redis.conf
    #sentinel会自动修改下面行指向新的master
    replicaof 172.31.0.18 6379
    

    在原 master上观察状态

    [root@redis-master ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface
    may not be safe.
    127.0.0.1:6379> INFO replication
    # Replication
    role:slave
    master_host:172.31.0.18
    master_port:6379
    master_link_status:up
    ...
    [root@redis-master ~]# redis-cli -p 26379
    127.0.0.1:26379> INFO sentinel
    # Sentinel
    sentinel_masters:1
    sentinel_tilt:0
    sentinel_running_scripts:0
    sentinel_scripts_queue_length:0
    sentinel_simulate_failure_flags:0
    master0:name=mymaster,status=ok,address=172.31.0.18:6379,slaves=2,sentinels=3
    

    观察新master上状态和日志

    [root@redis-slave1 ~]# redis-cli -a 123456
    Warning: Using a password with '-a' or '-u' option on the command line interface
    may not be safe.
    127.0.0.1:6379> INFO replication
    # Replication
    role:master
    connected_slaves:2
    slave0:ip=172.31.0.28,port=6379,state=online,offset=769027,lag=0
    slave1:ip=172.31.0.8,port=6379,state=online,offset=769027,lag=0
    
    [root@redis-slave1 ~]# tail -f /var/log/redis/sentinel.log
    25717:X 20 Feb 2021 17:42:33.757 # +sdown slave 172.31.0.8:6379 10.0.0.8 6379 @
    mymaster 172.31.0.18 6379
    25717:X 20 Feb 2021 18:41:29.566 # -sdown slave 172.31.0.8:6379 172.31.0.8 6379 @
    mymaster 172.31.0.18 6379
    

    sentinel 运维

    手动让主节点下线

    sentinel failover <masterName>
    

    范例: 手动故障转移

    [root@centos8 ~]# vim /etc/redis.conf
    replica-priority 10 #指定优先级,值越小sentinel会优先将之选为新的master,默为值为100
    [root@centos8 ~]# redis-cli -p 26379
    127.0.0.1:26379> sentinel failover mymaster
    OK
    

    应用程序如何连接 redis

    Redis 官方客户端:https://redis.io/clients
    

    客户端连接 sentinel 工作原理

    1. 客户端获取sentinel节点集合,选举出一个sentinel
    2. 由这个sentinel通过masterName获取master节点信息,客户端通过sentinel get-master-addr-byname master-name这个api来获取对应主节点信息
    3. 客户端发送role指令确认mater的信息,验证当前获取的“主节点”是真正的主节点,这样的目的是为了防止故障转移期间主节点的变化
    4. 客户端保持和sentinel节点集合的联系,即订阅sentinel节点相关频道,时刻获取关于主节点的相关信息,获取新的master 信息变化,并自动连接新的master
    

    java 连接Sentinel哨兵

    java 客户端连接Redis:https://github.com/xetorthio/jedis/blob/master/pom.xml
    

    python 连接Sentinel哨兵

    [root@centos8 ~]# yum -y install python3 python3-redis
    [root@centos8 ~]# cat sentinel_test.py
    

    报错

    [root@centos8 ~]# tail -f /var/log/redis/sentinel.log
    
    34767:X 08 Jul 2021 05:58:08.885 # +new-epoch 10
    34767:X 08 Jul 2021 05:58:08.886 # +vote-for-leader bfde7cf3bed44d35a9ff08699d705219bfeb2bdf 10
    34767:X 08 Jul 2021 05:58:08.886 # +sdown master mymaster 172.31.0.8 6379
    34767:X 08 Jul 2021 05:58:08.886 # +odown master mymaster 172.31.0.8 6379 #quorum 1/1
    34767:X 08 Jul 2021 05:58:08.886 # Next failover delay: I will not start a failover before Thu Jul  8 06:04:09 2021
    

    解决办法:

    添加这个参数:
    sentinel failover-timeout mymaster 180000
    #所有slaves指向新的master所需的超时时间,单位:毫秒
    
  • 相关阅读:
    4-12日 面向对象的组合和继承
    4-8日 递归和二分查找
    4-11 对象的交互 命名空间作用域
    [LeetCode]-algorithms-Reverse Integer
    [LeetCode]-algorithms-Longest Palindromic Substring
    [LeetCode]-algorithms-Median of Two Sorted Arrays
    [LeetCode]-algorithms-Longest Substring Without Repeating Characters
    [LeetCode]-algorithms-Add Two Numbers
    Java中创建String的两种方式
    Java中String为什么是不可变的
  • 原文地址:https://www.cnblogs.com/xuanlv-0413/p/15085216.html
Copyright © 2011-2022 走看看