MySQL数据库的主从复制方案,与使用scp/rsync等命令进行的文件级别复制类似,都是数据的远程传输,只不过MySQL的主从复制是自带的功能。MySQL的主从复制并不是数据库磁盘上的文件直接拷贝,而是将二进制日志binlog复制到要同步的服务器本地,然后由本地的线程读取日志里面的SQL语句,重新应用到MySQL数据库中。
问:主从复制可以替代数据库的备份?
答:主从复制的核心是通过二进制日志文件来实现与主库同步,如果主库发生逻辑损坏(drop、delete等误操作),从库也会同步。因此主从复制主要解决发生物理损坏的情况(物理损坏可立马启用从库对外服务,恢复备份会花费很长时间);对逻辑损坏还是需要通过备份进行恢复。
[root@localhost data]# mkdir /data/3307/data -p [root@localhost data]# chown -R mysql.mysql /data/3307 [root@localhost data]# mysqld --initialize-insecure --user=mysql --basedir=/app/mysql --datadir=/data/3307/data
[root@localhost data]# vim /data/3307/my.cnf [mysqld] basedir=/app/mysql datadir=/data/3307/data socket=/data/3307/mysql.sock log_error=/data/3307/mysql.log port=3307 server_id=7 log_bin=/data/3307/mysql-bin
[root@localhost data]# systemctl start mysqld3307 [root@localhost data]# mysql -uroot -S /data/3307/mysql.sock
[root@localhost ~]# ll /data/3307/mysql-bin* -rw-r-----. 1 mysql mysql 154 Oct 3 12:23 /data/3307/mysql-bin.000001 -rw-r-----. 1 mysql mysql 28 Oct 3 12:23 /data/3307/mysql-bin.index
[root@localhost ~]# mysql -uroot -S /data/3307/mysql.sock mysql [(none)]>grant replication slave on *.* to slave@'192.168.1.%' identified by '123456';
[root@localhost ~]# [root@localhost ~]# mysqldump -uroot -S /data/3307/mysql.sock -A -R -E --triggers --master-data=2 --single-transaction > /data/3307/backup/full.sql 获取change master to 的信息 [root@localhost ~]# vim /data/3307/backup/full.sql -- CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=448;
mysql [(none)]>show master status ; +------------------+----------+--------------+------------------+-------------------+ | File | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set | +------------------+----------+--------------+------------------+-------------------+ | mysql-bin.000001 | 448 | | | | +------------------+----------+--------------+------------------+-------------------+ 1 row in set (0.00 sec)
从库模拟恢复主库全备,保证主从开启之前的某个时间点,从库数据和主库一致
[root@localhost ~]# mysql -uroot -S /data/3308/mysql.sock mysql [mysql]>set sql_log_bin=0; mysql [mysql]>source /data/3307/backup/full.sql
告知从库主库的IP、Port、专用复制用户的用户名和密码等信息(change master to)
查看change master to帮助信息 mysql [(none)]>help change master to CHANGE MASTER TO MASTER_HOST='master2.mycompany.com', --主库地址 MASTER_USER='replication', --用户名 MASTER_PASSWORD='bigs3cret', --密码 MASTER_PORT=3306, --端口 MASTER_LOG_FILE='master2-bin.001', --binlog MASTER_LOG_POS=4, --position MASTER_CONNECT_RETRY=10; --重复连接次数
mysql [(none)]>CHANGE MASTER TO -> MASTER_HOST='192.168.1.5', -> MASTER_USER='slave', -> MASTER_PASSWORD='123456', -> MASTER_PORT=3307, -> MASTER_LOG_FILE='mysql-bin.000001', -> MASTER_LOG_POS=448, -> MASTER_CONNECT_RETRY=10; Query OK, 0 rows affected, 2 warnings (0.22 sec)
开启主从专用线程
mysql [(none)]> start slave;
检查复制状态
mysql [(none)]>show slave status \G *************************** 1. row *************************** Slave_IO_State: Waiting for master to send event Master_Host: 192.168.1.5 --主库相关信息监控 Master_User: slave Master_Port: 3307 Connect_Retry: 10 Master_Log_File: mysql-bin.000001 Read_Master_Log_Pos: 448 Relay_Log_File: localhost-relay-bin.000002 --从库中继日志的应用状态 Relay_Log_Pos: 320 Slave_IO_Running: Yes --从库复制线程有关状态 Slave_SQL_Running: Yes Last_IO_Errno: 0 Last_IO_Error: Last_SQL_Errno: 0 Last_SQL_Error: Replicate_Do_DB: --过滤复制有关 Replicate_Ignore_DB: Replicate_Do_Table: Replicate_Ignore_Table: Replicate_Wild_Do_Table: Replicate_Wild_Ignore_Table: Seconds_Behind_Master: 0 --主从延时相关状态(非人为) SQL_Delay: 0 --延时从库有关状态(人为) SQL_Remaining_Delay: NULL Retrieved_Gtid_Set: --GTID复制有关状态 Executed_Gtid_Set: Auto_Position: 0
Slave_IO_Running:Connecting
Last_IO_Errno: 0
Last_IO_Error:
IP
ERROR 2003 (HY000): Can't connect to MySQL server on '192.168.1.55' (113)
Port
ERROR 2003 (HY000): Can't connect to MySQL server on '192.168.1.5' (111)
user,passwd
ERROR 1045 (28000): Access denied for user 'slave'@'192.168.1.5' (using password: YES)
连接数量上限
ERROR 1040 (HY000):Too many connections
防火墙、网络不通
故障:主库日志损坏或丢失
案例:执行reset master模拟主库日志丢失(会导致从库方面二进制日志位置点不对)
Last_IO_Error: Got fatal error 1236 from master when reading data from binary log: 'could not find next log; the first event 'mysql-bin.000001' at 154, the last event read from '/data/3307/data/mysql-bin.000002' at 154, the last byte read from '/data/3307/data/mysql-bin.000002' at 154.'
注意:在主从复制环境中,严令禁止主库中reset master; 可以选择expire 进行定期清理主库二进制日志。
重新搭建主从环境
> stop slave;
> reset slave all; > show slave status \G
> change master to > start slave;
归根揭底都是由于从库发生了写入操作。
从库建立一个数据库sql_error
mysql [(none)]>create database sql_error; Query OK, 1 row affected (0.03 sec) mysql [(none)]>show databases; +--------------------+ | Database | +--------------------+ | information_schema | | mysql | | performance_schema | | sql_error | | sys | | test | +--------------------+ 6 rows in set (0.13 sec)
主库再次建立一个sql_error数据库
mysql [(none)]>show databases; +--------------------+ | Database | +--------------------+ | information_schema | | mysql | | performance_schema | | sys | | test | +--------------------+ 5 rows in set (0.29 sec) mysql [(none)]>create database sql_error; Query OK, 1 row affected (0.02 sec)
查看从库状态,出现异常
Slave_SQL_Running: No Last_SQL_Error: Error 'Can't create database 'sql_error'; database exists' on query. Default database: 'sql_error'. Query: 'create database sql_error'
丑话说在前头:以从库为核心处理的方案是有风险的,最安全的做法就是重新构建主从。坚定把握一个原则:一切以主库为主。
mysql [(none)]>stop slave; Query OK, 0 rows affected (0.01 sec) mysql [(none)]>set global sql_slave_skip_counter=1; # 将同步指针移到下一个,如果多次不同步,可以重复操作 Query OK, 0 rows affected (0.00 sec) mysql [(none)]>start slave; Query OK, 0 rows affected (0.11 sec)
vim my.cnf slave-skip-errors = 1032,1062,1007 常见错误代码: - 1007:对象已存在 - 1032:无法执行DML - 1062:主键冲突,或约束冲突
mysql [(none)]>set global read_only=1; Query OK, 0 rows affected (0.00 sec) mysql [(none)]>show variables like '%read_only%'; +-----------------------+-------+ | Variable_name | Value | +-----------------------+-------+ | innodb_read_only | OFF | | read_only | ON | | super_read_only | OFF | | transaction_read_only | OFF | | tx_read_only | OFF | +-----------------------+-------+ 5 rows in set (0.00 sec)
主库做了修改操作,从库比较长时间才能追上。
原因分析:
mysql [(none)]>select @@sync_binlog; +---------------+ | @@sync_binlog | +---------------+ | 1 | +---------------+ 1 row in set (0.01 sec)
解决方案:
原因分析:
SQL线程导致的主从延时。在传统模式主从复制中,从库默认情况下只有一个SQL,只能串行回放事务SQL
解决方案:
延时从库是一种特殊从库,通过人为配置从库和主库延时N小时。
主从复制的核心是通过二进制日志文件来实现与主库同步,如果主库发生逻辑损坏(drop、delete等误操作),从库也会同步。因此主从复制主要解决发生物理损坏的情况(物理损坏可立马启用从库对外服务,恢复备份会花费很长时间)。如果发生了逻辑损坏,就需要备份恢复,但如果恢复数量级很大的话,时间成本很高。
因此延时从库是为了更快的解决逻辑损坏问题的从库(备份恢复的替代方案)。
SQL线程延时:数据已经写入relay-log中,但SQL线程慢点执行relay-log中的语句。
一般企业建议延时3-6小时,具体看公司运维人员对于故障的反应时间。
延时从库配置
停止slave服务
mysql [(none)]>stop slave; Query OK, 0 rows affected, 1 warning (0.05 sec)
修改MASTER_DELAY参数
mysql [(none)]>CHANGE MASTER TO MASTER_DELAY=300; Query OK, 0 rows affected (0.32 sec)
开启slave服务
mysql [(none)]>start slave;
查看延时状态
mysql [(none)]>show slave status \G; SQL_Delay: 300 --延时时间 SQL_Remaining_Delay: 295 --延时倒计时
查看二进制日志是否一致
# 主库 mysql [test]>show master status ; +------------------+----------+--------------+------------------+-------------------+ | File | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set | +------------------+----------+--------------+------------------+-------------------+ | mysql-bin.000001 | 943 | | | | +------------------+----------+--------------+------------------+-------------------+ 1 row in set (0.34 sec) # 从库 mysql [(none)]>show slave status \G; Read_Master_Log_Pos: 943
一主一从,从库延时5分钟,主库误删除1个库。
逻辑故障恢复思路:
故障模拟及恢复:
模拟主库数据操作
mysql [(none)]> create database relay charset utf8; mysql [(none)]> use relay mysql [relay]> create table t1 (id int); mysql [relay]> insert into t1 values(1); mysql [relay]> drop database relay;
发现故障,停止从库的SQL线程
mysql [none]> stop slave sql_thread;
找到relay-log的截取起点和终点
# 起点 mysql [(none)]>show slave status\G; Relay_Log_File: localhost-relay-bin.000002 Relay_Log_Pos: 482 --同步前的position Read_Master_Log_Pos: 1698 --主库传来的新position # 终点 mysql [(none)]>show relaylog events in 'localhost-relay-bin.000002' | localhost-relay-bin.000002 | 1046 | Xid | 7 | 1538 | COMMIT /* xid=74 */ | | localhost-relay-bin.000002 | 1077 | Anonymous_Gtid | 7 | 1603 | SET @@SESSION.GTID_NEXT= 'ANONYMOUS' | | localhost-relay-bin.000002 | 1142 | Query | 7 | 1698 | drop database relay | # 截取日志 [root@localhost ~]# mysqlbinlog --start-position=482 --stop-position=1077 /data/3308/data/localhost-relay-bin.000002>/tmp/relay.sql
从库恢复relay-log
mysql [relay]>source /tmp/relay.sql
从库身份解除,从库替代主库身份(数据量比较小的话可以考虑直接将数据导入主库)
mysql [relay]>stop slave; mysql [relay]>reset slave all;
半同步复制用来解决主从数据一致性问题。
需求:master 有3个库A、B、C ,现在需要将其中2个库B,C单独拆分出来,单独一个实例。
常见的做法为:单独搭建一个只有B、C库的实例,且它们只复制master的B、C库,过滤掉A库。此时就需要过滤复制。
mysql [(none)]>show slave status \G; Replicate_Do_DB: --过滤复制相关参数 Replicate_Ignore_DB: Replicate_Do_Table: Replicate_Ignore_Table: Replicate_Wild_Do_Table: Replicate_Wild_Ignore_Table:
过滤复制配置
主库方面(不建议使用)
Binlog_Do_DB
Binlog_Ignore_DB
从库方面
Replicate_Do_DB
Replicate_Ignore_DB
配置3309数据库实例只对两个库进行同步操作
[root@db01 ~]# vim /data/3309/my.cnf replicate_do_db=people replicate_do_db=world [root@db01 ~]# systemctl restart mysqld3309
GTID(Global Transaction ID)是对一个已提交事务的唯一编号,并且是一个全局(主从复制)唯一的编号。它的官方定义如下:
GTID = source_id :transaction_id
什么是sever_uuid?和server-id 区别?
server_uuid是mysql的识别码,server_id是在集群里面的id号,防止server_id冲突。
核心特性
全局唯一,具备幂等性
核心参数
gtid-mode=on --启动GTID类型,否则就是普通的复制架构
enforce-gtid-consistency=true --强制GTID的一致性
log-slave-update=1 --设置为开启,则从库从主库复制数据时可以写入到binlog日志
需求:搭建一主两从的GTID环境
创建数据目录并授予权限
[root@localhost ~]# mkdir -p /data/330{7,8,9}/data [root@localhost ~]# chown -R mysql.mysql /data/330{7,8,9}
准备各实例的配置文件
[root@localhost ~]# vim /data/3307/my.cnf [mysqld] basedir=/app/mysql datadir=/data/3307/data socket=/data/3307/mysql.sock server_id=7 port=3307 secure-file-priv=/tmp autocommit=0 log_bin=/data/3307/binlog/mysql-bin binlog_format=row gtid-mode=on enforce-gtid-consistency=true log-slave-updates=1 [mysql] prompt=db01 [\\d]>
[root@localhost ~]# vim /data/3308/my.cnf [mysqld] basedir=/app/mysql datadir=/data/3308/data socket=/data/3308/mysql.sock server_id=8 port=3308 secure-file-priv=/tmp autocommit=0 log_bin=/data/3308/binlog/mysql-bin binlog_format=row gtid-mode=on enforce-gtid-consistency=true log-slave-updates=1 [mysql] prompt=db02 [\\d]>
[root@localhost ~]# vim /data/3309/my.cnf [mysqld] basedir=/app/mysql datadir=/data/3309/data socket=/data/3309/mysql.sock server_id=9 port=3309 secure-file-priv=/tmp autocommit=0 log_bin=/data/3309/binlog/mysql-bin binlog_format=row gtid-mode=on enforce-gtid-consistency=true log-slave-updates=1 [mysql] prompt=db03 [\\d]>
初始化各实例数据目录
[root@localhost data]# mysqld --initialize-insecure --user=mysql --basedir=/app/mysql --datadir=/data/3307/data [root@localhost data]# mysqld --initialize-insecure --user=mysql --basedir=/app/mysql --datadir=/data/3308/data [root@localhost data]# mysqld --initialize-insecure --user=mysql --basedir=/app/mysql --datadir=/data/3309/data
启动各数据库实例
[root@localhost system]# systemctl start mysqld3307.service [root@localhost system]# systemctl start mysqld3308.service [root@localhost system]# systemctl start mysqld3309.service [root@localhost system]# ps -ef | grep mysqld mysql 10676 1 21 18:18 ? 00:00:06 /app/mysql/bin/mysqld --defaults-file=/data/3307/my.cnf mysql 10687 1 9 18:19 ? 00:00:02 /app/mysql/bin/mysqld --defaults-file=/data/3308/my.cnf mysql 10761 1 24 18:19 ? 00:00:03 /app/mysql/bin/mysqld --defaults-file=/data/3309/my.cnf root 10795 5857 16 18:19 pts/0 00:00:00 grep --color=auto mysqld
构建主从
数据库实例3307
mysql [(none)]>grant replication slave on *.* to repl@'192.168.1.%' identified by '123456'; Query OK, 0 rows affected, 1 warning (0.12 sec)
数据库实例3308/数据库实例3309
mysql [(none)]>change master to -> master_host='192.168.1.5', -> master_user='repl', -> master_password='123456' , -> MASTER_AUTO_POSITION=1; Query OK, 0 rows affected, 2 warnings (0.13 sec) mysql [(none)]>start slave; Query OK, 0 rows affected (0.10 sec)
GTID从库误写入操作处理
查看监控信息产生错误
Last_SQL_Error: Error 'Can't create database 'oldboy'; database exists' on query. Default database: 'oldboy'. Query: 'create database oldboy' Retrieved_Gtid_Set: 71bfa52e-4aae-11e9-ab8c-000c293b577e:1-3 --从主库请求的 Executed_Gtid_Set: 71bfa52e-4aae-11e9-ab8c-000c293b577e:1-2, --实际运行的 7ca4a2b7-4aae-11e9-859d-000c298720f6:1
由于71bfa52e-4aae-11e9-ab8c-000c293b577e:1-3操作有问题,可以采取注入空事务的方法,跳过该错误(有风险):
> stop slave; --停止slave服务 > set gtid_next='99279e1e-61b7-11e9-a9fc-000c2928f5dd:3'; --手工设置操作xxxxx:N 就是slave_sql_thread报错的GTID,或者是想要跳过的GTID > begin;commit; --注入空事物 > set gtid_next='AUTOMATIC'; --设置回自动操作
注入空事务的方式有风险,最好的解决方案:重新构建主从环境。
CHANGE MASTER TO MASTER_HOST='10.0.0.51', MASTER_USER='repl', MASTER_PASSWORD='123', MASTER_PORT=3307, MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=444, MASTER_CONNECT_RETRY=10; change master to master_host='10.0.0.51', master_user='repl', master_password='123' , MASTER_AUTO_POSITION=1; start slave; 0. 在主从复制环境中,主库发生过的事务,在全局都是由唯一GTID记录的,更方便Failover; 1. gtid-mode=on 、enforce-gtid-consistency=true 、log-slave-update=1; 2. change master to 的时候不再需要binlog 文件名和position号,直接auto即可,MASTER_AUTO_POSITION=1; 3. 在复制过程中,从库不再依赖master.info文件,而是直接读取最后一个relaylog的 GTID号,获取到上次复制的GTID号后从此号开始向后复制即可; 4. 在MHA高可用环境下,主库无法SSH时,从库进行数据恢复更加便捷; 5. mysqldump备份时,默认会将备份中包含的事务操作,以以下方式: SET @@GLOBAL.GTID_PURGED='8c49d7ec-7e78-11e8-9638-000c29ca725d:1'; 告诉从库,我的备份中已经有以上事务,你就不用运行了,直接从下一个GTID开始请求binlog就行。
全年无故障率(非计划内故障停机)
99.9% ----> 0.001*365*24*60=525.6 min 99.99% ----> 0.0001*365*24*60=52.56 min 99.999% ----> 0.0001*365*24*60=5.256 min
高可用架构方案
负载均衡:有一定的高可用性(高可用最低的标准) LVS、Nginx 主备(单活架构):有高可用性,但是需要切换(切换的过程无法提供服务) Keepalived、MHA 真正高可用(多活系统):NDB Cluster、Oracle RAC、Sysbase Cluster、InnoDB Cluster(MGR)、Percona PXC、MGC