由于字符集和比较规则是有联系的,修改字符集后,比较规则会自动变换成相对应的,相反修改比较规则后,同理字符集也会变化。
mysql> SHOW VARIABLES LIKE 'character_set_server'; +----------------------+--------+ | Variable_name | Value | +----------------------+--------+ | character_set_server | latin1 | +----------------------+--------+ 1 row in set (0.03 sec) mysql> set character_set_server = 'utf8mb4'; Query OK, 0 rows affected (0.01 sec) mysql> SHOW VARIABLES LIKE 'character_set_server'; +----------------------+---------+ | Variable_name | Value | +----------------------+---------+ | character_set_server | utf8mb4 | +----------------------+---------+ 1 row in set (0.00 sec) mysql> SHOW VARIABLES LIKE 'collation_server'; +------------------+--------------------+ | Variable_name | Value | +------------------+--------------------+ | collation_server | utf8mb4_general_ci | +------------------+--------------------+ 1 row in set (0.00 sec)
从上面可以看到,我们服务器的字符集先是latin1,也就是ISO 8859-1字符集,用set修改完之后,再次查看显示的是utf8mb4字符集,并且比较规则也已跟着修改。
举个例子:我们给一个gbk字符集的字段加两个汉字"两个",其中“两”在gbk字符集代表4个字节,如果当前行是utf8mb4字符集,则会占用6个字节。
乱码怎么来的:就是不同的字符集相互转换,导致编码报错,出现乱码情况。
字符集转换的概念:如果接受一个字节串,先用utf8进行解码成为字符串,然后在用gbk进行编码成为字节串,在按gbk进行展示,我们把这个叫做字符集的转换。
我们知道客户端发往服务端本质上就是一个字符串,而服务端返回客户端也是一个字符串,而在这当中处理过很多次字符集的转换,并不是一种字符集一路畅通的,这一过程会有三个重要的系统变量:
mysql> SHOW VARIABLES LIKE 'character_set_client'; +----------------------+-------+ | Variable_name | Value | +----------------------+-------+ | character_set_client | utf8 | +----------------------+-------+ 1 row in set (0.01 sec) mysql> SHOW VARIABLES LIKE 'character_set_results'; +-----------------------+-------+ | Variable_name | Value | +-----------------------+-------+ | character_set_results | utf8 | +-----------------------+-------+ 1 row in set (0.00 sec) mysql> SHOW VARIABLES LIKE 'character_set_results'; +-----------------------+-------+ | Variable_name | Value | +-----------------------+-------+ | character_set_results | utf8 | +-----------------------+-------+ 1 row in set (0.00 sec)
从结果可以看到,客户端发的字符串请求字符集是utf8,处理和返回给客户端的也是utf8,下篇文章重点详细介绍如何转换。