zoukankan      html  css  js  c++  java
  • mysql字符集utf8和utf8mb4区别

    1.起因

      公司游戏项目上线第一天,出现单个区服异常宕机的问题,根据日志排查下来,连接数据的时候报错,后面排查是因为有玩家插入Emoji 等表情导致无法存储如数据库,数据库字符集编码为utf8,后续改成utf8mb4就可以存储emoji等表情了

      所以今天来解析一下utf8和utf8mb4的区别。

     

    2.Utf8和Utf8mb4区别

      MySQL在5.5.3之后增加了这个utf8mb4的编码,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集,除了将编码改为utf8mb4外不需要做其他转换。当然,为了节省空间,一般情况下使用utf8也就够了。

      可以简单的理解 utf8mb4 是目前最大的一个字符编码,支持任意文字。

      utf8 是 Mysql 中的一种字符集,只支持最长三个字节的 UTF-8字符,也就是 Unicode 中的基本多文本平面。

      Mysql 中的 utf8 为什么只支持持最长三个字节的 UTF-8字符呢?我想了一下,可能是因为 Mysql 刚开始开发那会,Unicode 还没有辅助平面这一说呢。那时候,Unicode 委员会还做着 “65535 个字符足够全世界用了”的美梦。Mysql 中的字符串长度算的是字符数而非字节数,对于 CHAR 数据类型来说,需要为字符串保留足够的长。当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100) Mysql 会保留 300字节长度。至于后续的版本为什么不对 4 字节长度的 UTF-8 字符提供支持,我想一个是为了向后兼容性的考虑,还有就是基本多文种平面之外的字符确实很少用到。

      要在 Mysql 中保存 4 字节长度的 UTF-8 字符,需要使用 utf8mb4 字符集,但只有 5.5.3 版本以后的才支持。为了获取更好的兼容性,应该使用 utf8mb4 而非 utf8. 对于 CHAR 类型数据,utf8mb4 会多消耗一些空间,根据 Mysql 官方建议,使用 VARCHAR 替代 CHAR。

     

    3.为什么使用Utf8mb4字符集

      既然utf8应付日常使用完全没有问题,那为什么还要使用utf8mb4呢? 低版本的MySQL支持的utf8编码,最大字符长度为 3 字节,如果遇到 4 字节的字符就会出现错误了。三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xFFFF,也就是 Unicode 中的基本多文平面(BMP)。也就是说,任何不在基本多文平面的 Unicode字符,都无法使用MySQL原有的 utf8 字符集存储。这些不在BMP中的字符包括哪些呢?最常见的就是Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和一些不常用的汉字,以及任何新增的 Unicode 字符等等。

      所以文章开始就是该问题,比如会在研发没有限制用户名字符的时候又或者评论的时候,都需要一些4字节的符号和表情。

     

    4.设置mysql的字符集

      假如设置成为utf8mb4

    [client] 
    default-character-set = utf8mb4 
    [mysqld] 
    character-set-server = utf8mb4 

      查看数据库变量来查看是否更改成功

    mysql> SHOW VARIABLES WHERE Variable_name LIKE  'character_set_%'  OR Variable_name LIKE 'collation%';
    +--------------------------+----------------------------+
    | Variable_name            | Value                      |
    +--------------------------+----------------------------+
    | character_set_client     | utf8mb4                    |
    | character_set_connection | utf8mb4                    |
    | character_set_database   | utf8mb4                    |
    | character_set_filesystem | binary                     |
    | character_set_results    | utf8mb4                    |
    | character_set_server     | utf8mb4                    |
    | character_set_system     | utf8                       |
    | character_sets_dir       | /usr/share/mysql/charsets/ |
    | collation_connection     | utf8mb4_general_ci         |
    | collation_database       | utf8mb4_general_ci         |
    | collation_server         | utf8mb4_general_ci         |
    +--------------------------+----------------------------+
    11 rows in set (0.00 sec)

      上述中,必须保证以下几个变量是和配置相同的。

    系统变量

    描述

    character_set_client

    (客户端来源数据使用的字符集)

    character_set_connection

    (连接层字符集)

    character_set_database

    (当前选中数据库的默认字符集)

    character_set_results

    (查询结果字符集)

    character_set_server

    (默认的内部操作字符集)

     

    5.补充

      例如在使用utf8字符集但是碰到4字节的情况下也是可以强制存储进入数据库的,只要数据库的非严格模式打开即可,但是存储的数据会是乱码,并且无法恢复,此方法只是保证有些程序不会因为报错而导致程序宕机尝试,并不推荐。

    作者:小家电维修

    相见有时,后会无期。

  • 相关阅读:
    2019秋季 关于C语言指针等探索
    第四次作业
    第三次作业
    错误总结
    第二次作业
    第一次随笔
    Linux Mint安装Docker踩坑指南
    浅论Javascript在汽车信号测试中的应用
    [瞎玩儿系列] 使用SQL实现Logistic回归
    MongoDB的账户与权限管理及在Python与Java中的登录
  • 原文地址:https://www.cnblogs.com/lizexiong/p/14653227.html
Copyright © 2011-2022 走看看