character_set_client:character_set_client:客户端来源数据使用的字符集(告知服务器自己发来的数据是什么格式编码的)
character_set_connection:连接层字符集
character_set_results:查询结果字符集
以上三个变量的设置只对当前的客户端生效,打个比方,比如我在win命令行中连接了mysql,我设置了set character_set_connection = utf8;
当我再启动另一个命令行连接了数据库,这个character_set_connection不一定是utf8,这个命令行里的character_set_connection变量为默认设置gbk.
character_set_results为服务器直接返回给客户端的字符的编码(注意,客户端通往服务器需要经过连接层中转,而服务器却不经过中转直接到客户端)。所以,这个要与character_set_client
保持一致。
下面这句: SET NAMES 'utf8';它相当于下面的三句指令:
SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = utf8;
除上面三个只对当前客户端生效的变量以外,还有以下定义服务器编码的变量,这些对所有客户端有效:
character_set_server:默认的内部操作字符集
character_set_database:当前选中数据库的默认字符集
character_set_database:当前选中数据库的默认字符集
关于字符序:
• 字符序(Collation)是指在同一字符集内字符之间的比较规则;
• 确定字符序后,才能在一个字符集上定义什么是等价的字符,以及字符之间的大小关系;
• 每个字符序唯一对应一种字符集,但一个字符集可以对应多种字符序,其中有一个是默认字符序(Default Collation);
• MySQL中的字符序名称遵从命名惯例:以字符序对应的字符集名称开头;以_ci(表示大小写不敏感)、_cs(表示大小写敏感)或_bin(表示按编码值比较)结尾。例如:在字符序“utf8_general_ci”下,字符“a”和“A”是等价的;
MySQL中的字符集转换过程
1. MySQL Server收到请求时将请求数据从character_set_client转换为character_set_connection;
2. 进行内部操作前将请求数据从character_set_connection转换为内部操作字符集,其确定方法如下:
- 使用每个数据字段的CHARACTER SET设定值;
- 若上述值不存在,则使用对应数据表的DEFAULT CHARACTER SET设定值(MySQL扩展,非SQL标准);
- 若上述值不存在,则使用对应数据库的DEFAULT CHARACTER SET设定值;
- 若上述值不存在,则使用character_set_server设定值。
3. 服务器返回给客户端的时候,将操作结果从内部操作字符集转换为character_set_results直接发给客户端。
由于字符集设计有误带来数据错误的案例:
character_set_client、character_set_connection为utf8.服务器字符集为默认latin1
插入数据将经过utf8=>utf8=>latin1的字符集转换,若原始数据中含有u0000~u00ff范围以外的Unicode字符,会因为无法在latin1字符集中表示(latin1字符集没有汉字)而被转换为“?”(0×3F)符号,以后查询时不管连接字符集设置如何都无法恢复其内容了
character_set_client、character_set_connection为latin1,character_set_results为utf8,服务器字符集为utf8,
插入操作的数据将经过latin1=>latin1=>utf8的字符集转换过程,这一过程中每个插入的汉字都会从原始的3个字节变成6个字节保存;
查询时的结果将经过utf8=>utf8的字符集转换过程,将保存的6个字节原封不动返回,产生乱码……,如下图
建议,我们解决我们遇到问题应该使用什么方法大家心里应该比较清楚了。对,就是在创建database的时候指定字符集,不要去通过修改默认配置来达到目的,当然你也可以采用指定表的字符集的形式,但很容易出现遗漏,特别是在很多人都参与设计的时候,更容易纰漏。
以上内容参考自http://www.cnblogs.com/discuss/articles/1862248.html
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
针对字符集的转换过程,我们产生了疑问,为什么客户端连接数据库要比数据库返回客户端多一个中间层character_set_connection呢?这是必须的吗,意义何在?
以下观点来源于某网友https://www.cnblogs.com/lazyno/archive/2015/02/07/4278544.html:
google时,http://stackoverflow.com/questions/16082480/what-is-the-purpose-of-character-set-connection
老外也提到过样的问题,本人英语差得很,也没怎么看完,最后转而去看手册去了。
在手册中发现一句话:转换时,服务器使用character_set_connection和collation_connection系统变量。它将客户端发送的查询从character_set_client系统变量转换到character_set_connection(除非字符串文字具有象_latin1或_utf8的引介词)。collation_connection对比较文字字符串是重要的。对于列值的字符串比较,它不重要,因为列具有更高的 校对规则优先级。
请反复读下这段话,尤其是红色部分。现在说下我的理解:我们操作数据库时,大多于表有关,但是并不是说操作数据库一定要于表有关,如果使用表,则表和字段的字符集有优先,比如直接select length('中国人'),如果character_set_connection是utf8的则输出9,如果是gbk则输出6。各位可以通过修改字符集变量测试下。我想character_set_connection存在的意义大多是类似于此类用法吧。
如有说的不对的地方,请指正下,或者有更多的说法,也请说下。