问题描述:
在实际的编码开发中,经常会遇见字符串内容乱码的问题。要解决这种乱码问题,必须要知道为什么会出现乱发,这就要理解字符串编码的原理。
首先理解4个概念,即字符集(Charset)、编码字符集(Coded Character Set)、字符编码方案(Character Encoding Scheme)和编码(Encoding)
1.字符集:指的就是我们人类识别的文字和符号。编程中常用的字符集有以下几种。
1)ASCII:美式字符集。定长编码方案,1个字节。
2)ISO-8859-1:西欧字符集。定长编码方案,1个字节。
3)GB2312:简体中文字符集。定长编码方案,2个字节。
4)GIG5:繁体字符集。定长编码方案,2个字节。
5)GBK:国标简繁字符集,包括GB2312和BIG5和一些其他符合。定长编码方案,2个字节。。
6)Unicode:几乎囊括了世界上所有语言的文字和符合。分两种,一种:UTF-8 变成编码方案,1-6个字节;另一种:UTF-16 定长编码方案,固定2个字节。
2.编码字符集:指的是字符集在计算机体现表示的二进制。通过相关的规则映射成字节序列。
3.字符编码方案:分为两种,定长编码方案和变长编码方案。变成编码方案比较节省资源。
4.编码:编码字符集和字符编码方案的一个组合,就是指编码字符集加上字符编码方案通过映射关系映射到对应的字符集。