ASCII码 Unicode编码 UTF和UTF8 GB2312 的编码入门和总结

zoukankan html css js c++ java

ASCII码 Unicode编码 UTF和UTF8 GB2312 的编码入门和总结

ASCII码

我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1
两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节(byte)。也就是说，一个字节
一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从00000000到11111111。
上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用到现在。
ASCII码一共规定了128个字符的编码，比如空格 “SPACE”是32（二进制00100000）,大写字母A是65（二进制01000001）。这128个符号
(包括32个不能打印出来的控制符号)，只占用了一个字节的后面7位，最前面的1位统一规定为0

Unicode编码
1、Unicode是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是：
"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是 “Unicode Character Set”的缩写。
UCS(即Unicode编码)规定的是字符的编码(表示)形式，即如何用多个字节表示各种文字。UCS有两种格式，UCS-2、UCS-4。
UCS-2就是用两个字节编码，UCS-4就是用4个字节编码(实际上只用了31位,最高位必须为0)

2、字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。例如A的编码是65
早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5(国标码就是汉字的十六进制或二进制表示形式)。

3、ASCII、GB2312,GBK到GB18030的编码是向下兼容的，但是Unicode只与ASCII兼容，与GB码不兼容。比如中文里的“汉”字的Unicode编码是6C49，而GB码是BABA。
世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的
编码方式不一样。如果有一种编码，将世界上所有的符号都纳入其中。每个符号都有一个编码，那么乱码就会消失，这就是Unicode编码。
Unicode是一个很大的集合，可以容纳100多万个符号，每个符号的编码都不一样，比如：U+4E25表示汉字的"严"，U+0639表示阿拉伯字母Ain

Unicode的问题
需要注意的是,Unicode只是一个符号集，它只规定了二进制代码，却没有规定这个二进制代码如何存储。比如汉字"严"的Unicode是十六进制数4E25,转换成二进制数有15位10111000100101,也就是说这个符号的表示需要2个字节.表示更大的符号,可能需要3个字节或者4个字节.

这里便产生了两个问题,
1、计算机怎么知道三个字节表示一个符号,而不是分别代表示三个符号(unicode和ascii码如何时区分)呢?
2、英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到
三个字节是0，对于存储来说是极大的浪费，是无法接受的。

以上两个问题造成的结果是：出现了多种unicode的存储形式。也就是有多种不同的二进制格式来表示unicode(即UTF-8,UTF-16, UTF-32)。

UTF和UTF-8
1、UTF(UCS Transformation Format),Unicode编码的传输和存储是由UTF规范实现的。常见的UTF包括：UTF-8，UTF-16, UTF-32
一般在Windows平台上，提到Unicode，那就是指UTF-16了。

2、UTF-8是在互联网上使用最广泛的一种unicode实现方式。其他的实现方式还包括UTF-16和UTF32
UTF-8最大的一个特点，就是它是一种变长的编码方式。可以使用1-4个字节表示一个符号，根据不同的符号而变化字节长度。

3、UTF-8编码规则为：
1)对于单字节的符号，字节的第一位设为0,后面7位为这个符号的unicode码，对于英语字母，UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1)，第一个字节的前n位都设为1,第n+1位设为0，后面字节的前两位一律设为10，剩下的没有提及的二进制位全部为这个符号的unicode码。

下表总结了UTF-8编码规则,字母X表示可用编码的位
Unicode符号范围 UTF-8编码方式
(十六进制) (二进制)
0000 0000 0000 007F | 0xxxxxxx
0000 0000 0080 07FF | 110xxxxx 10xxxxxx
0000 0800 0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面，还是以汉字"严"为例：
已知"严"的unicode编码是4E25(100111000100101), 是15个二进制位，再加上表示符号字节数的二进制位，
所以要三个字节才能表示即格式为：1110xxxx 10xxxxxx 10xxxxxx，从"严"的最后一个二进制位开始,
依次从后向前将二进制值替换格式中的x,多出x位补0。这样就得到了"严"的编码是"11100100 10111000 10100101"转换成十六进制就是E4B8A5

UTF-16
UTF-16使用两个字节存储和传输文字。
UTF-16 BE(big endian),俗称大头。比如说：char 'a' ascii为:0x61，那么UTF-8为[0x61], UTF-16 BE为：[0x00,0x61]
UTF-16 LE(little endian),俗称小头，这个是比较常用的。比如:char 'a'，它的二进制形式正好反过来：[0x61,0x00],据说
是为了提高速度而迎合CPU的胃口，CPU就是倒着吃数据的。
一般情况下，UTF-16默认是指UTF-16 LE
大头(Big endian)，小头(Little endian)。以汉字"严"为例，Unicode码是4E25，需要两个字节存储，一个字节是4E，另一个字节是25
存储的时候,4E在前，25在后，就是Big endian方式， 25在前，4E在后，就是 Little endian方式
这两个古怪的名称来自英国作家斯威夫特的<<格列佛游记>>，在该书中，小人国爆发了内战，战争的起因是人们争论，吃鸡蛋时究竟
是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，为了这件事情，前后爆发了六次战争，一个皇帝送了命，另一个皇帝丢了王位。
因此，第一个字节在前，就是"大头方式(Big endian)"，第二个字节在前就是"小头方式"(Little endian).

计算机是怎么知道某一个文件到底采用哪一种方式编码？
Unicode规范中定义，每一个文件的最前面分加入一个表示编码顺序的字符，这个字符的名字叫做"零宽度非换行空格(ZERO WIDTH NO-BREAK-SPACE)"
用FEFF表示。这正好是两个字节，而且FF比FE大1
如果一个文本文件的头两个字节是FEFF，就表示该文件采用大头方式;如果头两个字节是FFFE，就表示该文件采用小头方式。
如果一个文本文件的是以EF BB BF开头，就知道是UTF-8编码了。

扩展阅读
中国国标编码：
GB 13000:完全等同于ISO 10646-1/Unicode 2.1 今后也将随ISO 10646/Unicode的标准更改而同步更改
GBK:对GB2312的扩充，以容纳GB2312字符集范围以外的Unicode 2.1的统一汉字部分，并且增加了部分Unicode中没有的字符。
GB 18030-2000:基于GB 13000，作为Unicode 3.0的GBK扩展版本，覆盖了所有unicode编码，地位等同于UTF-8, UTF-16 是一种
unicode 编码形式。
GB 18030是中国所有非手持、嵌入式计算机系统的强制实施标准。
Unicode与UCS的关系：
国际标准ISO 10646定义了通用字符集(Universal Character Set, UCS),UCS是所有其他字符集标准的一个超集。它保证与其
他字符集是双向兼容的。就是说你将任何文本字符串翻译到UCS格式，然后再翻译回原编码，你不会丢失任何信息。

ISO与Unicode.org 是两个不同的组织，因此最初制定了不同的标准;国际标准化组织(ISO)的ISO 10646项目与多语言软件制造商协会组织的Unicode项目，
它们合并双方的工作成果。从unicode2.0开始 unicode采用了与ISO 10646-1相同的字库和字码，ISO也承诺ISO 10646将不会超出0x10FFFF的 UCS-4的编码赋值，
使得两者保持一致，合二为一。就像html5的WHATWG 和 W3C两个组织一样。不过html5的两个组织最近好像要分道扬镳了。

什么编程语言支持Unicode编码？
在大约1993年之后开发的大多数现代编程语言都有一个特别的数据类型，叫做Unicode/ISO 10646-1 字符。在Java中叫char
在ISO C里面说有处理多字节编码和宽字符(wide characters), wchar_t类型用来存放Unicode字符。

GB2312,内码和代码页的概念
“GB2312的原文”是指国家1980年的一个标准<<中华人民共和国国家标准信息交换用汉字编码字符集基本集 GB2312-80>>。这个标准用两个
数来编码汉字和中文符号。第一个数称为"区"，第二个数称为"位"，所以也称为区位码。1-9区是中文符号，16-55区是一级汉字，56-87区是
二级汉字。现在Windows也还有区位输入法，例如输入1601得到"啊"

内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的。现在的Windows在系统内部支持Unicode，然后用代码页适应各种
语言，"内码"的概念比较模糊了。微软一般将缺省代码页指定的编码说成是内码。

内码这个词汇，并没有什么官方的定义，代码页也只是微软这个公司的叫法。

所谓代码页(code page) 就是针对一种语言文字的字符编码。例如GBK的Code page是cp 936,
BIG5的 code page是cp 950 GB2312的 code page是CP 20936

Windows中有缺省代码页的概念，即缺省用什么编码来解释字符。例如Windows的记事本打开了一个文本文件，里面的内容
是BA BA D7 D6。Windows应该去怎么解释它呢？

是按照Unicode编码解释，还是按照GBK解释，还是按照BIG5 解释?
答案是windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控制面板的区域选项设置。

Windows 的内码是Unicode，它在技术上可以同时支持多个代码页。只要文件能说明自已使用什么编码，用户又安装了对应的代码页，
Windows就能正确显示。在有的HTML文件作者，特别是英文作者，认为世界上所有人都使用英文，在文件中不指定charset，如果他使用了
0x80-0xff之间的字符，中文Windows又按照缺省的GBK去解释，就会出现乱码。

查看全文

相关阅读:
13-7实现旅拍卡片布局-2
13-6实现旅拍卡片布局-1
13-5实现旅拍瀑布流布局-2
13-4实现旅拍瀑布流布局-1
13-3使用TabBar+TabBarView 实现旅拍可滑动切换多Tab
13-2根据接口实现dao层
 13-1
12-12本章小结
 12-11【锦上添花】Flutter AI只能语音搜索功能实现
 12-10【收货果实】Futter AI只能语音界面开发-2

原文地址：https://www.cnblogs.com/scud001/p/2856300.html