Unicode和Utf-8详细解说

zoukankan html css js c++ java

Unicode和Utf-8详细解说

　　1、ANSI (American National Standards Institute，美国国家标准协会)制定的“ASCII”编码（American Standard Code for Information Interchange，美国信息互换标准代码）。那时世界上所有的计算机都用同样的ASCII方案来保存英文文字，是基于拉丁字母的一套电脑编码系统，主要是用于显示现代英语和其他西欧的语言，它是现今最通用的单字节编码系统，等同于国际标准ISO/IEC 646。

　　下面我们来看一下，ASCII表格。

　　ASCII码为7位，占一个字节（最高为0），它存放时必须占全一个字节，也即占用8位。ASCII编码是由ANSI（美国国家标准协会)制定的一种包括数字、字母、通用符号、控制符号在内的字符编码集。

编码简单描述：

（1）ASCII码：美国人最初把自己的语言用计算表示，发现0-127可以表示数字、字母、通用符号、控制符号。（7位，占用1个字节。）

（2）ISO 8899-1：欧洲人研发，0-127是ASCII码，128-255加了一些特殊的字符。（占用1个字节。）

（3）GBK：中国人研发，兼容ASCII码来表示中文。（占用两个2字节。）

（4）Unicode：设计出全世界语言的对应编码，就像编了一本大汉语词典。

　　　　　　　　定义地址范围：3个字节（编码表的编号从0一直算到了100多万）。

　　　　　　　　字符都有唯一的编号，这就解决了解码的冲突。

　　　　　　　　没有为编码的二进制传输和二进制解码作出规定。

于是，就出现了如下解决方案：utf-8（1个字节）, utf-16（2个字节）, utf-32（4个字节）这些编码方案。

utf-8这种解决方案，用得最多，因为在当时它的方案最好，最节省资源。

utf-8为了节省资源，采用变长编码，编码长度从1个字节到6个字节不等。

UTF-8的编码规则很简单，只有二条：
1、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2、对于n字节的符号（n>1），第一个字节的前n位都设为1，第n个字节的第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

提问：后面字节的前两位一律设为10，为什么呢？

后面字节的前两位一律设为10(10000000也就是80)是因为必须要大于7F才和ASCII码分开。

下面，我们来宏观的看一下UTF-8和Unicode是怎么工作的吧？

查看全文

相关阅读:
【实用代码】圆弧边框、阴影
 2015.7.30 第十五课 sql（新建数据库、创建表、注释、查询语句、新增、更新、删除、联合查询）
【转】WEB前端开发工程师成长之路（计划）
2015.7.29 第十三、十四课 jq实例（磁力图片、轮播图、腾讯课堂菜单、可弹出红色菜单、砸蛋游戏）
【周末作业】2015.7.15 第二周 css作业及答案
 【课堂实例】轮播图
 2015.7.23 第十二课课程重点（jq元素：获取、添加、删除、设置、绑定、显示隐藏、回调、动画）
2015.7.22 第十一课课程重点（jq：元素获取、添加、删除、过滤、判断、遍历、取值，样式设置、改变对象、切换、判断）
【其它】喜欢的歌汇总
 2015.7.21 第十课课程重点（jq选择器：id、类、标签、奇偶、eq、nth-child、子元素、属性、包含、位置、过滤）

原文地址：https://www.cnblogs.com/niuwa/p/7793950.html