unicode 和 utf-8 的关系和解释 - 走看看

zoukankan html css js c++ java

unicode 和 utf-8 的关系和解释

首先一个字节就是8个晶体管同时发出的信号集，

unicode就是一套编码，所有的字符都用2个字节表示，不像gbk和gb2312既保持了以前的ansi/ascii的字符单个字节编码，有发明了两个字节保存中文和特殊字符编码，

uTF-8就是为了传输unicode,

UTF-8是这样做的：

1. 单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；
2. n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

这样就形成了如下的UTF-8标记位：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

作者：uuspider
链接：http://www.zhihu.com/question/23374078/answer/65352538
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

作者：uuspider
链接：http://www.zhihu.com/question/23374078/answer/65352538

来源：知乎
著作权归作者所有，转载请联系作者获得授权。　　　　　　

查看全文

相关阅读:
[HAOI2015]T2
bzoj1036:[ZJOI2008]树的统计Count
苹果树
 poj1151 Atlantis
1593: [Usaco2008 Feb]Hotel 旅馆
 [JSOI2008]最大数maxnumber
【HNOI2014】米特运输
 【HNOI2013】数列
 Luogu5221 Product
【CQOI2014】数三角形

原文地址：https://www.cnblogs.com/qinqiu/p/5888612.html

Copyright © 2011-2022 走看看