zoukankan      html  css  js  c++  java
  • unicode 和 utf-8 的关系和解释

    首先一个字节就是8个晶体管同时发出的信号集,

    unicode就是一套编码,所有的字符都用2个字节表示,不像gbk和gb2312既保持了以前的ansi/ascii的字符单个字节编码,有发明了两个字节保存中文和特殊字符编码,

    uTF-8就是为了传输unicode, 

    UTF-8是这样做的:

    1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;
    2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。
    这样就形成了如下的UTF-8标记位:

    0xxxxxxx
    110xxxxx 10xxxxxx
    1110xxxx 10xxxxxx 10xxxxxx
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    作者:uuspider
    链接:http://www.zhihu.com/question/23374078/answer/65352538
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。
    作者:uuspider
    链接:http://www.zhihu.com/question/23374078/answer/65352538
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。      
  • 相关阅读:
    http缓存机制与原理
    BFC与浮动
    05ICMP协议与ARP协议(IP协议中重要协议)
    04IP编址(网络层)
    03以太网帧结构(链路层 IEEE802.3)
    02传输介质简介
    shell 脚本 2
    shell 脚本 1
    shell 中时间 表达
    sed 行编辑器
  • 原文地址:https://www.cnblogs.com/qinqiu/p/5888612.html
Copyright © 2011-2022 走看看