zoukankan      html  css  js  c++  java
  • UTF-8笔记170330





    unicode


    为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的

    UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节

    RFC 3629utf8


    UTF-8Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E000x9FA5(其实还包括了中日韩的),是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。

    1字节 7   0xxxxxxx 
    2
    字节 11 110xxxxx 10xxxxxx 
    3
    字节 16 1110xxxx 10xxxxxx 10xxxxxx 
    4
    字节 21 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
    5
    字节 26 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
    6
    字节 31 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

  • 相关阅读:
    哈利波特买书事件
    闹钟类app构想
    梦断代码(7-尾)
    梦断代码(3-6)
    梦断代码(0-2)
    环形二维数组求最大子矩阵
    数组问题
    电梯考察
    四则运算的三张计划表
    团队开发用户需求调研
  • 原文地址:https://www.cnblogs.com/jinhengyu/p/7516812.html
Copyright © 2011-2022 走看看