zoukankan      html  css  js  c++  java
  • Unicode 与 UTF

    【UCS】   Universal Character Set (通用字符集)

    【UCS】   Unicode Character Set  (Unicode字符集)

    【UTF-8】Unicode/UCS Transformation Format-8

                  说明,由于UTF也适用于编码通用字符集UCS,故亦可称为『UCS transformation formats (UTF)』

            Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它是基于通用字符集(Universal Character Set)的标准来发展的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

            Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

            在Unicode中:汉字“字”对应的数字是23383。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、UTF-16、UTF-32。

           “汉字”对应的数字是0x6c49和0x5b57,而编码的程序数据是:
                            BYTE data_utf8[] = {0xE6, 0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8 编码  ,6个字节
                            WORD data_utf16[] = {0x6c49, 0x5b57};                               // UTF-16编码 ,4个字节
                            DWORD data_utf32[] = {0x6c49, 0x5b57};                            // UTF-32编码 ,8个字节

           “汉字”的UTF-16编码需要两个WORD,大小是4个字节。“汉字”的UTF-32编码需要两个DWORD,大小是8个字节。根据字节序的不同,UTF-16可以被实现为UTF-16LE或UTF-16BE,UTF-32可以被实现为UTF-32LE或UTF-32BE。

    下面介绍UTF-8、UTF-16、UTF-32、字节序和BOM:

      【UTF-8】
      UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下:
      Unicode编码(16进制) ║ UTF-8 字节流(二进制) 
      000000 - 00007F ║ 0xxxxxxx 
      000080 - 0007FF ║ 110xxxxx 10xxxxxx 
      000800 - 00FFFF ║ 1110xxxx 10xxxxxx 10xxxxxx 
      010000 - 10FFFF ║ 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
      UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。
           例1:“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

    【UTF-16】

      UTF-16编码以16位无符号整数为单位。我们把Unicode编码记作U。编码规则如下:
      如果U<0x10000,U的UTF-16编码就是U对应的16位无符号整数(为书写简便,下文将16位无符号整数记作WORD)。 
      如果U≥0x10000,我们先计算U'=U-0x10000,然后将U'写成二进制形式:yyyy yyyy yyxx xxxx xxxx,U的UTF-16编码(二进制)就是:110110yyyyyyyyyy 110111xxxxxxxxxx。 
            为什么U'可以被写成20个二进制位?Unicode的最大码位是0x10FFFF,减去0x10000后,U'的最大值是0xFFFFF,所以肯定可以用20个二进制位表示。
    例如:Unicode编码0x20C30,减去0x10000后,得到0x10C30,写成二进制是:0001 0000 1100 0011 0000。用前10位依次替代模板中的y,用后10位依次替代模板中的x,就得到:1101100001000011 1101110000110000,即0xD843 0xDC30。

           按照上述规则,Unicode编码0x10000-0x10FFFF的UTF-16编码有两个WORD,第一个WORD的高6位是110110,第二个WORD的高6位是110111。可见,第一个WORD的取值范围(二进制)是11011000 00000000到11011011 11111111,即0xD800-0xDBFF。第二个WORD的取值范围(二进制)是11011100 00000000到11011111 11111111,即0xDC00-0xDFFF。
           为了将一个WORD的UTF-16编码与两个WORD的UTF-16编码区分开来,Unicode编码的设计者将0xD800-0xDFFF保留下来,并称为代理区(Surrogate):
      D800-DB7F  ║ High Surrogates                   ║ 高位替代 
      DB80-DBFF ║ High Private Use Surrogates ║ 高位专用替代 
      DC00-DFFF ║ Low Surrogates                    ║ 低位替代
            高位替代就是指这个范围的码位是两个WORD的UTF-16编码的第一个WORD。低位替代就是指这个范围的码位是两个WORD的UTF-16编码的第二个WORD。那么,高位专用替代是什么意思?我们来解答这个问题,顺便看看怎么由UTF-16编码推导Unicode编码。 
            如果一个字符的UTF-16编码的第一个WORD在0xDB80到0xDBFF之间,那么它的Unicode编码在什么范围内?我们知道第二个WORD的取值范围是0xDC00-0xDFFF,所以这个字符的UTF-16编码范围应该是0xDB80 0xDC00到0xDBFF 0xDFFF。我们将这个范围写成二进制:
      1101101110000000 11011100 00000000 - 1101101111111111 1101111111111111
      按照编码的相反步骤,取出高低WORD的后10位,并拼在一起,得到
      1110 0000 0000 0000 0000 - 1111 1111 1111 1111 1111
      即0xe0000-0xfffff,按照编码的相反步骤再加上0x10000,得到0xf0000-0x10ffff。这就是UTF-16编码的第一个WORD在0xdb80到0xdbff之间的Unicode编码范围,即平面15和平面16。因为Unicode标准将平面15和平面16都作为专用区,所以0xDB80到0xDBFF之间的保留码位被称作高位专用替代。

     【UTF-32】

      UTF-32编码以32位无符号整数为单位。Unicode的UTF-32编码就是其对应的32位无符号整数。

     【字节序】

      小端:低字节在前(低地址),高字节在后(高地址);大端:高字节在前,低字节在后(所见即所得)

      根据字节序的不同,UTF-16可以被实现为UTF-16LE或UTF-16BE,UTF-32可以被实现为UTF-32LE或UTF-32BE。例如:
      Unicode编码 ║ UTF-16LE     ║ UTF-16BE     ║ UTF32-LE    ║ UTF32-BE 
      0x006C49      ║ 49 6C             ║ 6C 49             ║ 49 6C 00 00 ║ 00 00 6C 49 
      0x020C30      ║ 43 D8 30 DC  ║ D8 43 DC 30 ║ 30 0C 02 00 ║ 00 02 0C 30 

    【BOM】

            那么,怎么判断字节流的字节序呢?Unicode标准建议用BOM(Byte Order Mark)来区分字节序,即在传输字节流前,先传输被作为BOM的字符“零宽无中断空格”。这个字符的编码是FEFF,而反过来的FFFE(UTF-16)和FFFE0000(UTF-32)在Unicode中都是未定义的码位,不应该出现在实际传输中。下表是各种UTF编码的BOM:
                UTF编码   ║ Byte Order Mark 
                UTF-8        ║ EF BB BF 
                UTF-16LE ║ FF FE 
                UTF-16BE ║ FE FF 
                UTF-32LE ║ FF FE 00 00 
                UTF-32BE ║ 00 00 FE FF

    Chance favors the prepared mind.
  • 相关阅读:
    c#实现windows远程桌面连接程序
    基于.NET平台常用的框架整理
    c#无限循环线程如何正确退出
    c# 内存的具体表现- 通用类型系统 深拷贝 浅拷贝 函数传参
    coco2d-x convertToWorldSpace介绍
    Effective C++条款20:宁以pass-by-reference-to-const替换pass-by-value。Test code
    函数指针与指针函数返回值的区别
    游戏开发那些事
    lua 根据指定字符拆分table字符串(转载)
    实习和学习的双重压力
  • 原文地址:https://www.cnblogs.com/jamiechen/p/unicode.html
Copyright © 2011-2022 走看看