zoukankan      html  css  js  c++  java
  • Unicode、UTF8与UTF16

    1 概念

    Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案

    UTF是“Unicode Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据

    UTF8与UTF16的区别,在我看来是用于表示Unicode的下限位数。如UTF8最低可以用8位来表示某些Unicode,而UTF16则需16位来表示某些Unicode

    2 Unicode转UTF8

     
     
    UTF-8 字节流(二进制)
    000000-00007F
    0xxxxxxx
    000080-0007FF
    110xxxxx 10xxxxxx
    000800-00FFFF
    1110xxxx 10xxxxxx 10xxxxxx
    010000-10FFFF 11110xxx10xxxxxx10xxxxxx10xxxxxx

    例1:“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

    例2:Unicode编码0x20C30在0x010000-0x10FFFF之间,使用用4字节模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字(不足21位就在前面补0):0 0010 0000 1100 0011 0000,用这个比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。

    3 Unicode转UTF16

    如果U<0x10000,U的UTF-16编码就是U对应的16位无符号整数

    如果U≥0x10000,我们先计算U'=U-0x10000,然后将U'写成二进制形式:yyyy yyyy yyxx xxxx xxxx,U的UTF-16编码(二进制)就是:110110yyyyyyyyyy 110111xxxxxxxxxx。

    例如:Unicode编码0x20C30,减去0x10000后,得到0x10C30,写成二进制是:0001 0000 1100 0011 0000。用前10位依次替代模板中的y,用后10位依次替代模板中的x,就得到:1101100001000011 1101110000110000,即0xD843 0xDC30。

  • 相关阅读:
    JDBC07-----代码重构之封装DBCUtils工具类
    JDBC06-----数据库连接池与配置文件
    JDBC05----事务与批处理
    JDBC04----预编译语句介绍
    JDBC03----DAO思想
    数据的序列化,持久化,归档
    苹果官方的图标大小的调整
    UIColletionView 的属性与常用方法介绍
    IOS学习笔记25—HTTP操作之ASIHTTPRequest
    IOS UI segmentedControl UISegmentedControl 常见属性和用法
  • 原文地址:https://www.cnblogs.com/white-knight/p/6748513.html
Copyright © 2011-2022 走看看