zoukankan      html  css  js  c++  java
  • [转载]Unicode中对中文字符的编码

    以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。

    本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版

    对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)

    Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。

    平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
    平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
    平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
    平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
    平面4 to 13 (40000–DFFFF)尚未使用
    平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
    平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
    平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

    最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
    unicode基本平面区的编码区间含义


    为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,
    使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
    unicode中的几大区间

    最后小结下:

    1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

    2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

    其中 

    2E80-A4CF 

    包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

     F900-FAFF

    中日朝兼容表意文字

    FE30-FE4F

    中日朝兼容形式

    所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

    2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

    3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码

    原文请见:http://www.iteye.com/topic/977671

  • 相关阅读:
    JID 2.0 RC4 发布,高性能的 Java 序列化库
    FBReaderJ 1.6.3 发布,Android 电子书阅读器
    Arquillian 1.0.3.Final 发布,单元测试框架
    JavaScript 的宏扩展 Sweet.js
    Hypertable 0.9.6.5 发布,分布式数据库
    JRuby 1.7.0 发布,默认使用 Ruby 1.9 模式
    httppp 1.4.0 发布,HTTP响应时间监控
    Redis 2.6.0 正式版发布,高性能K/V服务器
    OfficeFloor 2.5.0 发布,IoC 框架
    XWiki 4.3 首个里程碑发布
  • 原文地址:https://www.cnblogs.com/glamourousGirl/p/4714561.html
Copyright © 2011-2022 走看看