zoukankan      html  css  js  c++  java
  • BG2312 GB13000 GBK GB18030 简介

    GB2312

      GB2312我国1980年制定的汉子编码规范 为7位双字节编码(共128*128),为了避开ASCII编码中的控制字符(0~31和127)以及空格符(32),最后只剩下94位可用,遵循ISO 2022标准的编码方案都是如此。但是后来发现虽然包含了大部分的常用汉子,但是中国汉字文化,博大精深,很快就发现很多汉字不支持,不够我们使用了。

    GB13000

      因为GB2312的这些问题,国家标准化委员会又制定了GB13000,GB13000制定的原则与GB2312不同,GB13000以国际化为目标, 该标准编码参照了Unicode 2.0 标准编码,与GB2312完全不兼容,因早期的计算机中的汉卡采用了GB2312,无法顺利向GB13000过渡,所以GB13000变成了一个纸面上的 标准,无法推广.......

    GBK

      所以我们改进之后,国家标准化委员会制定了GBK标准,他兼容GB2312标准,同时在GB2312标准的基础上扩展了GB13000包含的字,可以说是承上启下,编码修改后一经推出,就被WINDOWS95所采用,可以说是windows帮助了GBK的推广。其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,

    GBK编码分为三大部分:

    1. 汉字区。包括:
      a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
      b. GB 13000.1 扩充汉字区。包括:
        (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
        (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
        (3) 汉字“〇”安排在图形符号区GBK/5:A996。

    2. 图形符号区。包括:
      a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
      b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“〇”排列在此区。计符号 166 个。

    3. 用户自定义区:分为a.b.c三个小区。
      a. AAA1-AFFE,码位 564 个。
      b. F8A1-FEFE,码位 658 个。
      c. A140-A7A0,码位 672 个。
      第c区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。

     

    GB18030

      GBK之后又有GB18030标准,2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码,兼容GBK和GB2312字符集。因GB18030较GBK又多了几千汉字,码位不足,GB18030使用了2byte与4byte混合编码方式,这又给软件增加了难题,所以虽然GB18030推出了很久,仍然没有得到广泛应用。

  • 相关阅读:
    c 中 static 关键字的作用
    关于声明变量关键字 extern 的搜索知识点
    思考在路上-虚拟机redhat系统安装tools
    一个小程序猿思考之路-头文件中#ifndef/#define/#endif作用和用法
    const 修饰的小看点(自己积点小知识)
    用css3实现闪烁效果
    icon font
    跟踪对象属性值的修改, 设置断点(Break on property change)
    setTimeout(fn, 0)引发的JavaScipt线程的思考
    "float: left;" div 不换行显示
  • 原文地址:https://www.cnblogs.com/MYue/p/8934358.html
Copyright © 2011-2022 走看看