zoukankan      html  css  js  c++  java
  • 字符集编码

    字符集

    字符- 只有名字和显示的样式。例如:COMMA ,
    字符码位(交换码)-每个字符定义一个唯一的数字表示(码位)。例如:0x2C ,
    字符编码(内码)- 针对一套字符码位的映射算法,以在计算机内部用字节序列表示每个码位。

    ASCII字符集
      主要针对英语使用
      每个字符的定义,字符码位和字符编码完全相同,最简单的映射关系

    GB2312字符集
    每个汉字或符号用两个字节来表示。分区(十进制)处理:
    01-09区为特殊符号。
    10-15区未有编码
    16-55区为一级汉字,按拼音排序。
    56-87区为二级汉字,按部首/笔画排序。
    88-94区则未有编码
    高位字节使用0xA1-0xF7(把01-87区的区号加上0xA0),低位字节使用0xA1-0xFE(把01-94加上0xA0)。
      例如:“啊”字是GB2312之中的第一个汉字,它的区位码是1601,会以0xB0A1储存。
              (因为16+0xA0=0xB0  01+0xA0=0xA1)

    ISO8895字符集
      主要针对拉丁字母的语言

    GBK
    汉字内码扩展规范。
    最初是MS对GB2312的扩展,得到国家认可但不是国家标准。
    包括了原GB2312编码,编码范围是:高字节0x81-0xFE,低字节0x40-0xFE同时不包括

    0x7F
    对比
    GBK:       0x81-0xFE, 0x40-0xFE,  -0x7F
    GB2312:    0xA1-0xF7, 0xA1-0xFE


    GB18030
    国家标准
    双字节部分完全采用GBK的内码系统,然后做了四字节扩展,四个字节的编码空间依次

    是:0x81到0xFE,0x30到0x39,0x81到0xFE,0x30到0x39。总共1,587,600个码位
    GB 18030-2000版本收录了全部27,484个CJK统一汉字
    在编码体系上,GB18030统一了内码和交换码的概念
    取代GBK


    GB13000
    与Unicode相同


    ISO10646和Unicode
    使各种语言的字符在编码上有与ASCII码相同地位,可以同时处理各国语言
    ISO10646是国际标准,Unicode是行业标准
    两者完全兼容
    通用多八位编码字符集(UCS):四个八位位组的四维编码空间,分别表示组/面/行/位

    即UCS-4形式
    UCS-2就是00组中的00平面,即ISO 10646.1的基本多文种平面(BMP)。
    为了与ASCII码兼容,推荐格式UTF-8:采用1-6个八位位组表示UCS中的一个字符

    Unicode由the Unicode Consortium制定,兼容ISO10646
    Unicode原始为16位编码,现在扩充为0--10FFFF

  • 相关阅读:
    Spring AOP应用场景你还不知道?这篇一定要看!
    解决 Failed to start LSB: Bring up/down networking 问题
    查出undefined symbol项命令
    将当前目录加入库环境变量
    Fortran代码生成so库
    Java调用Fortran生成so库报“libifport.so.5: 无法打开共享对象文件”错误解决方法
    HBase过滤器(转载)
    HBase设计规范(转载)
    spark(2.1.0) 操作hbase(1.0.2)
    zookeeper搭建
  • 原文地址:https://www.cnblogs.com/zhyryxz/p/1708478.html
Copyright © 2011-2022 走看看