zoukankan      html  css  js  c++  java
  • 中文和英文在计算机中的存储表示

    在计算机中,用ASCII码表示英文字母、数字以及其他功能性符号时,本身7bits足矣表示,但考虑到计算机设计,将首位设置为0,剩下7位表示。大写字母65-90,小写字母97-122,数字48-57。

    中文的存储表示与英文不同,以GB2312-80标准为例,汉字+符号总共7445个。

    这些汉字被切分为94个区,每个区有94个存储位置,一个汉字的存储表示就由区和位置共同决定。这就称为汉字区位码。

    在区位码原始设计中,存在一个缺陷:如果汉字区位码位于0-31,,可能与ASCII码相冲突。结局方法就是区位码全部+32(16进制下是+02H),从32开始排列。当区位码全部+32后就成为了GB2312标准。如果还想要完全和ASCII码分离,可以再全部增加80H,此时就称为计算机的内码,可以存储在计算机中。

    (原始区位码+20H-->GB2312   +80H----->内码)

    简单的说,汉字码避免和ASCII码冲突的方法是将首位变为1。

  • 相关阅读:
    Object-Oriented Programming Summary Ⅱ
    Object-Oriented Programming Summary Ⅰ
    自己查与写的批量比较bash
    C#可为空引用类型 -0007
    C#类型系统 -0006
    C#类型 -0005
    C# Main方法返回值 -0004
    C# Main方法参数 -0003
    C# Main方法 -0002
    C# Hello World -0001
  • 原文地址:https://www.cnblogs.com/namezhyp/p/14782226.html
Copyright © 2011-2022 走看看