zoukankan      html  css  js  c++  java
  • C程序实现汉字内码与GB码

           因项目需要,在网上找到相关资料。很有用。

          参考文献:

      汉字的编码和表示

      1)汉字交换码(国标码) 汉字交换码(国标码)主要用于汉字信息交换。

      国标码:以国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。 GB2312 80中共有7445个字符符号: 汉字符号6763个 一级汉字3755个(按汉语拼音字母顺序排列) 二级汉字3008个(按部首笔划顺序排列) 非汉字符号682个 GB2312 80规定,所有的国标码汉字及符号组成一个94 94的方阵。在此方阵中,每一行称为一个"区",每一列称为一个"位"。这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号 由01到94)的汉字字符集。 一个汉字所在的区号和位号的组合就构成了该汉字的"区位码"。其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定某一汉字或字符;反之,任何一 个汉字或符号都对应一个唯一的区位码,没有重码。

      区位码分布情况如下:

      区号内容1区 键盘上没有的各种符号 2区 各种序号 3区 键盘上的各种符号(按中文方式给出) 4 -5区 日文字母 6区 希腊字母 7区 俄文字母 8区 标识拼音声调的母音及拼音字母名称 9区 制表符号 10- 15区 未用 16-55区 一级汉字(按拼音字母顺序排列) 56- 87区 二级汉字(按部首笔划顺序排列) 88- 94区 自定义汉字

      由上可以看出,所有汉字与符号的94个区,可以分为四个组:

      ①1 -15区:为图形符号区。其中1 9区为标准符号区;10 15区为自定义符号区。

      ②16 -55区:为一级汉字区,包含3755个汉字。这些区中的汉字按汉语拼音顺序排序,同音字按笔画顺序列出。

      ③56 -87区:为二级汉字区,包含3008个汉字。这些区中的汉字是按部首笔划顺序排序的。

      ④88 -94区:为自定义汉字区。

      国标码规定,每个汉字(包括非汉字的一些符号)由2字节代码表示。每个字节的最高位为0,只使用低7位,而低7位的编码中又有34个适用于控制 用的,这样每个字节只有27 - 34 = 94个编码用于汉字。2个字节就有94 94=8836个汉字编码。在表示一个汉字的2个字节中,高字节对应编码表中的行号,称为区号;低字节对应编码表中的列号,称为位号。

      汉字国标码的范围用二进制表示是: 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位ASCII码是128个字符组成的字符集。其中编码值0 31(00000000 00011111)不对应任何印刷字符,通常称为控制符,用于计算机通信中的通信控制或对计算机设备的功能控制。编码值32(00100000)是空格字 符SP。编码值127(1111111)是删除字符DEL。

      汉字国标码的起始二进制位置选择00100001即(33)10是为了跳过ASCII码的32个控制字符和空格字符。所以,汉字国标码的高位和 低位分别比对应的区位码大(32)10或(00100000)2或(20)H,即: 国标码高位 = 区码 + 20H (H表示十六进制) 国标码低位 = 位码 + 20H

      2) 汉字机内码(内码)(汉字存储码)

      汉字机内码(内码)(汉字存储码)的作用是统一了各种不同的汉字输入码在计算机内部的表示。 为了将汉字的各种输入码在计算机内部统一起来,就有了专用于计算机内部存储汉字使用的汉字机内码,用以将输入时使用的多种汉字输入码统一转换成汉字机内码 进行存储,以方便机内的汉字处理 汉字机内码是在计算机内部存储、处理的代码。计算机既要处理汉字,又要处理英文。因此计算机必须能区别汉字字符和英文字符。英文字符的的机内码是最高为为 0的8位ASCII码。为了不与7位ASCII码发生冲突,把国标码每个字节的最高位由0改为1,其余位不变的编码作为汉字字符的机内码。

      汉字机内码的范围用二进制表示是: 10100001 10100001 11111110 11111110 机内码的高位和低位比对应的国标码的高位和低位大(128)10或(10000000)2或(80)H 即: 机内码高位 = 国标码高位 + 80H 机内码低位 = 国标码低位 + 80H 又因为: 国标码高位 = 区码 + 20H 国标码低位 = 位码 + 20H 所以: 机内码高位 = 区码 + A0H 机内码低位 = 位码 + A0H 也就是说,机内码高位和机内码低位分别比对应的区码和位码大(160)10或(10100000)2或 (A0)H 例如:汉字"啊"的区位码为"1601",其中区码为(16)10或(10)H,位码为(01)10或(01)H。 则: 机内码高位 = 10H + A0H = B0H 机内码低位 = 01H + A0H = A1H 所以: 机内码= B0A1H

        3) 汉字输入码(外码)

      汉字输入码(外码)是为了通过键盘字符把汉字输入计算机而设计的一种编码。 英文输入时,相输入什么字符便按什么键,输入码和机内码一致。汉字输入时,可能要按几个键才能输入一个汉字。 汉字输入方案有成百上千个,但是这千差万别的外码输入进计算机后都会转换成统一的内码。 汉字输入方案大致可分为以下4种类型:

      (1) 音码:如全拼、双拼、微软拼音等

      (2) 形码:如五笔字型、郑码、表形码等

      (3) 音形码:如智能ABC、自然码等

      (4) 数字码:如区位码、电报码等

      4) 汉字字形码(输出码)

      汉字字形码(输出码)用于汉字的显示和打印,是汉字字形的数字化信息。 汉字的内码是用数字代码来表示汉字,但是为了在输出时让人们看到汉字,就必须输出汉字的字形。在汉字系统中,一般采用点阵来表示字形。 16 *16汉字点阵示意 16 * 16点阵字形的字要使用32个字节(16 * 16/8= 32)存储,24 * 24点阵字形的字要使用72个字节(24 * 24/8=72)存储。

      一般来说,表现汉字时使用的点阵越大,则汉字字形的质量也越好,当然每个汉字点阵所需的存储量也越大。

      5) 汉字地址码

      汉字地址码是指汉字库(这里主要指整字形的点阵式字模库)中存储汉字字形信息的逻辑地址。在汉字库中,字形信息都是按一定顺序(大多数按标准汉 字交换码中汉字的排列顺序)连续存放在存储介质上的,所以汉字地址码也大多是连续有序的,而且与汉字内码间有着简单的对应关系,以简化汉字内码到汉字地址 码的转换。

          代码实现:
    代码
     1 using namespace std;
     2 unsigned short* ptr;
     3 char* pszHZ = "";
     4 byte bt[] = {0xc4,0xe3,0xBA,0xC3};//“你好”的机内码
     5 int _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
     6 {
     7        int nRetCode = 0;
     8 <!--[if !supportEmptyParas]--> <!--[endif]-->
     9        // initialize MFC and print and error on failure
    10        if (!AfxWinInit(::GetModuleHandle(NULL), NULL, ::GetCommandLine(), 0))
    11        {
    12               // TOD change error code to suit your needs
    13               cerr << _T("Fatal Error: MFC initialization failed"<< endl;
    14               nRetCode = 1;
    15        }
    16        else
    17        {
    18               for (int i = 16;i <= 55; i++)
    19               {
    20                      byte Temp[3];
    21                      Temp[2= 0;
    22                      Temp[0= i + 0xA0;
    23                      for (int j = 1;j < 94;j++)
    24                      {
    25                             
    26                             Temp[1= j + 0xA0;
    27                             cout << (LPCTSTR) Temp;
    28                             
    29                      }
    30                      cout << endl;
    31               }
    32 <!--[if !supportEmptyParas]--> <!--[endif]-->
    33        }
    34 <!--[if !supportEmptyParas]--> <!--[endif]-->
    35        system("pause");
    36        return nRetCode;
    37 }
    38 <!--[if !supportEmptyParas]--> <!--[endif]-->
    39  
    40 <!--[if !supportEmptyParas]--> <!--[endif]-->


          自己可以用函数封装,主要要明白几个区位码。

    附加码表:【因篇幅过长,只贴部分,留个地址】

    地址:http://219.136.187.225/SchoolWeb/hzdwzx/xxzy/xxzy-kj/xxzy-xx/xxzy-xx1/xxzy-xx1-1/HAIZI/GBK2.htm

           全国信息技术标准化技术委员会
            汉字内码扩展规范(GBK)
        Chinese Internal Code Specification
                1.0 版
             (按分类顺序排列)
    ● GBK/1: GB2312非汉字符号

    A1 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A    、 。 · ˉ ˇ ¨ 〃 々 — ~ ‖ … ‘ ’
    B “ ” 〔 〕 〈 〉 《 》 「 」 『 』 〖 〗 【 】
    C ± × ÷ ∶ ∧ ∨ ∑ ∏ ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠
    D ⌒ ⊙ ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ ≤ ≥ ∞ ∵
    E ∴ ♂ ♀ ° ′ ″ ℃ $ ¤ ¢ £ ‰ § № ☆ ★
    F ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ → ← ↑ ↓ 〓

    A2 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A  ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ     
    B  ⒈ ⒉ ⒊ ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ ⒕ ⒖
    C ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾
    D ⑿ ⒀ ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ ④ ⑤ ⑥ ⑦
    E ⑧ ⑨ ⑩ €  ㈠ ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ 
    F  Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ  

    A3 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A   ! " # ¥ % & ' ( ) * + , - . /
    B 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
    C @ A B C D E F G H I J K L M N O
    D P Q R S T U V W X Y Z [ \ ] ^ _
    E ` a b c d e f g h i j k l m n o
    F p q r s t u v w x y z { | }  ̄

    A4 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A  ぁ あ ぃ い ぅ う ぇ え ぉ お か が き ぎ く
    B ぐ け げ こ ご さ ざ し じ す ず せ ぜ そ ぞ た
    C だ ち ぢ っ つ づ て で と ど な に ぬ ね の は
    D ば ぱ ひ び ぴ ふ ぶ ぷ へ べ ぺ ほ ぼ ぽ ま み
    E む め も ゃ や ゅ ゆ ょ よ ら り る れ ろ ゎ わ
    F ゐ ゑ を ん           

    A5 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A  ァ ア ィ イ ゥ ウ ェ エ ォ オ カ ガ キ ギ ク
    B グ ケ ゲ コ ゴ サ ザ シ ジ ス ズ セ ゼ ソ ゾ タ
    C ダ チ ヂ ッ ツ ヅ テ デ ト ド ナ ニ ヌ ネ ノ ハ
    D バ パ ヒ ビ ピ フ ブ プ ヘ ベ ペ ホ ボ ポ マ ミ
    E ム メ モ ャ ヤ ュ ユ ョ ヨ ラ リ ル レ ロ ヮ ワ
    F ヰ ヱ ヲ ン ヴ ヵ ヶ        

    A6 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A  Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
    B Π Ρ Σ Τ Υ Φ Χ Ψ Ω       
    C  α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
    D π ρ σ τ υ φ χ ψ ω       
    E ︵ ︶ ︹ ︺ ︿ ﹀ ︽ ︾ ﹁ ﹂ ﹃ ﹄   ︻ ︼
    F ︷ ︸ ︱  ︳ ︴         

    A7 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A  А Б В Г Д Е Ё Ж З И Й К Л М Н
    B О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э
    C Ю Я              
    D  а б в г д е ё ж з и й к л м н
    E о п р с т у ф х ц ч ш щ ъ ы ь э
    F ю я             

    A8 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A  ā á ǎ à ē é ě è ī í ǐ ì ō ó ǒ
    B ò ū ú ǔ ù ǖ ǘ ǚ ǜ ü ê ɑ  ń ň ǹ
    C ɡ     ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ
    D ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ
    E ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ      
    F               

    A9 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A     ─ ━ │ ┃ ┄ ┅ ┆ ┇ ┈ ┉ ┊ ┋
    B ┌ ┍ ┎ ┏ ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ ┚ ┛
    C ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫
    D ┬ ┭ ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ ┸ ┹ ┺ ┻
    E ┼ ┽ ┾ ┿ ╀ ╁ ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋
    F               

    ● GBK/2: GB2312 汉字

    B0 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A   啊 阿 埃 挨 哎 唉 哀 皑 癌 蔼 矮 艾 碍 爱 隘
    B 鞍 氨 安 俺 按 暗 岸 胺 案 肮 昂 盎 凹 敖 熬 翱
    C 袄 傲 奥 懊 澳 芭 捌 扒 叭 吧 笆 八 疤 巴 拔 跋
    D 靶 把 耙 坝 霸 罢 爸 白 柏 百 摆 佰 败 拜 稗 斑
    E 班 搬 扳 般 颁 板 版 扮 拌 伴 瓣 半 办 绊 邦 帮
    F 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤 苞 胞 包 褒 剥

    B1 0 1 2 3 4 5 6 7 8 9 A B C D E F
    A   薄 雹 保 堡 饱 宝 抱 报 暴 豹 鲍 爆 杯 碑 悲
    B 卑 北 辈 背 贝 钡 倍 狈 备 惫 焙 被 奔 苯 本 笨
    C 崩 绷 甭 泵 蹦 迸 逼 鼻 比 鄙 笔 彼 碧 蓖 蔽 毕
    D 毙 毖 币 庇 痹 闭 敝 弊 必 辟 壁 臂 避 陛 鞭 边
    E 编 贬 扁 便 变 卞 辨 辩 辫 遍 标 彪 膘 表 鳖 憋
    F 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰 柄 丙 秉 饼 炳

         

     
  • 相关阅读:
    使用mybatis如果类属性名和数据库中的属性名不一样取值就会为null
    学习mybatis时出现了java.io.IOException: Could not find resource EmployeeMapper.xml
    配置mybatis-config.xml出现过很诡异的现象
    mybatis学习(一)
    报错cannot be cast to javassist.util.proxy.Proxy
    列车调度
    三角形
    土豪聪要请客(stol)
    Jams倒酒(pour)
    Data
  • 原文地址:https://www.cnblogs.com/winnxm/p/1625088.html
Copyright © 2011-2022 走看看