zoukankan      html  css  js  c++  java
  • Windows平台字符的存储和输出分析

    1. 引言

    (写于2011-07-30)
    在Windows NT系列的操作系统中最常用的两种字符集是ANSI和Unicode。ANSI是一种泛称,每一个国家或地区的ANSI编码都不一样,比如在Windows XP简体中文版中,ANSI的编码为GBK,而在Windows XP日文版中ANSI的编码是JIS。Unicode的全称是Universal Multiple-Octet Coded Character Set,中文含义是“通用多八位编码字符集”。Unicode的目标是为世界是所有的字符提供一套唯一的、统一的字符编码,所以不管理在作保地方任何操作系统,一个确定字符的编码都是唯一的。由于Unicode采用大于等于2个字节来储存字符编码,所以有可能在不同的操作系统中储存的字节顺序不一样,可分为大端方式和小端方式。

    存储方式

    以“中文”两个汉字举例说明,在Windows XP简体中文版中,“中文”两个字的ANSI/GBK和Unicode分别为:

    字符

    ANSI/GBK

    0XD6D0

    0XCEC4

    Unicode

    0X4E2D

    0X6587

    2. 内存中的储存方式

    在VC中,定义字符有两种方式:char类型和wchar_t类型。char类型采用ANSI/GBK编码,而wchar_t采用Unicode编码,wchar_t也是常说的宽字符型。

    定义如下两个字符串

    char* str = "中文";
    wchar_t* wcstr = L"中文";

    通过调试我们可以看到这两个字符串在内存中的储存方式。编译后,指针str所指向的地址为0x004188CC,“中文”两个字在内存中的表示方式为:d6 d0 ce c4,刚好是“中文”两个字的GBK码,从而可知,如一个字符串在VC中被定义为char*类型,那么字符将被编为ANSI/GBK码,如图 1所示。

    clip_image002

    图 1 “中文”在内存中的ANSI编码

    wchar_t类型指针wcstr所指向的地址为0x004188C4,如图 2所示。从图可知,在VC中,wchar_t类型的字符串将被编译为Unicode码,并按UTF-16小端方式储存。

    clip_image004

    图 2 “中文”在内存中的Unicode编码

    Unicode只规定了字符的编码,没有规定如何储存这些编码。储存Unicode码常用三种方式:

    1、UTF-16小端方式:用两个字节储存Unicode码,低字节在前,高字节在后;

    2、UTF-16大端方式:用两个字节储存Unicode码,高字节在前,低字节在后;

    3、UTF-8:用1~4个字节按一定规则存放Unicode码,汉字需要用3个字节。

    图 2中的“2d4e8765”正是“中文”两个汉字的Unicode码“4e2d6587”按UTF-16小端方式储存。

    3. 磁盘中的储存方式

    打开Windows记事本,输入“中文”两个字,在另存为对话框中的编码下拉框中分别选择ANSI、Unicode、Unicode big endian和UTF-8储存为四个文本文件,然后用十六进制文本编辑器打开,内容如下表

    表 1

    编码

    十六进制内容

    ANSI

    D6 D0 CE C4

    Unicode

    FF FE 2D 4E 87 65

    Unicode big endian

    FE FF 4E 2D 65 87

    UTF-8

    EF BB BF E4 B8 AD E6 96 87

    从表中可以看出,对于选择ANSI编码,会采用系统默认编码按大端方式直接储存,对于Windows XP简体中文版,系统默认编码是GBK,所以文件中储存的内容就是“中文”两个字的的GBK编码D6 D0 CE C4。

    如果是Unicode编码,按照规定,要在文件的开头加上一个“ZERO WIDTH NO-BREAK SPACE”标识,可直译为“零宽度非换行空格”,目标是标识文件是以哪一种方式来储存Unicode码。“中文”的Unicode码为“4E2D 6587”常用三种方式储存

    表 2

    储存方式

    字符串编码内容

    UTF-16 Little Endian (小端)

    2D4E 8765

    UTF-16 Big Endian (大端)

    4E2D 6587

    UTF-8

    E4B8AD E69687

    注:UTF-8是变长的,储存一个字母要一个字节,一个汉字要三个字节;UTF-16是定长的,不管是储存一个字母还是一个汉字都需要两个字节,所以用UTF-16储存字母时会造成空间浪费。

    这三种储存方式所对应的标识为

    表 3

    储存方式

    对应的标识

    UTF-16 Little Endian (小端)

    FF FE

    UTF-16 Big Endian (大端)

    FE FF

    UTF-8

    EF BB BF

    所以从表 1 可知,

    1、 如果选择“Unicode”,会将字符串编译为Unicode码,按UTF-16小端方式储存;

    2、 如果选择“Unicode big endian”,会将字符串编译为Unicode码,按UTF-16大端方式储存;

    3、 如果选择“UTF-8”,会将字符串编译为Unicode码,按UTF-8方式储存。

    从上面我们也可知道,如果一个文本文件的前两个字节是“FFFE”,那么这个文件一定是按小端方式储存字符的Unicode码,第三个字节是Unicode码的低字节,第四个字节是Unicode码的高字节,根据这两个高低字节就可以得出一个Unicode字符。第五个字节是第二个字符的Unicode码的低字节,第六个字节是第二个字符的Unicode码的高字节。

    UTF-8码是将字符的Unicode码按一定规则存放到1~4个字节中,根据UFT-8码也可以得出字符的Unicode码,请别参考其他文档。

    4. 字符的输出方式

    知道字符在计算机如何编码,如何储存后,那么如何将这些输出呢?

    4.1 Windows控制台的输出方式

    Widows在内部维护了一块控制台输出缓冲区,如要要向控制台输出字符串,只要将字符串所对应的内存区域复制到控制台缓冲区,Windows就会以默认的字符编码将控制台缓冲区的内容输出到控制台窗口。对于Windows XP简体中文版,默认的字符编码是GBK,所以Windows会以GBK码的方式输出控制台缓冲区的内容。要想Windows XP简体中文版的控制台窗口能正确输出控制缓冲区的内容,那么必须保证复制到控制台缓冲区的字符编码是GBK码。

    4.2 C/C++中将字符串输出到控制台

    对于C语言的printf()函数和C++语言中的std::cout对象,其实都是调用系统“kernel32.dll”中的WriteConsole()函数,将字符串所对应的内存区域复制到控制台的缓冲区。

    对于char*类型的字符串,C语言提供的输出函数是printf(),对于wchar_t*类型的字符串,C语言提供的输出函数是wprintf()。

    在VC中,char*类型的字符被编译为ANSI(GBK)码,正好和输出缓冲区的编码类型一致,所以可以直接输出。对于wchar_t*类型字符串,VC在编译程序时,会将字符串编译为Unicode码,如果程序运行时,直接将字符串对应的内存区域复制到输出缓冲区,由于字符串的编码和控制台的默认编码不至,控制台将Unicode码当作GBK码输出到控制台时就会出现乱情况。

    一个可行的办法是先将Unicode码转换成GBK码,然后再复制到控制台的输出缓冲区,这样就不会出现乱码的问题。

    在C语言和C++语言中输出char*类型和wchar_t*类型的字符串

    //C语言输出char*类型的字符串(ANSI/GBK)
    
    void cprintchar(const char* str)
    {
        printf("%s
    ",str);
    }
    
    //C语言输出wchar_t*类型的字符串(Unicode)
    void cprintwchar(const wchar_t* wcstr)
    {
        //告诉程序控制台缓冲区使用哪种编码
        //<locale.h>
        setlocale(LC_ALL,"ZHI");
        wprintf(L"%ls
    ",wcstr);
    }
    
    //C++语言输出char*类型字符串(ANSI/GBK)
    void ccprintchar(const char* str)
    {
        std::cout << str << std::endl;
    }
    
    //C++语言输出wchar_t*类型字符串(Unicode)
    void ccprintwchar(const wchar_t* wcstr)
    {
        //告诉程序控制台缓冲区使用哪种编码
        //需要<locale>
        std::wcout.imbue(std::locale("ZHI"));
        std::wcout << wcstr << std::endl;
    }
  • 相关阅读:
    【长篇高能】ReactiveCocoa 和 MVVM 入门
    圆形头像
    C#开发学习——.net C#中页面之间传值传参的方法以及内置对象
    C#开发学习——内联表达式
    C#开发学习——ADO.NET几个重要对象
    Android开发学习——动画
    Android开发学习—— Fragment
    Android开发学习—— ContentProvider内容提供者
    Android开发学习—— Service 服务
    Android开发学习—— Broadcast广播接收者
  • 原文地址:https://www.cnblogs.com/teafree/p/4240248.html
Copyright © 2011-2022 走看看