zoukankan      html  css  js  c++  java
  • VC++下的Unicode编程

     ASCII是用来表示英文字符的一种编码规范。每个ASCII字符占用1个字节,因此,ASCII编码可以表示的最大字符数是255(00H—FFH)。

        其实,英文字符并没有那么多,一般只用前128个(00H-7FH,即0x0000 0000-0x0111 1111,最高位为0),其中包括了控制字符、数字、大小写字母和其它一些符号。

        而另128个字符(80H—FFH,即0x1000 0000-0x1111 1111,最高位为1)被称为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其它符号。

        中文编码规范“GB2312—80,其实就是利用把一个中文字符用两个扩展ASCII字符来表示,以区分ASCII码部分。

        这个方法有问题,最大的问题就是中文的文字编码和扩展ASCII码有重叠。而很多软件利用扩展ASCII码的英文制表符来画表格,这样的软件用到中文系统中,这些表格就会被误认作中文字符,出现乱码。

        要真正解决这个问题,不能从扩展ASCII的角度入手,而必须有一个全新的编码系统,这个系统要可以为每一种文字的每个字符均分配一个单独的编码,Unicode为此诞生!

        Unicode也是一种字符编码方法,它占用两个字节(0000H—FFFFH),容纳65536个字符,这完全可以容纳全世界所有语言文字的编码。

        在Unicode里,所有的字符被一视同仁,汉字不再使用“两个扩展ASCII”,而是所有的文字都按一个字符来处理,它们都有一个唯一的Unicode码。

        使用Unicode编码可以使您的工程同时支持多种语言,使您的工程国际化。

        Windows NT是使用Unicode进行开发的,整个系统都是基于Unicode的。如果调用一个API函数并给它传递一个ANSI(ASCII字符集以及由此派生并兼容的字符集,如:GB2312,通常称为ANSI字符集)字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。进行这些字符串的转换需要占用系统的时间和内存。如果用Unicode来开发应用程序,就能够使您的应用程序更加有效地运行。

        下面例举几个字符的编码以简单演示ANSI和Unicode的区别:(注意:中文字符的编号有了变化)
    字符  A  N  和
    ANSI码  41H  4eH  cdbaH
    Unicode码  0041H  004eH  548cH

        对宽字符的支持其实是ANSI C标准的一部分,用以支持多字节表示一个字符。宽字符和Unicode并不完全等同,Unicode只是宽字符的一种编码方式

    1、宽字符的定义

        在ANSI中,一个字符(char)的长度为一个字节(Byte)。使用Unicode时,一个字符占据一个字(2 Bytes),C++在wchar.h头文件中定义了最基本的宽字符类型wchar_t:

        typedef unsigned short wchar_t; // 所谓的宽字符就是无符号短整数

    2、常量宽字符串

      对C++程序员而言,构造字符串常量是一项经常性的工作。那么,如何构造宽字符字符串常量呢?很简单,只要在字符串常量前加上一个大写的L就可以了,比如:wchar_t *str1 = L" Hello";

        这个L非常重要,只有带上它,编译器才知道你要将字符串存成一个字符一个字(即一个字符两字节)。还要注意,在L和字符串之间不能有空格。

    3、宽字符串库函数

        为了操作宽字符串,C++专门定义了一套函数,比如求宽字符串长度的函数是:

         size_t __cdel wchlen(const wchar_t*);

        为什么要专门定义这些函数呢?最根本的原因是,ANSI下的字符串都是以’’来标识字符串尾的(Unicode字符串以“”结束),许多字符串函数的正确操作均是以此为基础进行。而我们知道,在宽字符的情况下,一个字符在内存中要占据一个字的空间(即一个字符两字节),这就会使操作ANSI字符的字符串函数无法正确操作。

        以”Hello”字符串为例,在宽字符下,它的五个字符是:0x0048 0x0065 0x006c 0x006c 0x006f

        在内存中,实际的排列是:48 00 65 00 6c 00 6c 00 6f 00

        于是,ANSI字符串函数,如strlen,在碰到第一个48后的00时,就会认为字符串到尾了,用strlen对宽字符串求长度的结果就永远会是1!

        在许多多字节字符集中,0x00 到 0x7F 范围内的每个字符都与 ASCII 字符集中具有相同值的字符相同。

    4、用宏实现对ANSI和Unicode通用的编程

        可见,C++有一整套的数据类型和函数实现Unicode编程,也就是说,您完全可以使用C++实现Unicode编程。
        如果我们想要我们的程序有两个版本:ANSI版本和Unicode版本。当然,编写两套代码分别实现ANSI版本和Unicode版本完全是行得通的。但是,针对ANSI字符和Unicode字符维护两套代码是非常麻烦的事情。为了减轻编程的负担,C++定义了一系列的宏,帮助您实现对ANSI和Unicode的通用编程
      C++宏实现ANSI和Unicode的通用编程的本质是根据”_UNICODE”(注意,有下划线)定义与否,这些宏展开为ANSI或Unicode字符(字符串)。

    #ifdef _UNICODE
        typedef wchar_t TCHAR; // 定义了_UNICODE宏的情况下,TCHAR是两个字节的字符
        #define __T(x)  L##x  

        // ##是ANSI C标准的预处理语法,它叫做“粘贴运算符”,即将前面的L与宏参数合在一起。
        #define _T(x)   __T(x) // _T(x)一个下划线的变成__T(x)两个下划线的
    #else
        #define __T(x) x       // 未定义_UNICODE宏的情况下,TCHAR是一个字节的字符
        typedef char   TCHAR;  // 非宽字符的字符串常量
    #endif
    *.几个预编译指令的用法

      #        字符串化运算符,其主要效果是把参数的名字转换为字符串。

      Example:   // 1. *.h中定义

                 #define STRINGLIZE(ivalue) #ivalue

                 // *.cpp中定义

                 CString strTmp = STRINGLIZE(2);

                 AfxMessageBox(strTmp);

                 // 结果是:弹出消息框中显示2,说明可以变成字符串

                 // 2.

                 #define STRINGLIZE(ivalue) printf(#ivalue " is: %d", ivalue)
                 // 使用
                 STRINGLIZE(2);

                 // 结果是:2 is: 2,将ivalue的值与后面的字符串合并成一个字符串了

                 // 注:以下这情况使用时的结果会有不同

                 int a = 2;

                 STRINGLIZE(a);

                 // 1. 结果是:弹出消息框中显示a

                 // 2. 结果是:a is: 2

                 注意:预处理的意思就是在编译运行前按字面处理,

      ##       粘贴运算符,即它先进行宏替换,再进行连接。

      Example:   #define MACR1 printf("MACR1 is invoked.")

                 #define MACR2 printf("MACR2 is invoked.")
                 #define MAKE_MACR(n) MACR ## n

                 // 使用时

                 MAKE_MACR(2); // -->相当于调用了宏MACR2

                 // 结果是:MACR2 is invoked.

                 // 2.

                 #define STRINGLIZE(ivalue) TRACE("ivalue is: %d", ivalue##ivalue)

                 STRINGLIZE(2);

                 // 2. 结果是:ivalue is: 22

                 // 3.

                 int a = 2;

                 STRINGLIZE(a);

                 // 3. 结果是:error C2065: 'aa' : undeclared identifier

      #@       字符化运算符

      Example:   #define CHARIZEIT(x) #@x

                 // 使用

                 char c = CHARIZEIT(z);

                 // 结果是:c = 'z'

      #include 包含一个源代码文件

      Example: #include /#include "my.h"/#include "t.c"

      #define  定义宏

      Example: #define MAX_NUM 10/#define max(x,y) (x) > (y) ? (x) : (y);

               #define可以替代多行的代码,例如MFC中的宏定义:
                 #define MACRO(arg1, arg2) do { 
                   语句; 

                 }while(条件) 
               关键是要在每一个换行的时候加上一个""。

      #undef   取消已定义的宏

      #if      如果给定条件为真,则编译下面代码

      #ifdef   如果宏已经定义,则编译下面代码

      #ifndef  如果宏没有定义,则编译下面代码

      #elif    如果前面的#if给定条件不为真,当前条件为真,则编译下面代码

      #endif   结束一个#if/#ifdef/#ifndef...#else条件编译块

      #error   停止编译并显示错误信息

      #line    指令可以改变编译器用来指出警告和错误信息的文件号和行号。

      #pragma  指令没有正式的定义。编译器可以自定义其用途。

    C++为字符串函数也定义了一系列宏,只例举几个常用的宏:

     

    未定义_UNICODE(ANSI字符) 定义了_UNICODE(Unicode字符)
    _tcschr  strchr  wcschr
    _tcscmp  strcmp  wcscmp
    _tcslen  strlen  wcslen

    四、使用Win32 API进行Unicode编程

        Win32 API中定义了一些自己的字符数据类型。这些数据类型的定义在winnt.h头文件中。例如:

        typedef char           CHAR;
        typedef unsigned short WCHAR;           // wc, 16-bit UNICODE character
        typedef CONST CHAR     *LPCSTR, *PCSTR;
        Win32 API在winnt.h头文件中定义了一些实现字符和常量字符串的宏进行ANSI/Unicode通用编程。同样,只例举几个最常用的:

        #ifdef UNICODE // 注意此处没有没有下划线

            typedef WCHAR         TCHAR, *PTCHAR;

            typedef LPWSTR        LPTCH, PTCH;

            typedef LPWSTR        PTSTR, LPTSTR;

            typedef LPCWSTR       LPCTSTR;

            #define __TEXT(quote) L##quote        // r_winnt

        #else                        // r_winnt

            typedef char          TCHAR, *PTCHAR;

            typedef LPSTR         LPTCH, PTCH;

            typedef LPSTR         PTSTR, LPTSTR;

            typedef LPCSTR        LPCTSTR;

            #define __TEXT(quote) quote           // r_winnt

        #endif                       // r_winnt

        API的字符串操作函数和C++的操作函数可以实现相同的功能,所以,如果需要的话,建议您尽可能使用C++的字符串函数,没必要去花太多精力再去学习API的这些东西。

        Win32 API实际上有两个版本。一个版本接受MBCS字符串,另一个接受Unicode字符串。

        例如:其实根本没有SetWindowText()这个API函数,相反,有SetWindowTextA()和SetWindowTextW()。后缀A表明这是MBCS函数,后缀W表示这是Unicode版本的函数。这些API函数的头文件在winuser.h中声明,下面例举winuser.h中的SetWindowText()函数的声明部分:

        #ifdef UNICODE
            #define SetWindowText  SetWindowTextW
        #else
            #define SetWindowText  SetWindowTextA
        #endif // !UNICODE
        细心的读者可能已经注意到了UNICODE和_UNICODE的区别,前者没有下划线,专门用于Windows头文件;后者有一个前缀下划线,专门用于C运行时头文件。换句话说,也就是在ANSI C++语言里面根据_UNICODE(有下划线)定义与否,各宏分别展开为Unicode或ANSI字符,在Windows里面根据UNICODE(无下划线)定义与否,各宏分别展开为Unicode或ANSI字符。

        实际使用中我们同时定义_UNICODE和UNICODE,以实现UNICODE版本编程。

        微软提供了一些ANSI和Unicode兼容的通用数据类型,我们最常用的数据类型有_T ,TCHAR,LPTSTR, LPCTSTR。

        LPCTSTR和const TCHAR*是完全等同的。其中L表示long指针,这是为了兼容Windows 3.1等16位操作系统遗留下来的,在Win32 中以及其它的32位操作系统中,long指针和near指针及far修饰符都是为了兼容的作用,没有实际意义。P(pointer)表示这是一个指针C(const)表示是一个常量T(_T宏)表示兼容ANSI和UnicodeSTR(string)表示这个变量是一个字符串。综上可以看出,LPCTSTR表示一个指向常固定地址的可以根据一些宏定义改变语义的字符串。

        比如: TCHAR  *szText = _T("Hello!");

             TCHAR   szText[] = _T("I Love You");

             LPCTSTR lpszText = _T("大家好!");
        使用函数中的参数最好也要有变化,比如:MessageBox(_T("你好"));其实,在这条语句中,即使您不加_T宏,MessageBox函数也会自动把“你好”字符串进行强制转换。还是推荐您使用_T宏,以表示您有Unicode编码意识

        一些字符串操作函数需要获取字符串的字符数(sizeof(szBuffer)/sizeof(TCHAR)),而另一些函数可能需要获取字符串的字节数sizeof(szBuffer)。您应该注意该问题并仔细分析字符串操作函数,以确定能够得到正确的结果。
        1. ANSI操作函数:          str开头,如strcpy(),strcat(),strlen();
        2. Unicode操作函数:       以wcs开头,如wcscpy,wcscpy(),wcslen();
        3. ANSI/Unicode操作函数: 以_tcs开头 _tcscpy(C运行期库);
        4. ANSI/Unicode操作函数: 以lstr开头 lstrcpy(Windows函数);
    考虑ANSI和Unicode的兼容,我们需要使用以_tcs开头或lstr开头的通用字符串操作函数

    很多时候程序中既需要Unicode,又需要使用ASCII,这时需要用到操作系统的2个API:

        WideCharToMultiByte用来将Unicode字符串转化为MBCS的;

        MultiByteToWideChar用来将MBCS字符串转化为Unicode的;

    函数原型:

    // 将宽字符转换成多个窄字符

    int WideCharToMultiByte(UINT    CodePage,        // code page

                            DWORD   dwFlags,         // performance and mapping flags

                            LPCWSTR lpWideCharStr,   // wide-character string

                            int     cchWideChar,     // number of chars in string

                            LPSTR   lpMultiByteStr,  // buffer for new string

                            int     cbMultiByte,     // size of buffer

                            LPCSTR  lpDefaultChar,   // default for unmappable chars

                            LPBOOL  lpUsedDefaultChar); // set when default char used

    // 将多个窄字符转换成宽字符

    int MultiByteToWideChar(UINT   CodePage,       // code page

                            DWORD  dwFlags,        // character-type options

                            LPCSTR lpMultiByteStr, // string to map

                            int    cbMultiByte,    // number of bytes in string

                            LPWSTR lpWideCharStr,  // wide-character buffer

                            int    cchWideChar);   // size of buffer

        这个是我们需要转化的MBCS字符串:char sText[20] = {"多字节字符串!OK!"};

        而我们需要知道转化后的UNICODE字符串需要多少个数组空间?直接定义一个20 * 2UNICODE字符的数组,将会发现其中有浪费内存情况!

        我们只需要将MultiByteToWideChar()的第四个形参设为-1,即可返回所需的短字符数组空间的个数: 

        DWORD dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);

        接下来,我们只需要分配响应的数组空间:

        wchar_t *pwText = NULL;

        pwText = new wchar_t[dwNum];

        if (!pwText)

        {

            delete []pwText;

        }

        再接着,我们就可以着手进行转换了。在这里以转换成ASCII码做为例子:

        MultiByteToWideChar(CP_ACP, // ANSI code page

                            0,      //

                            sText,  // MBCS字符串

                            -1,     // 返回UNICODE字符串包括''的长度

                            pwText, // UNICODE字符串数组

                            dwNum); // UNICODE字符串数组元素个数

        最后,使用完毕当然要记得释放占用的内存:delete []pwText;

        同理,宽字符转为多字节字符的代码如下:

        wchar_t wText[20] = {L"宽字符转换实例!OK!"};

        DWORD dwNum = WideCharToMultiByte(CP_OEMCP, // OEM code page

                                          0,        //

                                          wText,    // UNICODE字符串

                                          -1,       // 返回MBCS字符串包括''的长度

                                          NULL,     //

                                          0,        //

                                          NULL,     //

                                          FALSE);   //

        char *psText = NULL;

        psText = new char[dwNum];

        if (!psText)

        {

            delete []psText;

        }

        WideCharToMultiByte (CP_OEMCP, 0, wText, -1, psText, dwNum, NULL, FALSE);

        delete []psText;

    最后给一个实例代码:

    void CTMUDlg::OnBnClickedButton1()
    {

        DWORD   dwNum = 0;

        wchar_t wText[7]  = L"宽字符串示例";

        char    sText[13] =  "窄字符串示例";

        wchar_t *pwText = NULL;

        char    *psText = NULL;

        // 先显示一下

        MessageBoxW(this->m_hWnd, wText, L"显示常量宽字符串", MB_OK);

        MessageBoxA(sText, "显示常量窄字符串", MB_OK);

        // 转换一下

        dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);

        pwText = new wchar_t[dwNum];

        if (!pwText)

        {

             delete[] pwText;

        }

        MultiByteToWideChar(CP_ACP, // ANSI code page

                            0,      // 

                            sText,  // MBCS字符串

                            -1,     // 返回UNICODE字符串包括''的长度

                            pwText, // UNICODE字符串数组

                            dwNum); // UNICODE字符串数组元素个数

        MessageBoxW(this->m_hWnd, pwText, L"显示窄转宽字符串", MB_OK);

        delete[] pwText;

        dwNum = WideCharToMultiByte(CP_OEMCP, // OEM code page

                                    0,        // 

                                    wText,    // UNICODE字符串

                                    -1,       // 返回MBCS字符串包括''的长度

                                    NULL,     // 

                                    0,        //

                                    NULL,     //

                                    FALSE);   //

        psText = new char[dwNum];

        if (!psText)

        {

            delete[] psText;

        }

        WideCharToMultiByte (CP_OEMCP, 0, wText, -1, psText, dwNum, NULL, FALSE);

        MessageBoxA(psText, "显示宽转窄字符串", MB_OK);

        delete[] psText;
    }

  • 相关阅读:
    爬虫的基础知识(贰)
    Django内置标签
    WPF ToggleButton Style
    编写一个简单的COM组件
    C# 调用DOS 命令
    【转】 C#中检查网络是否连通的二种方法
    c++中的类型转换
    COM笔记-包容与聚合
    windows笔记-在可执行文件或DLL的多个实例之间共享静态数据
    编程之路
  • 原文地址:https://www.cnblogs.com/nanyangzp/p/3929495.html
Copyright © 2011-2022 走看看