zoukankan      html  css  js  c++  java
  • char与wchar_t数据类型

    转自:http://blog.itpub.net/27634692/viewspace-752200/


    有的人爱用strcpy等标准ANSI函数,有的人爱用_tXXXX函数,有必要把来龙去脉搞清楚。 为了搞清这些函数,就必须理请几种字符类型的写法。

    先说一下wchar_t
    wchar_t是Unicode字符的数据类型,它实际定义在里:
    typedef unsigned short wchar_t;
    不能使用类似strcpy这样的ANSI C字符串函数来处理wchar_t字符串,必须使用wcs前缀的函数,例如wcscpy。为了让编译器识别Unicode字符串,必须以在前面加一个“L”,例如:
    wchar_t *szTest=L"This is a Unicode string."

    下面再看看TCHAR:
    如果你希望同时为ANSI和Unicode编译的源代码,那就要include TChar.h。TCHAR是定义在其中的一个宏,它视你是否定义了_UNICODE宏而定义成char或者wchar_t。如果你使用了TCHAR,那么就不应该使用ANSI的strXXX函数或者Unicode的wcsXXX函数了,而必须使用TChar.h中定义的_tcsXXX函数。另外,为了解决刚才提到带“L”的问题,TChar.h中定义了一个宏:“_TEXT”。

    以strcpy函数为例子,总结一下:
    如果你想使用ANSI字符串,那么请使用这一套写法:
    char szString[100];
    strcpy(szString,"test");
    如果你想使用Unicode字符串,那么请使用这一套:
    wchar_t szString[100];
    wcscpy(szString,L"test");
    如果你想通过定义_UNICODE宏,而编译ANSI或者Unicode字符串代码:
    TCHAR szString[100];
    _tcscpy(szString,_TEXT("test"));

    ANSI与Unicode
    Unicode称为宽字符型字串,COM里使用的都是Unicode字符串。
    将ANSI转换到Unicode
    (1)通过L这个宏来实现,例如: CLSIDFromProgID( L"MAPI.Folder",&clsid);
    (2)通过MultiByteToWideChar函数实现转换,例如:
    char *szProgID = "MAPI.Folder";
    WCHAR szWideProgID[128];
    CLSID clsid;
    long lLen = MultiByteToWideChar(CP_ACP,0,szProgID,strlen(szProgID),szWideProgID,sizeof(szWideProgID));
    szWideProgID[lLen] = '
    (3)通过A2W宏来实现,例如:
    USES_CONVERSION;
    CLSIDFromProgID(A2W(szProgID),&clsid);
    将Unicode转换到ANSI
    (1)使用WideCharToMultiByte,例如:
    // 假设已经有了一个Unicode 串 wszSomeString...
    char szANSIString [MAX_PATH];
    WideCharToMultiByte(CP_ACP, WC_COMPOSITECHECK, wszSomeString, -1, szANSIString, sizeof(szANSIString), NULL, NULL );
    (2)使用W2A宏来实现,例如:
    USES_CONVERSION;
    pTemp=W2A(wszSomeString);

    unicode与wchar_t
    unicode和wchar_t有什么必然联系没?答案是没有,没有任何联系。一个是字符编码,一个是字符类型。实际上,unicode不是一种编码标准,而是几种编码的统称。utf-8,utf16(ucs2),utf-32(ucs4)等。在windows系统下,如果没有特别说明,我们习惯上指unicode编码为utf-16,而linux上是utf-32。所以,在windows上面sizeof(wchar_t) 是2,而linux下面是4。
    实际上windows下面wchar_t就是一个 unsigned short,而linux上是 unsigned int。而utf-8就是我们常说的多字节编码,这种编码下面,一个中文不一定只是两个字节,可能是三个的。然后,你的代码中的const char* 字符串是什么编码,和你编译器,和你代码文件编码也是没有半毛关系的,这个是和系统有关系的,也就是locale有关的。但你读写文件时候字符的编码是和文件有关的。而所谓的 ANSI 就是和系统相关的编码。你操作系统采用什么编码,它就是什么编码。


  • 相关阅读:
    lqb 基础练习 数列特征
    lqb 基础练习 查找整数 (遍历)
    lqb 基础练习 杨辉三角形
    lqb 基础练习 特殊的数字
    lqb 基础练习 回文数
    lqb 基础练习 特殊回文数
    lqb 基础练习 十进制转十六进制
    lqb 基础练习 十六进制转十进制
    lqb 基础练习 十六进制转八进制 (字符串进行进制转化)
    Git详细操作
  • 原文地址:https://www.cnblogs.com/alan666/p/8311975.html
Copyright © 2011-2022 走看看