zoukankan      html  css  js  c++  java
  • Multi-Byte Character Set & Unicode Character Set


    本系列文章由 @YhL_Leo 出品,转载请注明出处。
    文章链接: http://blog.csdn.net/yhl_leo/article/details/49592361


    编程时遇到BUG:error C2440: cannot convert from 'const char [7]' to 'LPCWSTR',查找后发现错误原因之一竟然是字符串的字符集编码模式造成。

    所有的string 类都是以C-style字符串为基础的。C-style字符串是字符数组。所以我们先介绍字符类型。这里有3种编码模式对应3种字符类型。

    • 单子节字符集(single-byte character set, SBCS)。在这种编码模式下,所有的字符都只用一个字节表示。ASCII是SBCS。一个字节表示的0用来标志SBCS字符串的结束。

    • 多字节字符集(multi-byte character set, MBCS)。一个MBCS编码包含一些一个字节长的字符,和一些大于一个字节长的字符。用在Windows里的MBCS包含两种字符类型,单字节字符(single-byte characters)和双字节字符(double-byte characters)。由于Windows里使用的多字节字符绝大部分是两个字节长,所以MBCS常被用DBCS(double-byte character set, DBCS)代替。像SBCS一样,DBCS字符串的结束标志也是一个单字节表示的0。

    • 统一的双字符集(Unicode Character Set)。Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符(Wide Character),因为它比单子节字符宽(使用了更多的存储空间)。注意,Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。Unicode字符串使用两个字节表示的0作为它的结束标志。

    单字节字符包含拉丁文字母表,accented characters及ASCII标准和DOS操作系统定义的图形字符。双字节字符被用来表示东亚及中东的语言。Unicode被用在COM及Windows NT操作系统内部。

    你一定已经很熟悉单字节字符。当你使用char时,你处理的是单字节字符。双字节字符也用char类型来进行操作(这是我们将会看到的关于双子节字符的很多奇怪的地方之一)。Unicode字符用wchar_t来表示。Unicode字符和字符串常量用前缀L来表示。

    常用的将字符串编码转为统一双字节编码的方法,是使用宏定义_T()

    // #include <tchar.h>
    // #include <windows.h>
    
    #define __T(x)      L ## x
    #define _T(x)       __T(x)
    
    _T("ABC"); // "ABC" transforms into wide characters, equals to L"ABC"

    其中宏定义的含义,可以阅读“#”的作用和用法一文。

    在Microsoft Visual Studio中,project -> properties -> Configuration Properties -> General -> Character Set中,包含三种模式:

    • Not Set
    • Use Unicode Character Set
    • Use Multi-Byte Character Set

    回到BUG本身,在使用赋值语句将字符串的值赋予LPCWSTR类型时,如果使用_T(.)转换编译失败,那么除去头文件包含的问题,那么很有可能就是Character Set模式设置的问题。

  • 相关阅读:
    google浏览器切换成中文
    Python 进阶篇
    Linux 命令
    Linux
    Linux
    Linux
    Linux--shell脚本之文本处理工具
    Linux--shell脚本之正则表达式
    Linux
    Linux
  • 原文地址:https://www.cnblogs.com/hehehaha/p/6332222.html
Copyright © 2011-2022 走看看