zoukankan      html  css  js  c++  java
  • c++字符串

    1. 字符基础: ASCII, MBCS/DBCS, Unicode
       
       有3种编码模式,并对应3种字符类型。
       (1)单字节字符集(single-byte character set (SBCS)).
          -在这种编码模式下,所有的字符都只用一个字节(Byte)标示。
          -ASCII是SBCS,用一个字节标示为''的来标识SBCS字符串的结束
          -单字节字符包含拉丁文字母表,accented characters及ASCII标准和DOS操作系统定义的图形字符。
           例如"Hi!"是如下存放的.  (1Byte存放数值范围: 00 ~ FF (16进制)) 
          ┌─────────────────────────────┐
              Size                                  1Byte       1Byte      1Byte     1Byte               
              Memory Content(Hex)      48            69             21          00                         
              Charactor                            H              i                 !                                    
          └─────────────────────────────┘
          
       (2)多字节字符集(multi-bye character set (MBCS)). 
          -在Windows中MBCS包含两种字符类型,单字节字符和双字节字符.由于windows使用的多字节字符绝大部分是两个字节长,所以MBCS常被DBCS代替.
          -在DBCS编码模式中,一些特定的值被保留用来表明他们是双字节字符的一部分。
           例如,在Shift-JIS编码中(一个常用的日文编码模式),0x81-0x9f之间和 0xe0-oxfc之间的值表示"这是一个双字节字符,下一个子节是这个字符的一部分。"这样的值被称作"leading bytes",他们都大于0x7f。跟随在一个leading byte子节后面的字节被称作"trail byte"。在DBCS中,trail byte可以是任意非0值。像SBCS一样,DBCS字符串的结束标志也是一个单字节表示的0。
          -双字节字符被用来表示东亚及中东的语言。
          ┌────────────────────────────┐
             Size                                   2Byte        2Byte       2Byte        1Byte         
             Memory Content(Hex)     C4 E3       BA C3      A3 A1       00                       
             Charactor                               你              好              !                             
          └────────────────────────────┘
       
        (3)Unicode。
          -Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符,因为它比单子节字符宽(使用了更多的存储空间)。
          -注意,Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。Unicode字符串使用两个字节表示的0作为它的结束标志。
          -Unicode被用在COM及Windows NT操作系统内部。
          ┌───────────────────────────────┐
              Size                                 2Byte       2Byte      2Byte     2Byte     2Byte  
              Memory Content(Hex)   FF FE       48 00      69 00     21 00     00 00     
             Charactor                                             H                i                !           
          └───────────────────────────────┘
           FF FE 标示 Unicode 采用的是小头方式. (little endian, 第二个(低位)字节在前)
           如果是FE FF 则表示为大头方式. ( big endian unicode ) H 的存储为 00 48; 
     
           当使用char时,处理的是单字节字符。双字节字符也用char类型来进行操作(这是我们将会看到的关于双子节字符的很多奇怪的地方之一)。Unicode字符用wchar_t来表示。Unicode字符和字符串常量用前缀L来表示。例如:

    1. wchar_t wch = L'1'; // 2 bytes, 0x0031  
    2. wchar_t *wsz = L"Hello"; // 12 bytes, 6 wide characters  


    2. C语言中, 没有字符串的数据类型,使用一个以NULL('')字符结尾的字符数组来保存字符串。

    声明: 

    1. char a[100];    
    2.  //或 char *p=(char *)malloc(100*sizeof(char));   

    操作:

    1. //字符串初始化:  
    2. char a[100]="Hello World!";   
    3. char *p="Hello World!";  
    4.   
    5. //赋值: (在定义时可以用"="进行初始化,但是以后不能用"="对C字符串进行赋值.)  
    6. strcpy(a,"Ni Hao!");  
    7.   
    8. //获取字符串长度.(不包括 ‘’)  
    9. strlen(a);  
    10. printf("%s",a);  


    3. 标准 C++ 的字符串数据类型是 string 类. (需要包含头文件<string> 或 <string.h>)

    申明: 

    1. string myStr;  


     

    操作:

    1. //初始化:  
    2. string myStr="Hello World!";  
    3.   
    4. //赋值:  
    5. myStr="Ni Hao";  
    6.   
    7. //转化: char* -> string   
    8. char a[]="Hello World!";  
    9. string b;  
    10. b=a;   
    11.   
    12. //转化: string -> char*  
    13. string b="Ni Hao";  
    14. char a[]="Hello World!";  
    15. strcpy(a,b.c_str()); //string 对象不能自动转化为c字符串。需要利用成员函数c_str();  
    16.   
    17. //转化: 字符串->数字  
    18. int atoi(const char *nptr);    
    19. double atof(const char *nptr);   
    20. long atol(const char *nptr);   



    字符串函数:
    串长度: int strlen(char *str)
    串拷贝: char *strcpy(char *targetStr,char *orignalStr);    
    串连接: char *strcat(char *str1,char *str2)
    串比较: int strcmp(char *str1,char *str2) //比较的是字符的ASCII码, str1>str2 返回1, 相等为0
    串定位: char *strchr(char *str,char ch)  //找到返回字符在字符串中的位置,否则返回-1;

    4. CString 类 是Visual C++中最常用的字符串类,继承自CSimpleStringT类,主要应用在MFC和ATL编程中

    声明: 

    1. CString str;   


    在操作字符串 CString类之前,先了解Windows字符的类型.
        ┌──────────────────────────────┐
           类型             MBCS 中含义               Unicode 中含义                                                                          
           TCHAR            char                          wchar_t                            
           WCHAR         wchar_t                     wchar_t                          
           LPSTR             char*                           char*       
           LPCSTR       const char*           const char* 
           LPWSTR        wchar_t*                   wchar_t*     
           LPCWSTR    const wchar_t*       const wchar_t*
           LPTSTR          TCHAR*                   TCHAR*           
           LPCTSTR      const TCHAR*        const TCHAR*  
           char         标准c的字符类型(1Byte)                                                                                            
           wchar_t   保存UNICODE字符集的类型(2Byte)         
        └──────────────────────────────┘

    TCHAR的定义如下:

    1. #ifdef UNICODE  
    2. typedef wchar_t TCHAR;  
    3. #else  
    4. typedef char TCHAR;  
    5. #endif  


     


    再了解一个宏_T(),使用宏_T(),使代码有了unicode的意识。

    1. #ifdef UNICODE  
    2. #define _T(x) L##x  
    3. #else  
    4. #define _T(x) x  
    5. #endif  


     


    ##是一个预处理操作符,它可以把两个参数连在一起.

    1. TCHAR str[] = _T("I love c++.");  


     

    操作:

      1. //初始化.  
      2. //法1)直接初始化:  
      3. CString str="Hello World!";  
      4.   
      5. //法2)通过构造函数初始化化:  
      6. CString str("aaaaaaaaaa");  
      7. CString str('a',10);  //长度为10的“aaaaaaaaaa"字符串.  
      8.   
      9. //法3)通过加载字符串资源:  
      10. CString str;  
      11. str.LoadString(IDS_STR);  
      12.   
      13. //法4)使用CString类的成员函数Format进行初始化:  
      14. CString str;   
      15. int total=100;   
      16. str.Format(_T("The total is %d"), total);  
      17.   
      18. //转化:  char* -> CString  
      19. char *p1="This is a string in 8-bit only.";  
      20. TCHAR *p2=_T("This is a string with unicode-aware.");  
      21. LPTSTR p=_T("This is a string with unicode-aware.");   //等价于上句.  
      22. CString s1=p1;  
      23. CString s2(p2);  
      24. CString s3(p3);  
      25.   
      26. //转化:  CString -> char*  
      27. //法1)使用LPCTSTR 操作符.  
      28. CString s("Hello World!");  
      29. LPCTSTR p=s;  //LPCTSTR 操作符(或者更明确地说就是const TCHAR * 操作符)在 CString 类中被重载了,该操作符的定义是返回缓冲区的地址(指向 CString 的 字符串指针).  
      30.   
      31. //法2)使用 CString 对象的 GetBuffer 方法  
      32. CString s(_T("Hello World!");  
      33. LPTSTR p=s.GetBuffer();  
      34. //s.ReleaseBuffer();  
      35. //delete p;  
      36.   
      37. //法3)使用控件  
      38. CString str;  
      39. CListBox *pLB = (CListBox*)GetDlgItem(YOUR_LISTBOX_ID); // 获取你的ListBox对象指针,  
      40. //YOUR_LISTBOX_ID为其资源标识  
      41. pLB->GetText(pLB->GetCurSel(), str); // 获取当前选项字符串并存储于str中
  • 相关阅读:
    mysql在CentOS6.3上安装
    hdfs高可用性(HDFS High Availability)
    如何做个好员工
    lock(3)——更新锁(U)、排它锁(X)、死锁及如何避免死锁
    锁(1)—— 锁粒度和层次结构
    lock(2)——创建及更新表过程中SQL SERVER锁资源分配情况
    HBase体系结构
    HDFS的shell操作
    Windows 使用 net use 命令
    Windows 使用 net 命令简介
  • 原文地址:https://www.cnblogs.com/lx-hhxxttxs/p/4661750.html
Copyright © 2011-2022 走看看