zoukankan      html  css  js  c++  java
  • C++:截取字符串中的汉字

    1、
    const char *str = "test测试test";
    while(*str)
    {
    //这里只需要判断第一个字节大于0x80就行了,前提是输入的是合法的GBK字符串
    //原因在于,如果第一个字节大于0x80,那么它必然和后面一个字节一起组成一个汉字
    //所以就没有必要再去判断后面一个字节了
    //再强调一下,前提条件是输入合法的GBK字符串
    if(*str > 0x80)
    {
    // 汉字,计数器++
    str += 2;//是汉字自然就该直接+2了
    }
    else
    {
    str++;
    }
    }
     
     
    2、

    参看下面的字符串转换函数。

    /**
    * 用getBytes(encoding):返回字符串的一个byte数组
    * 当b[0]为 63时,应该是转码错误
    * A、不乱码的汉字字符串:
    * 1、encoding用GB2312时,每byte是负数;
    * 2、encoding用ISO8859_1时,b[i]全是63。 

    * B、乱码的汉字字符串:
    * 1、encoding用ISO8859_1时,每byte也是负数;
    * 2、encoding用GB2312时,b[i]大部分是63。
    * C、英文字符串
    * 1、encoding用ISO8859_1和GB2312时,每byte都大于0;
    * 总结:给定一个字符串,用getBytes("iso8859_1")
    * 1、如果b[i]有63,不用转码; A-2
    * 2、如果b[i]全大于0,那么为英文字符串,不用转码; B-1
    * 3、如果b[i]有小于0的,那么已经乱码,要转码。 C-1
    */
    private static String toGb2312(String str) {
    if (str == null) return null;
    String retStr = str;
    byte b[];
    try {
    b = str.getBytes("ISO8859_1");

    for (int i = 0; i < b.length; i++) {
    byte b1 = b[i];
    if (b1 == 63)
    break; //1
    else if (b1 > 0)
    continue;//2
    else if (b1 < 0) { //不可能为0,0为字符串结束符
    retStr = new String(b, "GB2312");
    break;
    }
    }
    } catch (UnsupportedEncodingException e) {
    // e.printStackTrace();
    }
    return retStr;

    3、

    unsigned char *str = "test测试test";
    int length;
    int i;
     
    length = strlen(str);
    for (i = 0; i < length - 1; i++)
    {
    if ( *str >= 0x81 && *str <= 0xFE
    && *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
    {
    // 汉字
    }
    }
     
    unsignedchar*str="test测试test";//把字符串换成“汉A”试试,结果为2

    有人说:“一个GBK汉字要占两个char空间(二字节),而且第一个字节里的值是小于0的。可以据此判断是否为汉字。”
    1、为什么第一个字节的值小于0呢?
    2、如果仅通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字,这种逻辑是否保险?
    3、因为还看到有人说,GBK编码的汉字有高位和低位两位,第一个是低位吧?需要第一个字节在160-254之间,第二个字节在64-254之间,这样是不是比2中提到的方法要保险?
    4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK,这个是GBK字符集?GBK兼容GB2312
     
    似乎有些字符集中有些汉字占三个字节
     
    “通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字”
     
    //GBK汉字内码范围
    //81-A0 ,40-7E 80-FE
    //AA-AF ,40-7E 80-A0
    //B0-D6 ,40-7E 80-FE
    //D7 ,40-7E 80-F9
    //D8-F7 ,40-7E 80-FE
    //F8-FE ,40-7E 80-A0
    例如://81-A0 ,40-7E 80-FE
    表示字符的ascii码要在129-160,64-126,128-254这三个区间段内
     
     
    4、

    在工作中,遇到要截取字符串在屏幕上显示出来,因为字符串带有汉字,如果截取不好,会引起乱码,写了下面的函数

    在uclinux下与VC6.0中测试可以通过。

    view plaincopy to clipboardprint?

       1. /*截取字符串

       2. name :要截取的字符串

       3. store:要存储的字符串

       4. len:要截取的长度

       5. */ 

       6. void split_name( char * name , char * store , int len ) 

       7. { 

       8.     int i= 0 ; 

       9.     char strTemp[L(NAMEL)]={0}; 

      10.      

      11.     if ( strlen(name)
      12.     { 

      13.         strcpy( store, name );  *name=0; 

      14.         return ; 

      15.     } 

      16.  

      17.     //从第1个字节开始判断 

      18.     while( i < len ) 

      19.     { 

      20.         if ( name[i]>>7&1 && name[i+1]>>7&1 )       //if ( name[i] < 0 && name[i+1] < 0 ) 

      21.             i = i + 2 ; 

      22.         else 

      23.             i = i + 1 ; 

      24.     } 

      25.     i = i > len ? i-3 :i-1; 

      26.     strncpy( store , name , i+1 ); //截取前i+1位 

      27.     *(store+i+1)=0; 

      28.     strcpy( strTemp , name + i + 1 ); 

      29.     strcpy( name , strTemp ); 

      30. } 

  • 相关阅读:
    SparkSql初级编程实践
    云时代架构之苏宁安全架构演进及实践
    云时代架构之知乎网站架构变迁史
    质量属性的六个常见属性场景之《淘宝网》
    云时代架构之游戏服务器的架构演进
    《架构漫谈阅读心得》
    转换后缀表达式
    约瑟夫环(改进3.0)
    栈结构之后缀表达式
    约瑟夫环(改进2.0)
  • 原文地址:https://www.cnblogs.com/shenchao/p/3055129.html
Copyright © 2011-2022 走看看