zoukankan      html  css  js  c++  java
  • 面试题:字符串截取

    字符串截取

    题目:在java中,字符串“abcd”与字符串“ab你好”的长度是一样。都是四个字符。

    但相应的字节数不同。一个汉字占两个字节。定义一个方法,依照指定的字节数来取子串。

    如:

    对于“ab你好”,假设取三个字节,那么子串就是ab与“你”字的半个。那么半个就要舍弃。

    假设取四个字节就是“ab你”,取五个字节还是“ab你”。

    解题思路:咋一看,以为就是注意汉字字节时的处理问题。事实上还应该考虑在不同的编码格式中,汉字占的字节也会不一样,如:gbk编码格式下汉字一般占两个字节,且

    均小于0,而在utf-8,汉字占两个字节,可是是一负一正。所以要考虑系统当前编码格式。

    代码:

    
    import java.io.UnsupportedEncodingException;
    
    public class StringCutDemo {
    
    	public static void main(String[] args) {
    		String str="ab你好琲c琲琲我琲琲琲琲";//大部分汉字的字节码值:2个负数,另一小部分不经常使用的汉字如“琲”的字节码值是:1负1正(前负后正)
    		byte buf[] = null;
    //		try {
    //			//buf = str.getBytes("gbk");
    //			buf = str.getBytes("utf-8");
    //			
    //		} catch (UnsupportedEncodingException e) {
    //			e.printStackTrace();
    //		}
    		buf = str.getBytes();
    		
    		//观察
    		for(byte b:buf){
    			System.out.print(b+" ");
    		}
    		System.out.println();
    		
    		//測试
    		System.out.println(str);
    		System.out.println("---------------------");
    		for(int i=0;i<=buf.length;i++){
    			//String s = cutStringByByteGbk(str,i);//当为gbk格式时
    			//String s = cutStringByByteUtf8(str,i);//当为utf-8时2
    //			String s = cutStringByByte(str,i);//推断系统编码格式,然后调用上面两个方法
    			String s = cutString(str,i);//确定当前格式。然后通用两种格式
    			System.out.println("截取"+i+"个,结果是:"+s);
    		}
    		
    	}
    
    	private static String cutString(String str, int len) {
    		try {
    			//获取字节数组
    			String string=System.getProperty("file.encoding");
    			int a=0;
    			if(string.equalsIgnoreCase("gbk")){
    				a=2;
    			}
    			if(string.equalsIgnoreCase("utf-8")){
    				a=3;
    			}
    			if(a==0){
    				return "";
    			}
    			byte buf[] = str.getBytes(string);
    			int count=0;
    			//从第len个字节处開始,从后往前,统计字节码值为负的“字节的个数”
    			for(int i=len-1; i>=0; i--){
    				if(buf[i]<0){
    					count++;
    				}else{
    					break;
    				}
    			}
    			if(count%a==0){//字节码值为负的字节的个数为偶数。则说明汉字刚好截整齐
    				return new String(buf,0,len,string);
    			}else{//奇数,要丢掉多余的字节
    				return new String(buf,0,len-count%a,string);
    			}
    		} catch (UnsupportedEncodingException e) {
    			throw new RuntimeException("字符串编码异常!");
    		}
    	}
    
    	private static String cutStringByByteGbk(String str, int len) {
    		try {
    			//获取字节数组
    			byte buf[] = str.getBytes("GBK");
    			int count=0;
    			//从第len个字节处開始,从后往前。统计字节码值为负的“字节的个数”
    			for(int i=len-1; i>=0; i--){
    				if(buf[i]<0){
    					count++;
    				}else{
    					break;
    				}
    			}
    			if(count%2==0){//字节码值为负的字节的个数为偶数。则说明汉字刚好截整齐
    				return new String(buf,0,len,"gbk");
    			}else{//奇数,要丢掉最后一个字节
    				return new String(buf,0,len-1,"gbk");
    			}
    		} catch (UnsupportedEncodingException e) {
    			throw new RuntimeException("字符串编码异常!");
    		}
    		
    	}
    	
    	
    	private static String cutStringByByteUtf8(String str, int len) {
    		try {
    			//获取字节数组
    			byte buf[] = str.getBytes("utf-8");
    			int count=0;
    			//从第len个字节处開始,从后往前。统计字节码值为负的“字节的个数”
    			for(int i=len-1; i>=0; i--){
    				if(buf[i]<0){
    					count++;
    				}else{
    					break;
    				}
    			}
    			if(count%3==0){//字节码值为负的字节的个数为3的倍数,则说明汉字刚好截整齐
    				return new String(buf,0,len,"utf-8");
    			}else{//其他,要丢掉最后多余的字节
    				return new String(buf,0,len-count%3,"utf-8");
    			}
    		} catch (UnsupportedEncodingException e) {
    			throw new RuntimeException("字符串编码异常!");
    		}
    	}
    
    	public static String cutStringByByte(String str, int len){
    		if(System.getProperty("file.encoding").equalsIgnoreCase("gbk")){
    //			System.out.println(System.getProperty("file.encoding"));
    			return cutStringByByteGbk(str,len);
    		}
    		if(System.getProperty("file.encoding").equalsIgnoreCase("utf-8")){
    			return cutStringByByteUtf8(str,len);
    		}
    		return "";
    	}
    	
    }
    
    
    
    






  • 相关阅读:
    Java之基础(1)
    Java之架构(0)
    Android Exception 11(baidumapsdk(15405): Authentication Error errorcode: 102 uid)
    Android Exception 10(server)' ~ Channel is unrecoverably broken and will be disposed!)
    IOS Exception 1(libc++abi.dylib: terminating with uncaught exception of type NSException)
    Android Exception 9(requestFeature() must be called before adding content)
    Android Exception 8(Couldn't read row 0, col -1 from CursorWindow)
    简洁的BP及RBF神经网络代码
    Android实现一键获取课程成绩dome
    hdu 5371 Hotaru&#39;s problem【manacher】
  • 原文地址:https://www.cnblogs.com/wgwyanfs/p/7065971.html
Copyright © 2011-2022 走看看