zoukankan      html  css  js  c++  java
  • Java String 字符串类细节探秘

    一. 字符串基本知识要点

      字符串类型String是Java中最常用的引用类型。我们在使用Java字符串的时候,通常会采用两种初始化的方式:1. String str = "Hello World"; 2. String str = new String("Hello World"); 这两种方式都可以将变量初始化为java字符串类型,通过第一种方式创建的字符串又被称为字符串常量。需要注意的是,Java中的String类是一个final类,str指向的字符串对象存储于堆中,而str本身则是存储在栈中的一个引用罢了。字符串对象一旦被初始化,则不允许再次被修改。从如下String的定义中我们可以验证以上所述:

    1 public final class String implements java.io.Serializable, Comparable<String>, CharSequence{
    2     
    3     /** The value is used for character storage. */
    4     private final char value[];
    5     
    6     /** Cache the hash code for the string */
    7     private int hash; // Default to 0
    8     
    9 }

    从代码中我们发现,String前有final修饰,表示是final类;而其中存储的字符数组value[],也是由final修饰,表明一旦被赋值,则不允许再次修改。

      那么,使用如上两种字符串初始化的方式有什么不同呢?我们可以通过如下代码体会:

    public class EqualTest {
    	public static void main(String[] args) {
    		String s1 = "Hello";
    		String s2 = new String("Hello");
    		System.out.println(s1 == s2);
    		System.out.println(s1.equals(s2));
    	}
    }
    

      程序输出结果为false和true。从== 和equals的区别上,我们一般这样来总结:==比较的是两个对象的引用,对象必须一模一样;equals则比较的是对象的内容,字符串内容一致便返回true。这说明,两种初始化的方式所构造的字符串对象,内容是一致的(可以理解为values数组一致),但是却是两个不同的对象,分别存储在内存的不同位置。其实,这两种初始化方式的最大不同在于,s1被初始化在字符串常量池中,而s2则存储在堆中。那么,什么是字符串常量池呢?

      字符串的分配,和其他的对象分配一样,耗费高昂的时间与空间代价。JVM为了提高性能和减少内存开销,在实例化字符串常量的时候进行了一些优化。为了减少在JVM中创建的字符串的数量,字符串类维护了一个字符串池,每当代码创建字符串常量时,JVM会首先检查字符串常量池。如果字符串已经存在池中,就返回池中的实例引用。如果字符串不在池中,就会实例化一个字符串常量并放到池中。Java能够进行这样的优化是因为字符串是不可变的final类型,共享的时候不用担心数据冲突(读写不冲突,因为不能写,相当于数据库中的S锁,即共享锁)。在常量池中,任何字符串至多维护一个对象。字符串常量总是指向常量池中的一个对象。通过new操作符创建的字符串对象不指向池中的任何对象,但是可以通过使用字符串的intern()方法来指向其中的某一个。java.lang.String.intern()返回一个池字符串,就是一个在全局常量池中有了一个入口。如果该字符串以前没有在全局常量池中,那么它就会被添加到里面。

      Java String类中有很多基本的方法。主要分成以下两个部分:

      1)和value[]相关的方法:

    • int length(); //返回String长度,即value[]数组长度;
    • char charAt(int index); //返回指定位置字符;
    • int indexOf(int ch, int fromIndex); //从fromIndex位置开始,查找ch字符在字符串中首次出现的位置;
    • char[] toCharArray();   //将字符串转换成一个新的字符数组

      2)和其他字符串相关的方法:

    • int indexOf(String str, int fromIndex); //从fromIndex位置开始,查找str字符串在字符串中首次出现的位置;
    • int lastIndexOf(String str, int fromIndex); //从fromIndex位置开始,反向查找str字符串在字符串中首次出现的位置;
    • boolean contains(String str); //contains内部实现也是调用的indexOf,找不到则返回-1
    • boolean startsWith(String str); //判断字符串是否以str开头
    • boolean endsWith(String str); //判断字符串是否以str结尾
    • String replace(CharSequence target, CharSequence replacement);  //使用replacement替换target
    • String substring(int beginIndex,  int endIndex);  //字符串截取,不传第二个参数则表示直接截取到字符串末尾
    • String[] split(String regex);  // 以regex作为分割点进行字符串分割

       另外一个值得注意的细节是,String是不可变字符串对象,StringBuilder和StringBuffer是可变字符串对象(其内部的字符数组长度可变),StringBuffer线程安全,StringBuilder非线程安全。关于String的append操作,会在下面结合具体的例子进行解释。

    二. 几个关于String的程序分析

    2.1 intern的程序示例

      参看如下程序:

    public class StringTest1 {
    	public static void main(String[] args) {
    		// TODO Auto-generated method stub
    		String s1 = "hello world";
    		String s2 = new String("hello world");
    		String s3 = s2.intern();
    		System.out.println(s1 == s2);
    		System.out.println(s1 == s3); 
    	}
    }
    

      程序的输出是false,true。关于==和equals的区别在上面已做了详细的解释,由于s1是分配在字符串常量池中,s2则存储在堆中,因此两个对象并不是同一个对象,==操作返回false。而intern在JDK 1.7及以下,都是返回一个池字符串,该池字符串和原来的String对象的内容一致。若池中无该常量则添加,若有,则直接返回该常量的引用。因此,s1和s3是一个对象。说白了,在JVM的字符串常量池中,对于每一个字符串,只有一个共享的对象。

    2.2 通过字节码进行深入分析

      当情况变得复杂的时候,参看如下程序:

    public class StringTest2 {
    	public static void main(String[] args){
    		String baseStr = "base";
    		final String baseFinalStr = "base";
    		//extend
    		String s1 = "baseext";
    		String s2 = "base" + "ext";
    		String s3 = baseStr + "ext";
    		String s4 = baseFinalStr + "ext";
    		String s5 = new String("baseext").intern();
    		System.out.println(s1 == s2);
    		System.out.println(s1 == s3);
    		System.out.println(s1 == s4);
    		System.out.println(s1 == s5);
    	}
    }
    

      这段程序乍一看非常复杂,里面有final String(final是限制在String对象的引用上,即该引用不能再更改所指向的String对象,String对象本身便是final类型的),还有字符串常量,以及字符串对象,和各个对象之间的“+”操作(“+”操作在下面的程序中详细解释)。那么我们不禁会问,在“+”操作的过程中,JVM到底是如何进行对象转换和操作呢?要想搞清楚这个问题,我们需要深入Bytecode一探究竟。使用javap -v XXX.class命令,可以打印出字节码文件中的符号表和指令等信息,该段程序的字节码输出如下:

      这里的constant pool指的是JVM内存结构中的运行时常量池,是方法区的一部分(参见周志明 《深入理解Java虚拟机》),我们上文提到的字符串常量池只是constant pool的一部分,除此之外,它还主要用来存储编译期生成的各种字面量和符号引用。javap -v的输出主要分为constant pool和方法体指令两部分,而指令中的操作数则是常量池中的序号。为了方便接下来的描述,我们先对常用的JVM字节码指令做一下说明:

    LDC        将int, float或String型常量值从常量池中推送至栈顶;
    ASTORE_<N>    Store reference into local variable,将栈顶的引用赋值给第N个局部变量;
    ALOAD       将指定的引用类型本地变量推送至栈顶
    INVOKE VIRTUAL  调用实例方法
    INVOKE SPECIAL  调用超类构造方法等初始化方法
    INVOKE STATIC   调用静态方法
    NEW         创建一个对象,并将其引用值压入栈顶
    DUP         复制栈顶数值并将复制值压入栈顶

      以上指令是需要仔细理解的。使用javap -v进行字节码的查看和理解可能比较困难,因为你要将 #序号 和 constant pool中的字面量不断照应已方便理解。Eclipse中提供了Bytecode Outline的插件可以很方便的查看和理解bytecode。插件的安装请自行百度,这里不再赘述。这里贴出本段代码的outline:

     // access flags 0x9
      public static main([Ljava/lang/String;)V
       L0  //
        LINENUMBER 5 L0
        LDC "base"  //将"base"从常量池推送至栈顶
        ASTORE 1    //赋值给baseStr变量
       L1
        LINENUMBER 6 L1
        LDC "base"
        ASTORE 2    //赋值给baseFinalStr变量
       L2
        LINENUMBER 8 L2
        LDC "baseext"
        ASTORE 3    
       L3
        LINENUMBER 9 L3
        LDC "baseext"  //注意,这里直接将"baseext"赋值给了s2,而没有进行"+"操作!!!
        ASTORE 4
       L4
        LINENUMBER 10 L4
        NEW java/lang/StringBuilder  //创建StringBuilder对象
        DUP
        ALOAD 1 //将baseStr推送至栈顶
        INVOKESTATIC java/lang/String.valueOf (Ljava/lang/Object;)Ljava/lang/String; //获取baseStr的value
        INVOKESPECIAL java/lang/StringBuilder.<init> (Ljava/lang/String;)V  //将创建的StringBuilder对象初始化为上一步获得的value
        LDC "ext"
        INVOKEVIRTUAL java/lang/StringBuilder.append (Ljava/lang/String;)Ljava/lang/StringBuilder;  //调用StringBuilder对象的append实例方法
        INVOKEVIRTUAL java/lang/StringBuilder.toString ()Ljava/lang/String;  //调用StringBuilder对象的toString实例方法
        ASTORE 5  //将toString的结果赋值给s3
       L5
        LINENUMBER 11 L5
        LDC "baseext"  //s4也是直接赋值
        ASTORE 6
       L6
        LINENUMBER 12 L6
        NEW java/lang/String
        DUP
        LDC "baseext"
        INVOKESPECIAL java/lang/String.<init> (Ljava/lang/String;)V
        INVOKEVIRTUAL java/lang/String.intern ()Ljava/lang/String; //调用intern()方法
        ASTORE 7
    //===================================以下为 输出部分,可以忽略========================================= .......
      ....... L19 LINENUMBER 17 L19 RETURN L20 //类似于符号表,对应于local variable和变量编号 LOCALVARIABLE args [Ljava/lang/String; L0 L20 0 LOCALVARIABLE baseStr Ljava/lang/String; L1 L20 1 LOCALVARIABLE baseFinalStr Ljava/lang/String; L2 L20 2 LOCALVARIABLE s1 Ljava/lang/String; L3 L20 3 LOCALVARIABLE s2 Ljava/lang/String; L4 L20 4 LOCALVARIABLE s3 Ljava/lang/String; L5 L20 5 LOCALVARIABLE s4 Ljava/lang/String; L6 L20 6 LOCALVARIABLE s5 Ljava/lang/String; L7 L20 7 MAXSTACK = 3 MAXLOCALS = 8

      如果想深入理解,请逐行理解以上字节码程序。根据程序的分析,我们不难得出输出结果:true false true true。

      s1和s2,s4,s5都是指向字符串常量池中的同一个字符串常量。s2和s4中的“+”并没有起任何作用。String中使用 + 字符串连接符进行字符串连接时,连接操作最开始时如果都是字符串常量,编译后将尽可能多的直接将字符串常量连接起来,形成新的字符串常量参与后续连接。而s3中的第一个操作数是String对象类型,因此会首先以最左边的字符串为参数创建StringBuilder对象,然后依次对右边进行append操作,最后将StringBuilder对象通过toString()方法转换成String对象。

      这里要注意的一点是,对于final字段修饰的字符串常量,编译期直接进行了常量替换。如果final修饰的不是字符串常量,而是字符串对象,如final String a = new String("baseStr"); 则和没有final修饰的情况是一样的,同样需要用StringBuilder进行append并toString才可以。

      我们再通过一个程序来更深入的理解字符串常量和“+”操作符。程序如下:

    public class AppendTest {
    	public static void main(String[] args) {
    		// TODO Auto-generated method stub
    		String a = "aa";
    		String b = "bb";
    		String c = "xx" + "yy " + a + "zz" + "mm" + b;
    		System.out.println(c);
    	}
    }
    

      程序输出自然不用赘述,我们通过同样的方法查看Bytecode的outline,输出如下:

    // access flags 0x21
    public class com/yelbosh/java/str/AppendTest {
    
      // compiled from: AppendTest.java
    
      // access flags 0x1
      public <init>()V
       L0
        LINENUMBER 3 L0
        ALOAD 0
        INVOKESPECIAL java/lang/Object.<init> ()V
        RETURN
       L1
        LOCALVARIABLE this Lcom/yelbosh/java/str/AppendTest; L0 L1 0
        MAXSTACK = 1
        MAXLOCALS = 1
    
      // access flags 0x9
      public static main([Ljava/lang/String;)V
       L0
        LINENUMBER 6 L0
        LDC "aa"
        ASTORE 1
       L1
        LINENUMBER 7 L1
        LDC "bb"
        ASTORE 2
       L2
        LINENUMBER 8 L2
        NEW java/lang/StringBuilder
        DUP
        LDC "xxyy " //直接load的是字符串常量“xxyy ”
        INVOKESPECIAL java/lang/StringBuilder.<init> (Ljava/lang/String;)V
        ALOAD 1
        INVOKEVIRTUAL java/lang/StringBuilder.append (Ljava/lang/String;)Ljava/lang/StringBuilder; //之后都是在调用StringBuilder对象的append实例方法
        LDC "zz"
        INVOKEVIRTUAL java/lang/StringBuilder.append (Ljava/lang/String;)Ljava/lang/StringBuilder;
        LDC "mm"
        INVOKEVIRTUAL java/lang/StringBuilder.append (Ljava/lang/String;)Ljava/lang/StringBuilder;
        ALOAD 2
        INVOKEVIRTUAL java/lang/StringBuilder.append (Ljava/lang/String;)Ljava/lang/StringBuilder;
        INVOKEVIRTUAL java/lang/StringBuilder.toString ()Ljava/lang/String;
        ASTORE 3
       L3
        LINENUMBER 9 L3
        GETSTATIC java/lang/System.out : Ljava/io/PrintStream;
        ALOAD 3
        INVOKEVIRTUAL java/io/PrintStream.println (Ljava/lang/String;)V
       L4
        LINENUMBER 10 L4
        RETURN
       L5
        LOCALVARIABLE args [Ljava/lang/String; L0 L5 0
        LOCALVARIABLE a Ljava/lang/String; L1 L5 1
        LOCALVARIABLE b Ljava/lang/String; L2 L5 2
        LOCALVARIABLE c Ljava/lang/String; L3 L5 3
        MAXSTACK = 3
        MAXLOCALS = 4
    }
    

      通过这个程序,更印证了我们如上的结论。

      通过这个深入分析,我们在写代码的时候,也要注意使用StringBuilder对象。如果直接在for循环中使用“+”操作符进行字符串对象(常量无所谓)的拼接,那么实际上在每次循环的时候,都要创建StringBuilder,然后append,再toString出来,因此性能是十分低下的。这个时候,就需要在循环外声明StringBuilder对象,然后在循环内调用append方法进行拼接。另外要注意的是,StringBuilder是线程不安全的,如果涉及到多个线程同时对StringBuilder的append操作,请使用synchronized或lock确保并发访问的安全性,或者转而使用线程安全的StringBuffer。

    总结:Java String是非常灵活的一个对象,但是只要把细节搞清楚,问题还是很简单的。在实际编码的过程中,一定要考虑字符串操作的性能和线程安全问题,这样才能更好的运用字符串完成自己的业务逻辑。希望这篇博文能对您的学习有些帮助,如果错误,请不吝赐教。

  • 相关阅读:
    027、Java中的转义字符
    026、Java中改变运算优先级
    025、Java中字符串连接与加法操作一起出现
    024、Java中字符串连接字符串拼接
    023、Java中String的用法
    022、Java中boolean的用法
    021、Java中汉子与数字的相互转换,利用字符变量保存中文
    020、Java中字母大小写转换
    019、Java中定义字符
    018、Java中除法的是用,解决除法计算精度问题
  • 原文地址:https://www.cnblogs.com/yelbosh/p/5857739.html
Copyright © 2011-2022 走看看