zoukankan      html  css  js  c++  java
  • Java编程的逻辑 (38)

    本系列文章经补充和完善,已修订整理成书《Java编程的逻辑》,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接http://item.jd.com/12299018.html


    从本节开始,我们探讨Java中的容器类,所谓容器,顾名思义就是容纳其他数据的,计算机课程中有一门课叫数据结构,可以粗略对应于Java中的容器类,我们不会介绍所有数据结构的内容,但会介绍Java中的主要实现,并分析其基本原理和主要实现代码。

    前几节在介绍泛型的时候,我们自己实现了一个简单的动态数组容器类DynaArray,本节,我们介绍Java中真正的动态数组容器类ArrayList。

    我们先来看它的基本用法。

    基本用法

    新建ArrayList

    ArrayList是一个泛型容器,新建ArrayList需要实例化泛型参数,比如:

    ArrayList<Integer> intList = new ArrayList<Integer>();
    ArrayList<String> strList = new ArrayList<String>();

    添加元素

    add方法添加元素到末尾

    ArrayList<Integer> intList = new ArrayList<Integer>();
    intList.add(123);
    intList.add(456);
    ArrayList<String> strList = new ArrayList<String>();
    strList.add("老马");
    strList.add("编程");

    长度方法

    判断是否为空

    public boolean isEmpty()

    获取长度

    public int size()

    访问指定位置的元素

    public E get(int index)

    如:

    ArrayList<String> strList = new ArrayList<String>();
    strList.add("老马");
    strList.add("编程");
    for(int i=0; i<strList.size(); i++){
        System.out.println(strList.get(i));
    }

    查找元素

    public int indexOf(Object o)

    如果找到,返回索引位置,否则返回-1。

    从后往前找

    public int lastIndexOf(Object o)

    是否包含指定元素 

    public boolean contains(Object o)

    相同的依据是equals方法返回true。如果传入的元素为null,则找null的元素。

    删除元素

    删除指定位置的元素

    public E remove(int index)

    返回值为被删对象。

    删除指定对象

    public boolean remove(Object o)

    与indexOf一样,比较的依据的是equals方法,如果o为null,则删除值为null的元素。另外,remove只删除第一个相同的对象,也就是说,即使ArrayList中有多个与o相同的元素,也只会删除第一个。返回值为boolean类型,表示是否删除了元素。

    删除所有元素

    public void clear() 

    插入元素

    在指定位置插入元素

    public void add(int index, E element)

    index为0表示插入最前面,index为ArrayList的长度表示插到最后面。

    修改元素

    修改指定位置的元素内容

    public E set(int index, E element) 

    基本原理

    内部组成

    可以看出,ArrayList的基本用法是比较简单的,它的基本原理也是比较简单的,原理与我们在前面几节介绍的DynaArray类似,内部有一个数组elementData,一般会有一些预留的空间,有一个整数size记录实际的元素个数,如下所示:

    private transient Object[] elementData;
    private int size;

    我们暂时可以忽略transient这个关键字。各种public方法内部操作的基本都是这个数组和这个整数,elementData会随着实际元素个数的增多而重新分配,而size则始终记录实际的元素个数。

    Add方法

    虽然基本思路是简单的,但内部代码有一些比较晦涩,我们来看下add方法的代码:

    public boolean add(E e) {
        ensureCapacityInternal(size + 1);  // Increments modCount!!
        elementData[size++] = e;
        return true;
    }

    它首先调用ensureCapacityInternal确保数组容量是够的,ensureCapacityInternal的代码是:

    private void ensureCapacityInternal(int minCapacity) {
        if (elementData == EMPTY_ELEMENTDATA) {
            minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
        }
    
        ensureExplicitCapacity(minCapacity);
    }

    它先判断数组是不是空的,如果是空的,则首次至少要分配的大小为DEFAULT_CAPACITY,DEFAULT_CAPACITY的值为10,接下来调用ensureExplicitCapacity,代码为:

    private void ensureExplicitCapacity(int minCapacity) {
        modCount++;
    
        // overflow-conscious code
        if (minCapacity - elementData.length > 0)
            grow(minCapacity);
    }

    modCount++是什么意思呢?modCount表示内部的修改次数,modCount++当然就是增加修改次数,为什么要记录修改次数呢?我们待会解释。

    如果需要的长度大于当前数组的长度,则调用grow方法。这段代码前面有个注释:overflow-conscious code,翻译一下,大意就是代码考虑了溢出这种情况,溢出是什么意思呢?我们解释下,假设a,b都是int,下面两行代码是不一样的:

    1 if(a>b)
    2 if(a-b>0)

    为什么呢?考虑a=Integer.MAX_VALUE, b=Integer.MIN_VALUE:

    a>b为true

    但由于溢出,a-b的结果为-1

    反之,再考虑a=Integer.MIN_VALUE, b=Integer.MAX_VALUE:

    a>b为false

    但由于溢出,a-b的结果为1。

    不过,在a, b都为正数且数值没有那么大的情况下,一般也没有溢出问题,为便于理解,在后续的分析中,我们将忽略溢出问题。

    接下来,看grow方法:

    private void grow(int minCapacity) {
        // overflow-conscious code
        int oldCapacity = elementData.length;
        int newCapacity = oldCapacity + (oldCapacity >> 1);
        if (newCapacity - minCapacity < 0)
            newCapacity = minCapacity;
        if (newCapacity - MAX_ARRAY_SIZE > 0)
            newCapacity = hugeCapacity(minCapacity);
        // minCapacity is usually close to size, so this is a win:
        elementData = Arrays.copyOf(elementData, newCapacity);
    }

    排除边缘情况,长度增长的主要代码为:

    int newCapacity = oldCapacity + (oldCapacity >> 1);

    右移一位相当于除2,所以,newCapacity相当于oldCapacity的1.5倍。

    Remove方法

    我们再来看Remove方法的代码:

    public E remove(int index) {
        rangeCheck(index);
    
        modCount++;
        E oldValue = elementData(index);
    
        int numMoved = size - index - 1;
        if (numMoved > 0)
            System.arraycopy(elementData, index+1, elementData, index,
                             numMoved);
        elementData[--size] = null; // clear to let GC do its work
    
        return oldValue;
    }

    它也增加了modCount,然后计算要移动的元素个数,从index往后的元素都往前移动一位,实际调用System.arraycopy方法移动元素。elementData[--size] = null;这行代码将size减一,同时将最后一个位置设为null,设为null后就不再引用原来对象,如果原来对象也不再被其他对象引用,就可以被垃圾回收。

    基本原理小结

    其他方法大多是比较简单的,我们就不赘述了。总体而言,内部操作要考虑各种情况,代码有一些晦涩复杂,但接口一般都是简单直接的,这就是使用容器类的好处了,这也是计算机程序中的基本思维方式,封装复杂操作,提供简单接口。

    迭代

    foreach用法

    理解了ArrayList的基本用法和原理,接下来,我们来看一个常见的操作 - 迭代,比如说,循环打印ArrayList中的每个元素,ArrayList支持foreach语法,比如:

    ArrayList<Integer> intList = new ArrayList<Integer>();
    intList.add(123);
    intList.add(456);
    intList.add(789);
    for(Integer a : intList){
        System.out.println(a);
    }

    当然,这种循环也可以使用如下代码实现:

    for(int i=0; i<intList.size(); i++){
        System.out.println(intList.get(i));
    }

    不过,foreach看上去更为简洁,而且,它适用于各种容器,更为通用。

    这种foreach语法背后是怎么实现的呢?其实,编译器会将它转换为类似如下代码:

    Iterator<Integer> it = intList.iterator();
    while(it.hasNext()){
        System.out.println(it.next());
    }

    接来下,我们解释一下其中的代码。

    迭代器接口

    ArrayList实现了Iterable接口,Iterable表示可迭代,它的定义为:

    public interface Iterable<T> {
        Iterator<T> iterator();
    }

    定义很简单,就是要求实现iterator方法。iterator方法的声明为:

    public Iterator<E> iterator()

    它返回一个实现了Iterator接口的对象,Iterator接口的定义为:

    public interface Iterator<E> {
        boolean hasNext();
        E next();
        void remove();
    }

    hasNext()判断是否还有元素未访问,next()返回下一个元素,remove()删除最后返回的元素,只读访问的基本模式就类似于:

    Iterator<Integer> it = intList.iterator();
    while(it.hasNext()){
        System.out.println(it.next());
    }

    我们待会再看迭代中间要删除元素的情况。

    只要对象实现了Iterable接口,就可以使用foreach语法,编译器会转换为调用Iterable和Iterator接口的方法。

    初次见到Iterable和Iterator,可能会比较容易混淆,我们再澄清一下:

    • Iterable表示对象可以被迭代,它有一个方法iterator(),返回Iterator对象,实际通过Iterator接口的方法进行遍历。
    • 如果对象实现了Iterable,就可以使用foreach语法。
    • 类可以不实现Iterable,也可以创建Iterator对象。

    ListIterator

    除了iterator(),ArrayList还提供了两个返回Iterator接口的方法:

    public ListIterator<E> listIterator()
    public ListIterator<E> listIterator(int index)

    ListIterator扩展了Iterator接口,增加了一些方法,向前遍历、添加元素、修改元素、返回索引位置等,添加的方法有:

    public interface ListIterator<E> extends Iterator<E> {
        boolean hasPrevious();
        E previous();
        int nextIndex();
        int previousIndex();
        void set(E e);
        void add(E e);
    }

    listIterator()方法返回的迭代器从0开始,而listIterator(int index)方法返回的迭代器从指定位置index开始,比如,从末尾往前遍历,代码为:

    public void reverseTraverse(List<Integer> list){
        ListIterator<Integer> it = list.listIterator(list.size());
        while(it.hasPrevious()){
            System.out.println(it.previous());
        }
    }

    迭代的陷阱

    关于迭代器,有一种常见的误用,就是在迭代的中间调用容器的删除方法,比如要删除一个整数ArrayList中所有小于100的数,直觉上,代码可以这么写:

    public void remove(ArrayList<Integer> list){
        for(Integer a : list){
            if(a<=100){
                list.remove(a);
            }
        }
    }

    但,运行时会抛出异常:

    java.util.ConcurrentModificationException

    发生了并发修改异常,为什么呢?迭代器内部会维护一些索引位置相关的数据,要求在迭代过程中,容器不能发生结构性变化,否则这些索引位置就失效了。所谓结构性变化就是添加、插入和删除元素,只是修改元素内容不算结构性变化。

    如何避免异常呢?可以使用迭代器的remove方法,如下所示:

    public static void remove(ArrayList<Integer> list){
        Iterator<Integer> it = list.iterator();
        while(it.hasNext()){
            if(it.next()<=100){
                it.remove();
            }
        }
    }

    迭代器如何知道发生了结构性变化,并抛出异常?它自己的remove方法为何又可以使用呢?我们需要看下迭代器的工作原理。

    迭代器实现的原理

    我们来看下ArrayList中iterator方法的实现,代码为:

    public Iterator<E> iterator() {
        return new Itr();
    }

    新建了一个Itr对象,Itr是一个成员内部类,实现了Iterator接口,声明为:

    private class Itr implements Iterator<E>

    它有三个实例成员变量,为:

    int cursor;       // index of next element to return
    int lastRet = -1; // index of last element returned; -1 if no such
    int expectedModCount = modCount;

    cursor表示下一个要返回的元素位置,lastRet表示最后一个返回的索引位置,expectedModCount表示期望的修改次数,初始化为外部类当前的修改次数modCount,回顾一下,成员内部类可以直接访问外部类的实例变量。

    每次发生结构性变化的时候modCount都会增加,而每次迭代器操作的时候都会检查expectedModCount是否与modCount相同,这样就能检测出结构性变化。

    我们来具体看下,它是如何实现Iterator接口中的每个方法的,先看hasNext(),代码为:

    public boolean hasNext() {
        return cursor != size;
    }

    cursor与size比较,比较直接,看next()方法:

    public E next() {
        checkForComodification();
        int i = cursor;
        if (i >= size)
            throw new NoSuchElementException();
        Object[] elementData = ArrayList.this.elementData;
        if (i >= elementData.length)
            throw new ConcurrentModificationException();
        cursor = i + 1;
        return (E) elementData[lastRet = i];
    }

    首先调用了checkForComodification,它的代码为:

    final void checkForComodification() {
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
    }

    所以,next()前面部分主要就是在检查是否发生了结构性变化,如果没有变化,就更新cursor和lastRet的值,以保持其语义,然后返回对应的元素。

    remove的代码为:

    public void remove() {
        if (lastRet < 0)
            throw new IllegalStateException();
        checkForComodification();
    
        try {
            ArrayList.this.remove(lastRet);
            cursor = lastRet;
            lastRet = -1;
            expectedModCount = modCount;
        } catch (IndexOutOfBoundsException ex) {
            throw new ConcurrentModificationException();
        }
    }

    它调用了ArrayList的remove方法,但同时更新了cursor, lastRet和expectedModCount的值,所以它可以正确删除。

    不过,需要注意的是,调用remove方法前必须先调用next,比如,通过迭代器删除所有元素,直觉上,可以这么写:

    public static void removeAll(ArrayList<Integer> list){
        Iterator<Integer> it = list.iterator();
        while(it.hasNext()){
            it.remove();    
        }
    }

    实际运行,会抛出异常:

    java.lang.IllegalStateException

    正确写法是:

    public static void removeAll(ArrayList<Integer> list){
        Iterator<Integer> it = list.iterator();
        while(it.hasNext()){
            it.next();
            it.remove();
        }
    }

    当然,如果只是要删除所有元素,ArrayList有现成的方法clear()。

    listIterator()的实现使用了另一个内部类ListItr,它继承自Itr,基本思路类似,我们就不赘述了。

    迭代器的好处

    为什么要通过迭代器这种方式访问元素呢?直接使用size()/get(index)语法不也可以吗?在一些场景下,确实没有什么差别,两者都可以。不过,foreach语法更为简洁一些,更重要的是,迭代器语法更为通用,它适用于各种容器类。

    此外,迭代器表示的是一种关注点分离的思想,将数据的实际组织方式与数据的迭代遍历相分离,是一种常见的设计模式。需要访问容器元素的代码只需要一个Iterator接口的引用,不需要关注数据的实际组织方式,可以使用一致和统一的方式进行访问。

    而提供Iterator接口的代码了解数据的组织方式,可以提供高效的实现。在ArrayList中, size/get(index)语法与迭代器性能是差不多的,但在后续介绍的其他容器中,则不一定,比如LinkedList,迭代器性能就要高很多。

    从封装的思路上讲,迭代器封装了各种数据组织方式的迭代操作,提供了简单和一致的接口。

    ArrayList实现的接口

    Java的各种容器类有一些共性的操作,这些共性以接口的方式体现,我们刚刚介绍的Iterable接口就是,此外,ArrayList还实现了三个主要的接口Collection, List和RandomAccess,我们逐个来看下。

    Collection

    Collection表示一个数据集合,数据间没有位置或顺序的概念,接口定义为:

    public interface Collection<E> extends Iterable<E> {
        int size();
        boolean isEmpty();
        boolean contains(Object o);
        Iterator<E> iterator();
        Object[] toArray();
        <T> T[] toArray(T[] a);
        boolean add(E e);
        boolean remove(Object o);
        boolean containsAll(Collection<?> c);
        boolean addAll(Collection<? extends E> c);
        boolean removeAll(Collection<?> c);
        boolean retainAll(Collection<?> c);
        void clear();
        boolean equals(Object o);
        int hashCode();
    }

    这些方法中,除了两个toArray方法和几个xxxAll()方法外,其他我们已经介绍过了。

    这几个xxxAll()方法的含义基本也是可以顾名思义的,addAll添加,removeAll删除,containsAll检查是否包含了参数容器中的所有元素,只有全包含才返回true,retainAll只保留参数容器中的元素,其他元素会进行删除。

    有一个抽象类AbstractCollection对这几个方法都提供了默认实现,实现的方式就是利用迭代器方法逐个操作,比如说,我们看removeAll方法,代码为:

    public boolean removeAll(Collection<?> c) {
        boolean modified = false;
        Iterator<?> it = iterator();
        while (it.hasNext()) {
            if (c.contains(it.next())) {
                it.remove();
                modified = true;
            }
        }
        return modified;
    }

    代码比较简单,就不解释了。ArrayList继承了AbstractList,而AbstractList又继承了AbstractCollection,ArrayList对其中一些方法进行了重写,以提供更为高效的实现,具体我们就不介绍了。

    关于toArray方法,我们待会再介绍。

    List

    List表示有顺序或位置的数据集合,它扩展了Collection,增加的主要方法有:

    boolean addAll(int index, Collection<? extends E> c);
    E get(int index);
    E set(int index, E element);
    void add(int index, E element);
    E remove(int index);
    int indexOf(Object o);
    int lastIndexOf(Object o);
    ListIterator<E> listIterator();
    ListIterator<E> listIterator(int index);
    List<E> subList(int fromIndex, int toIndex);

    这些方法都与位置有关,容易理解,就不介绍了。

    RandomAccess

    RandomAccess的定义为:

    public interface RandomAccess {
    }

    没有定义任何代码。这有什么用呢?这种没有任何代码的接口在Java中被称之为标记接口,用于声明类的一种属性。

    这里,实现了RandomAccess接口的类表示可以随机访问,可随机访问就是具备类似数组那样的特性,数据在内存是连续存放的,根据索引值就可以直接定位到具体的元素,访问效率很高。下节我们会介绍LinkedList,它就不能随机访问。

    有没有声明RandomAccess有什么关系呢?主要用于一些通用的算法代码中,它可以根据这个声明而选择效率更高的实现。比如说,Collections类中有一个方法binarySearch,在List中进行二分查找,它的实现代码就根据list是否实现了RandomAccess而采用不同的实现机制,如下所示:

    public static <T>
    int binarySearch(List<? extends Comparable<? super T>> list, T key) {
        if (list instanceof RandomAccess || list.size()<BINARYSEARCH_THRESHOLD)
            return Collections.indexedBinarySearch(list, key);
        else
            return Collections.iteratorBinarySearch(list, key);
    }

    ArrayList的其他方法

    构造方法

    ArrayList还有两个构造方法

    public ArrayList(int initialCapacity)
    public ArrayList(Collection<? extends E> c)

    第一个方法以指定的大小initialCapacity初始化内部的数组大小,代码为:

    this.elementData = new Object[initialCapacity];

    在事先知道元素长度的情况下,或者,预先知道长度上限的情况下,使用这个构造方法可以避免重新分配和拷贝数组。

    第二个构造方法以一个已有的Collection构建,数据会新拷贝一份。

    与数组的相互转换

    ArrayList中有两个方法可以返回数组

    public Object[] toArray()
    public <T> T[] toArray(T[] a) 

    第一个方法返回是Object数组,代码为:

    public Object[] toArray() {
        return Arrays.copyOf(elementData, size);
    }

    第二个方法返回对应类型的数组,如果参数数组长度足以容纳所有元素,就使用该数组,否则就新建一个数组,比如:

    ArrayList<Integer> intList = new ArrayList<Integer>();
    intList.add(123);
    intList.add(456);
    intList.add(789);
    
    Integer[] arrA = new Integer[3];
    intList.toArray(arrA);
    Integer[] arrB = intList.toArray(new Integer[0]);
    
    System.out.println(Arrays.equals(arrA, arrB));

    输出为true,表示两种方式都是可以的。

    Arrays中有一个静态方法asList可以返回对应的List,如下所示:

    Integer[] a = {1,2,3};
    List<Integer> list = Arrays.asList(a);

    需要注意的是,这个方法返回的List,它的实现类并不是本节介绍的ArrayList,而是Arrays类的一个内部类,在这个内部类的实现中,内部用的的数组就是传入的数组,没有拷贝,也不会动态改变大小,所以对数组的修改也会反映到List中,对List调用add/remove方法会抛出异常。

    要使用ArrayList完整的方法,应该新建一个ArrayList,如下所示:

    List<Integer> list = new ArrayList<Integer>(Arrays.asList(a));

    容量大小控制

    ArrayList还提供了两个public方法,可以控制内部使用的数组大小,一个是:

    public void ensureCapacity(int minCapacity)

    它可以确保数组的大小至少为minCapacity,如果不够,会进行扩展。如果已经预知ArrayList需要比较大的容量,调用这个方法可以减少ArrayList内部分配和扩展的次数。

    另一个方法是:

    public void trimToSize()

    它会重新分配一个数组,大小刚好为实际内容的长度。调用这个方法可以节省数组占用的空间。

    ArrayList特点分析

    后续我们会介绍各种容器类和数据组织方式,之所以有各种不同的方式,是因为不同方式有不同特点,而不同特点有不同适用场合。考虑特点时,性能是其中一个很重要的部分,但性能不是一个简单的高低之分,对于一种数据结构,有的操作性能高,有的操作性能可能就比较低。

    作为程序员,就是要理解每种数据结构的特点,根据场合的不同,选择不同的数据结构。

    对于ArrayList,它的特点是:内部采用动态数组实现,这决定了:

    • 可以随机访问,按照索引位置进行访问效率很高,用算法描述中的术语,效率是O(1),简单说就是可以一步到位。
    • 除非数组已排序,否则按照内容查找元素效率比较低,具体是O(N),N为数组内容长度,也就是说,性能与数组长度成正比。
    • 添加元素的效率还可以,重新分配和拷贝数组的开销被平摊了,具体来说,添加N个元素的效率为O(N)。
    • 插入和删除元素的效率比较低,因为需要移动元素,具体为O(N)。 

    小结

    本文详细介绍了ArrayList,ArrayList是日常开发中最常用的类之一。我们介绍了ArrayList的用法、基本实现原理、迭代器及其实现、Collection/List/RandomAccess接口、ArrayList与数组的相互转换,最后我们分析了ArrayList的特点。

    ArrayList的插入和删除的性能比较低,下一节,我们来看另一个同样实现了List接口的容器类,LinkedList,它的特点可以说与ArrayList正好相反。

    ----------------

    未完待续,查看最新文章,敬请关注微信公众号“老马说编程”(扫描下方二维码),从入门到高级,深入浅出,老马和你一起探索Java编程及计算机技术的本质。用心原创,保留所有版权。

  • 相关阅读:
    数据汇总计算和分析的反思
    排名算法计算
    仿Spring读取配置文件实现方案
    xml 配置文件规范 校验
    批量插入数据(基于Mybatis的实现-Oracle)
    shallow copy 和 deep copy 的示例
    引用对象的使用和易产生bug的示例
    codis安装手册
    Redis安装手册
    map和list遍历基础
  • 原文地址:https://www.cnblogs.com/swiftma/p/5894874.html
Copyright © 2011-2022 走看看