zoukankan      html  css  js  c++  java
  • 慎用ArrayList的contains方法,使用HashSet的contains方法代替

    在启动一个应用的时候,发现其中有一处数据加载要数分钟,刚开始以为是需要load的数据比较多的缘故,查了一下数据库有6条左右,但是单独写了一个数据读取的方法,将这6万多条全部读过来,却只需要不到10秒钟,就觉得这里面肯定有问题,于是仔细看其中的逻辑,其中有一段数据去重的逻辑,就是记录中存在某几个字段相同的,就认为是重复数据,就需要将重复数据给过滤掉。这里就用到了一个List来存放这几个字段所组成的主键,如果发现相同的就不处理,代码无非就是下面这样:

    [java]
    1. List<string> uniqueKeyList = new ArrayList<string>();  
    2. //......  
    3. if (uniqueKeyList.contains(uniqueKey)) {  
    4.                     continue;  
    5.                 }  
    6. </string></string>  


    根据键去查找是不是已经存在了,来判断是否重复数据。经过分析,这一块耗费了非常多的时候,于是就去查看ArrayList的contains方法的源码,发现其最终会调用他本身的indexOf方法:

    [java]
    1. public int indexOf(Object elem) {  
    2.     if (elem == null) {  
    3.         for (int i = 0; i < size; i++)  
    4.         if (elementData[i]==null)  
    5.             return i;  
    6.     } else {  
    7.         for (int i = 0; i < size; i++)  
    8.         if (elem.equals(elementData[i]))  
    9.             return i;  
    10.     }  
    11.     return -1;  
    12.     }  

    原来在这里他做的是遍历整个list进行查找,最多可能对一个键的查找会达到6万多次,也就是会扫描整个List,验怪会这么慢了。

    于是将原来的List替换为Set:

    [java]
    1. Set<string> uniqueKeySet = new HashSet<string>();  
    2. //......  
    3. if (uniqueKeySet.contains(uniqueKey)) {  
    4.                     continue;  
    5.                 }  


    速度一下就上去了,在去重这一块最多花费了一秒钟,为什么HashSet的速度一下就上去了,那是因为其内部使用的是Hashtable,这是HashSet的contains的源码:

    [java]
    1. public boolean contains(Object o) {  
    2.     return map.containsKey(o);  
    3.     }  



  • 相关阅读:
    自考 exec 7 3
    画函数图像
    Exec68
    applet main共存 五角星和五面形
    jcheckbox 用例
    JList 单击 ,双击例
    web性能优化(一)弱请求处理
    web性能优化(二)优化思维图
    算法之道左右旋转字符串
    腾讯微信面试题实现时间复杂度为O(1)的栈 20130226
  • 原文地址:https://www.cnblogs.com/interdrp/p/8455783.html
Copyright © 2011-2022 走看看