zoukankan      html  css  js  c++  java
  • 理解HashSet及使用

    (1) 为啥要用HahSet?
        假如我们现在想要在一大堆数据中查找X数据。LinkedList的数据结构就不说了,查找效率低的可怕。ArrayList哪,如果我们不知道X的位置序号,还是一样要全部遍历一次直到查到结果,效率一样可怕。HashSet天生就是为了提高查找效率的。

    (2) hashCode 散列码
        散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列码。基本上,每一个对象都有一个默认的散列码,其值就是对象的内存地址。但也有一些对象的散列码不同,比如String对象,它的散列码是对内容的计算结果:

    //String对象的散列码计算 
    String str="hello"; 
    int hash=0; 
    for(int i=0;i<length();i++) 
       hash=31*hash+charAt(i); 

     

       那么下面散列码的结果不同也就好解释了。s和t都还是String对象,散列码由内容获得,结果一样。sb和tb是StringBuffer对象,自身没有hashCode方法,只能继承Object的默认方法,散列码是对象地址,当然不一样了。

    String s=new String("OK");//散列码: 3030 
    String t="Ok"; /散列码: 3030 
    StringBuffer sb=new StringBuffer(s); //散列码:20526976 
    StringBuffer tb=new StringBuffer(t); //散列码:20527144

    (3) HashSet 散列表的内部结构

     4) HashSet 如何add机制

       假如我们有一个数据(散列码76268),而此时的HashSet有128个散列单元,那么这个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能,如果在第108号链表中发现有一个老数据与新数据equals()=true的话,这个新数据将被视为已经加入,而不再重复丢入链表。

    HashSet的散列单元大小如何指定?

      Java默认的散列单元大小全部都是2的幂,初始值为16(2的4次幂)。假如16条链表中的75%链接有数据的时候,则认为加载因子达到默认的0.75。HahSet开始重新散列,也就是将原来的散列结构全部抛弃,重新开辟一个散列单元大小为32(2的5次幂)的散列结果,并重新计算各个数据的存储位置。以此类推下去.....

    (5) 为什么HashSet查找效率提高了。

       知道了HashSet的add机制后,查找的道理一样。直接根据数据的散列码和散列表的数组大小计算除余后,就得到了所在数组的位置,然后再查找链表中是否有这个数据即可。

       查找的代价也就是在链表中,但是真正一条链表中的数据很少,有的甚至没有。几乎没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中的数据要少 。

    (6) hashCode方法必须与equals方法必须兼容

       如果我们自己定义了一个类,想对这个类的大量对象组织成散列表结构便于查找。有一点一定要注意:就是hashCode方法必须与equals方法向兼容。

    //hashCode与equals方法的兼容   
    public class Employee{   
           public int id;   
           public String name="";   
           //相同id对象具有相同散列码   
           public int hashCode(){    
                  return id;   
           }   
           //equals必须比较id   
            public boolean equals(Employee x){   
                  if(this.id==x.id) return true;   
                  else return false;   
           }   
    }  
    

       为什么要这样,因为HashSet不允许相同元素(equals==ture)同时存在在结构中。假如employeeX(1111,“张三”)和employee(1111,"李四"),而Employee.equals比较的是name。这样的话,employeeX和employeeY的equals不相等。它们会根据相同的散列码1111加入到同一个散列单元所指向的列表中。这种情况多了,链表的数据将很庞大,散列冲突将非常严重,查找效率会大幅度的降低。

    (6) 总结一下

    1、HashSet不能重复存储equals相同的数据 。原因就是equals相同,数据的散列码也就相同(hashCode必须和equals兼容)。大量相同的数据将存放在同一个散列单元所指向的链表中,造成严重的散列冲突,对查找效率是灾难性的。

    2、HashSet的存储是无序的 ,没有前后关系,他并不是线性结构的集合。

    3、hashCode必须和equals必须兼容, 这也是为了第1点。

    import java.util.HashSet;   
    import java.util.Iterator;   
      
    public class IteratorTest {   
        public static void main(String[] args) {   
            HashSet set = new HashSet();   
            set.add("a");   
            set.add("b");   
            set.add("c");   
            set.add("d");   
            set.add("e");   
            Iterator iter = set.iterator();   
            while(iter.hasNext()){   
                String value = (String)iter.next();   
                System.out.println(value);   
            }   
        }   
    }  
     
    也可使用for循环迭代
    Java代码  
    for(Iterator iter = set.iterator();iter.hasNext();){   
                String value = (String)iter.next();   
                System.out.println(value);   
            }  
    		
    下例中的TreeSet必须要有一个comparator类,才能往里添加Student对象,否则会抛出ClassCastException
    Java代码  
      
    import java.util.Comparator;   
    import java.util.TreeSet;   
      
    public class TreeSetTest {   
        public static void main(String[] args) {   
            TreeSet set = new TreeSet(new StudentComparator());   
            set.add(new Student(80));   
            set.add(new Student(90));   
            set.add(new Student(60));   
            set.add(new Student(70));   
               
            System.out.println(set);   
        }   
    }   
      
    class Student{   
        int score;   
      
        public Student(int score) {   
            this.score = score;   
        }   
           
        public String toString() {   
            return String.valueOf(score);   
        }   
    }   
      
    class StudentComparator implements Comparator{   
      
        //按学生成绩升序    
        public int compare(Object o1, Object o2) {   
            Student s1 =(Student)o1;   
            Student s2 =(Student)o2;   
            return s1.score - s2.score;   
        }   
           
    }  
  • 相关阅读:
    CPU理论,平均负载和CPU密集型场景
    Dubbo和Zookeeper
    nmon问题定位和LoadRunner结果分析
    混合场景,面向目标的场景和nmon监控
    性能测试场景的学习:controller
    java vuser协议
    LoadRunner脚本开发:操作数据库(六)
    LoadRunner脚本开发:手写SOAP脚本的三种方法(五)
    jmeter脚本开发:jmeter工具的学习(二)
    子Fragment获取父Fragment
  • 原文地址:https://www.cnblogs.com/runwulingsheng/p/5208762.html
Copyright © 2011-2022 走看看