zoukankan      html  css  js  c++  java
  • Hash算法的研究以及解决hash冲突的常用方法

    百度上 对哈希表的介绍已经很详细:

    转载:

    https://baike.baidu.com/item/%E5%93%88%E5%B8%8C%E8%A1%A8/5981869?fr=aladdin&fromid=10027933&fromtitle=%E6%95%A3%E5%88%97%E8%A1%A8

    转载:

    http://www.cnblogs.com/thinkleesion/p/4018820.html

    HashCode 意义:

     总的来说,Java中的集合(Collection)有两类,一类是List,再有一类是Set。你知道它们的区别吗?前者集合内的元素是有序的,元素可以重复;后者元素无序,但元素不可重复。那么这里就有一个比较严重的问题了:要想保证元素不重复,可两个元素是否重复应该依据什么来判断呢?这就是 Object.equals方法了。但是,如果每增加一个元素就检查一次,那么当元素很多时,后添加到集合中的元素比较的次数就非常多了。也就是说,如果集合中现在已经有1000个元素,那么第1001个元素加入集合时,它就要调用1000次equals方法。这显然会大大降低效率。

    于是,Java采用了哈希表的原理。哈希算法也称为散列算法,是将数据依特定算法直接指定到一个地址上。关于哈希算法,这里就不详细介绍。可以这样简单理解,hashCode方法实际上返回的就是对象存储位置的映像。

    这样一来,当集合要添加新的元素时,先调用这个元素的hashCode方法,就能定位到它应该放置的存储位置。如果这个位置上没有元素,它就可以直接存储在这个位置上,不用再进行任何比较了;如果这个位置上已经有元素了,就调用它的equals方法与新元素进行比较,相同的话就不存了,不相同就表示发生冲突了,散列表对于冲突有具体的解决办法,但最终还会将新元素保存在适当的位置。这样一来,实际调用equals方法的次数就大大降低了,几乎只需要一两次。

    原则:

    在编写类的时候,如果覆盖了Object的equals方法,那么必须要覆盖hashCode方法,并且如果两个对象用equals方法比较返回true,那么这两个对象hashCode返回的值也必须是相等的,并且对于同一个对象,equals方法需要比较的属性值没有被修改,那么每次调用hashCode返回的值应该是一致的。

    例子:

    String.hashCode();

    public int hashCode() {
            int hash = hashCode;
            if (hash == 0) {
                if (count == 0) {
                    return 0;
                }
                final int end = count + offset;
                final char[] chars = value;
                for (int i = offset; i < end; ++i) {
                    hash = 31*hash + chars[i];
                }
                hashCode = hash;
            }
            return hash;
        }
    

      

    问题:

    hashcode 通过什么散列算法实现的。

    怎么解释以上的hash算法,为什么要*31,为什么要》》》31 等。

    部分参考资料:

    https://stackoverflow.com/questions/299304/why-does-javas-hashcode-in-string-use-31-as-a-multiplier

    可能是 这个结论:

    A nice property of 31 is that the multiplication can be replaced by a shift and a subtraction for better performance: 31 * i == (i << 5) - i. Modern VMs do this sort of optimization automatically.

    来自 Joshua Bloch's Effective Java, 有时间 再阅读一下。

    接下去,是 哈希表如何解决冲突:

    这篇文章的语言 相对来说通俗一点:

    http://www.cnblogs.com/novalist/p/6396410.html

    然后 看上去正规一点的教程 应该是这个网址:

    http://www.360doc.com/content/14/0721/09/16319846_395862328.shtml

    反正就 四种方法:

    开放寻址法, 再哈希法,链地址法,建立公共溢出区。

    具体方法的实现 就不写了,链接里有。

    后面再写一下 目前应用广发的几种hash算法实例:

    MD5 和 SHA-1 可以说是目前应用最广泛的Hash算法
    以及 著名的ELFhash算 

  • 相关阅读:
    GNU GPL介绍
    《Getting Started with WebRTC》第一章 WebRTC介绍
    进一步解 apt-get 的几个命令
    状态模式----C++实现
    boost库asio详解1——strand与io_service区别
    Timer.5
    Timer.4
    Timer.3
    MFC定时器
    boost.asio系列——Timer
  • 原文地址:https://www.cnblogs.com/tuyf/p/7453034.html
Copyright © 2011-2022 走看看