zoukankan      html  css  js  c++  java
  • hash 哈希查找复杂度为什么这么低?

    hash 哈希查找复杂度为什么这么低?

    (2017-06-23 21:20:36)
      分类: c
    from:
    作者:jillzhang
    出处:http://jillzhang.cnblogs.com/ 
     
    还有:http://blog.csdn.net/wendavidoi/article/details/50670016
    http://www.cnblogs.com/dolphin0520/archive/2012/09/28/2700000.html
    哈希算法,又称散列算法,能大大提高搜索的效率。它的主要工作是将一个数字映射到一个表格的某个地方打一个比喻,哈希就像那些公司前台的接待人员,直接将领导的电话记住。而哈希,就是将每一个元素的位置记住,就是我们不去找某个东西,而是将它的位置算出来。
     

    1)hash它为什么对于键-值查找性能高
    学过数据结构的,都应该晓得,线性表和树中,记录在结构中的相对位置是随机的,记录和关键字之间不存在明确的关系,因此在查找记录的时候,需要进行一系列的关键字比较,这种查找方式建立在比较的基础之上,在.net中(Array,ArrayList,List)这些集合结构采用了上面的存储方式。
    比如,现在我们有一个班同学的数据,包括姓名,性别,年龄,学号等。假如数据有

    姓名 性别 年龄 学号
    张三 15 1
    李四 14 2
    王五 14 3

     

    假如,我们按照姓名来查找,假设查找函数FindByName(string name);
    1)查找“张三”
    只需在第一行匹配一次。
    2)查找"王五"
       在第一行匹配,失败,
       在第二行匹配,失败,
       在第三行匹配,成功
    上面两种情况,分别分析了最好的情况,和最坏的情况,那么平均查找次数应该为 (1+3)/2=2次,即平均查找次数为(记录总数+1)的1/2。
    尽管有一些优化的算法,可以使查找排序效率增高,但是复杂度会保持在log2n的范围之内。
    如何更更快的进行查找呢?我们所期望的效果是一下子就定位到要找记录的位置之上,这时候时间复杂度为1,查找最快。如果我们事先为每条记录编一个序号,然后让他们按号入位,我们又知道按照什么规则对这些记录进行编号的话,如果我们再次查找某个记录的时候,只需要先通过规则计算出该记录的编号,然后根据编号,在记录的线性队列中,就可以轻易的找到记录了 。
    注意,上述的描述包含了两个概念,一个是用于对学生进行编号的规则,在数据结构中,称之为哈希函数,另外一个是按照规则为学生排列的顺序结构,称之为哈希表。
    仍以上面的学生为例,假设学号就是规则,老师手上有一个规则表,在排座位的时候也按照这个规则来排序,查找李四,首先该教师会根据规则判断出,李四的编号为2,就是在座位中的2号位置,直接走过去,“李四,哈哈,你小子,就是在这!”
    看看大体流程:
      
    从上面的图中,可以看出哈希表可以描述为两个筒子,一个筒子用来装记录的位置编号,另外一个筒子用来装记录,另外存在一套规则,用来表述记录与编号之间的联系。这个规则通常是如何制定的呢?

     
     
    直接取值法
    直接取值法,就是直接以当前元素的值来决定它的位置。化成函数就是 H(x)=x。这种方法的好处是不可能冲突,除非两个元素一模一样。而且这样甚至能够保证在哈希表里面的元素有序,就像计数排序一样。
    但是这种方法也有缺点,当x的取值太大的时候,耗费的空间同时也会很大。举个例子,如果有3个数:3,6814246421,1654654614874213,那光是这三个数,就已经耗费了巨大的内存空间了。
    除法哈希
    既然直接取值会耗费很大的内存空间,那我们可以模一下这个变量,一般来说,模一个数组长度,就是不错的选择。这样既可以刚刚好放下这些数据,又不会耗费太多的空间。化成函数就是H(x)=x%m。但是这样就会出现冲突。所谓冲突,就是指两个取值不一样的数,它们在哈希后得出的值相同,映射到了同一个位置。也就是说,a!=b,但H(a)==H(b)。在这里我们先不讨论冲突。那怎样尽量避免冲突呢?答案就是:模一个素数!可以证明,当H(x)定义中x%m的m的因数越多,则冲突的概率就越大。不过,其实最好的方法还是增大表格的大小,这样相应的,x%m的取值也会更为多样化。
    位运算哈希
    除法哈希的缺点之一,是容易冲突,而且有的时候甚至还不与整一个数相关。下面我就介绍一种位运算哈希,这种哈希主要运用乘法,而且多是位运算,速度较快。同时,除法哈希要求数组长度最好是一个素数,但在计算机中,我们更喜欢让数组长度为2的幂数,这样就不会浪费空间。确切地说,就是利用位运算,充分的混合元素。举个例子,ELFHash就是一个很好的实现。
     
    乘法哈希
    最后介绍一种最实用且最容易记的哈希算法。这种哈希函数叫做乘法哈希。其原理就是将原数看做一个n进制的数在转换回十进制。这种哈希算法的典型实现有BKDRHash。理解起来很容易,也是奥赛中经常用到的算法,一般来说冲突率非常小。
     
    顺带附上BKDRHash的核心代码(已过测试):

    unsigned int BKDRHash(char *key){
    unsigned int seed=131;
    unsigned int hash=0;

    while(*key)
    {
    hash = hash * seed + (*key++);
    }
    return hash%MOD;
    }
    乘法哈希较常用到
    hash <wbr>哈希查找复杂度为什么这么低?
  • 相关阅读:
    Asp.NET 4.0 ajax实例DataView 模板编程1
    ASP.NET 4.0 Ajax 实例DataView模板编程 DEMO 下载
    部分东北话、北京话
    .NET 培训课程解析(一)
    ASP.NET 4.0 Ajax 实例DataView模板编程2
    ASP.NET Web Game 架构设计1服务器基本结构
    ASP.NET Web Game 构架设计2数据库设计
    TFS2008 基本安装
    Linux上Oracle 11g安装步骤图解
    plsql developer远程连接oracle数据库
  • 原文地址:https://www.cnblogs.com/yibutian/p/9626602.html
Copyright © 2011-2022 走看看