在哈希表这种数据结构中,使用将在 5-3 节讲解的“哈希函数”,可以使数据的查询效率得到显著提升。
哈希表存储的是由键(key)和值(value)组成的数据。例如,我们将每个人的性别作为数据进行存储,键为人名,值为对应的性别。
为了和哈希表进行对比,我们先将这些数据存储在数组中
此处准备了 6 个箱子(即长度为 6 的数组)来存储数据。假设我们需要查询Ally的性别,由于不知道Ally的数据存储在哪个箱子里,所以只能从头开始查询。这个操作便叫作“线性查找”
查找到4号箱子的时候,发现其中数据的键为Ally。把键对应的值取出,我们就知道 Ally 的性别为女(F)了。
数据量越多,线性查找耗费的时间就越长。由此可知 :由于数据的查询较为耗时,所以此处并不适合使用数组来存储数据。
但使用哈希表便可以解决这个问题。首先准备好数组,这次我们用5个箱子的数组来存储数据。
使用哈希函数(Hash)计算 Joe 的键,也就是字符串“Joe”的哈希值。得到的结果为4928
将得到的哈希值除以数组的长度5,求得其余数。这样的求余运算叫作“mod 运算”。此处mod运算的结果为3。
因此,我们将Joe的数据存进数组的3号箱子中。重复前面的操作,将其他数据也存进数组中。
Nell键的哈希值为6276,mod 5的结果为1。本应将其存进数组的1号箱中,但此时1号箱中已经存储了 Sue 的数据。这种存储位置重复了的情况便叫作“冲突”
遇到这种情况,可使用链表在已有数据的后面继续存储新的数据。
Ally键的哈希值为9143,mod 5的结果为3。本应将其存储在数组的3号箱中,但3号箱中已经有了Joe的数据,所以使用链表,在其后面存储Ally的数据。
解说
在哈希表中,我们可以利用哈希函数快速访问到数组中的目标数据。如果发生哈希冲突,就使用链表进行存储。这样一来,不管数据量为多少,我们都能够灵活应对。如果数组的空间太小,使用哈希表的时候就容易发生冲突,线性查找的使用频率也会更高;反过来,如果数组的空间太大,就会出现很多空箱子,造成内存的浪费。因此,给数组设定合适的空间非常重要。