zoukankan      html  css  js  c++  java
  • mysql优化之伪哈希索引

    想法非常简单,在标准的B-Tree索引上创建一个伪哈希索引。它和真正的哈希索引不是一回事,因为它还是使用B-Tree索引进行查找。然而,它将会使用键的哈希值进行查找,而不是键自身。你所要做的事情就是在where子句中手动地定义哈希函数。

    例子:URL查找。

    URL通常会导致B-Tree索引变大,因为它们非常长。通常会按照下面的方式来查找URL表。

    mysql>select id from url where url='http://www.mysql.com';

    但是,如果移除掉url列上的索引并且给表添加一个被索引的url_src列,就可以按照下面的方式进行查询:

    mysql>select id from url where url='http://www.mysql.com' and url_src=CRC32('http://www.mysql.com');

    mysql查询优化器注意到url_src列上有很小的,选择性很高的索引,并且它会使用里面的值进行索引查找。即使有几列相同的url_src值,也很容易进行精确的对比来确定需要的行。替代方案是把完整的URL索引为字符串,它要慢很多。

    这个办法的一个缺点就是要维护哈希值。你可以手工进行维护,在mysql5.0 以上版本中,可以使用触发器来进行维护。

    1.创建一个表:

    create table pseudohash(

    Sql代码  收藏代码
    1.     id int unsigned NOT NULL auto_increment,  
    2.     url varchar(255) NOT NULL,  
    3.     url_src int unsigned NOIT NULL DEFAULT 0,  
    4.     PRIMARY KEY(id)  
    5. );  

    接下来创建触发器。我们先暂时更新一下命令分隔符,这样就可以在触发器中使用分号:

    DELIMITER |

    Sql代码  收藏代码
    1. CREATE TRIGGER pseudohash_src_ins BEFORE INSERT ON pseudohash FOR EACH ROW BEGIN SET NEW.url_src = crc32(NEW.url);  
    2. END;  
    3. |  
    4. CREATE TRIGGER pseudohash_src_upd BEFORE UPDATE ON pseudohash FOR EACH ROW BEGIN SET NEW.url_src = crc32(NEW.url);  
    5. END;  
    6. |  
    7. DELIMITER;  

    剩下的工作就是验证触发器自动维护了哈希值。

    如果使用这种方式,就不应该使用SHA1()和MD5()这此哈希函数。它们返回很长的字符串,会浪费大量的存储空间并且减慢比较速度。它们是强加密函数,被设计为不产生任务冲突。这并不是我们的目标。简单的哈希函数能在有较好性能的同时保证可接受的冲突率。当然,如果表有很多行并且CRC32()产生了很多冲突,就要实现自己的64位哈希函数,要确保自己的函数返回整数,而不是字符串。

    mysql>select conv(right(md5('http://www.mysql.com/'),16),16,10) as hash64;

  • 相关阅读:
    JavaScript数据类型和变量学习小记
    如何在windows下安装Python的PIL库
    maoguy的第一条博客
    Ⅲ. 通过git管理github上托管的代码
    Ⅱ. Git的本地操作--下(不会使github远程仓库发生任何改变)
    Ⅰ. Git的本地操作--上(不会使github远程仓库发生任何改变)
    Linux下Vi/Vim编辑器使用案例(基于Ubuntu)
    Selenium+python上传本地文件或者图片
    Selenium+python操作id为动态变化的frame(iframe)
    Quick-cocos2d-x v3.3 SocketTCP链接(转)
  • 原文地址:https://www.cnblogs.com/lpfuture/p/5772072.html
Copyright © 2011-2022 走看看