zoukankan      html  css  js  c++  java
  • 基于redis的IP地址快速查询

    在一些大数据处理中,我们需要用到IP地址查询,一般为了查询一个IP属于哪个地址,我们通常需要根据一个IP数据库来查询,网络上比较常用的IP库是纯真IP数据库。IP数据库里面的记录一般存储方式为IP的开始和结束的数字段,比如 "221.179.172.1-221.179.175.254 中国移动/北京市" 我们通常把IP转换为长整型存储为"3719539713,3719540734,中国移动,北京市",我们查询的时候就可以 先把IP转换为长整型,然后去大于开始,小于结束这个条件去查询,但是一般IP数据库都有几十万条数据,我们去这样查询,即使建立索引或者全部放到内存查询,效率还是不太高,通常1秒查询几百次,看上去效率已经很高了,但是试想如果我要查询1亿次,就需要几百个小时,在做大数据量数据处理的时候,这个速度还是很慢的。

    为了提高查询速度,我们引入redis,redis是目前热门的Nosql数据库,很多大的公司都在用,具体的用法大家可以查查资料,redis中有一种数据结构是有序集合 sortset,我的IP数据库可以转化为sortset存储, 一个sortset中存储所有的IP记录(所有的IP地址区间不允许重复),结构为value中存储IP的开始(长整型),结束(长整型),省份等,分别依照逗号隔开,score中存放的是IP的结束值(长整型)

     举例为

    value                          score

    1,5,中国移动,北京市       5

    10,20,中国联通,上海市  20

    比如我们查询一个IP,IP转化为长整型的数字为 2,然后我们查询的时候就通过sortset 的zrangebyscore ranges 2 +inf LIMIT 0 1 这样我们就查询出来大于2的第一条记录,这样我们查询出来记录为 “1,5,中国移动,北京市” 然后我们在判断一下 我们要查询的地址在不在 1,5之间,2在1,5之间,所以查出来了2对应的IP地址为中国移动北京市,再比如我们要查询的IP地址数字为 8,通过zrangebyscore ranges 8 +inf LIMIT 0 1 我们查询到了 10,20,中国联通,上海市,但是8不在10,20之间,所以查询不到此IP对应的地址。

    通过这个思路,我写了个测试程序,100000次查询,IP记录172738条,耗时5.2秒左右,差不多一秒钟两万次,我在windows下测试的,机器配置(固态硬盘)为

    redis记录:

    程序运行结果

    当然我这个模拟测试,不是真实的IP地址,如果换成真实的IP,差距多大,大家自行验证。

    参考

    https://groups.google.com/forum/#!topic/redis-db/lrYbkbxfQiQ

  • 相关阅读:
    kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries.
    MYSQL 大数据
    MYSQL 数据库优化
    原始代理需要改进的地方
    JDK动态代理
    使用CGLIB生成代理
    Spring
    Struts2面试题
    hibernate面试题
    Mac下创建隐藏用户
  • 原文地址:https://www.cnblogs.com/weiguang3100/p/4342233.html
Copyright © 2011-2022 走看看