一、前言
有做过IP归属地查询功能的朋友应该都有听说过纯真IP库,纯真IP库查询类似这样:
若你仅需要根据IP搜索出用户的归属地文字然后显示出来,只要按照该IP库的规则进行二分查找并显示就OK了。(格式详解)
但如果你需要根据IP获取归属地文字描述,然后进一步与自己已有的行政地区数据表关联起来该如何处理呢?
- 这样? 根据IP获取归属地文字描述 -> 正则获取地区名 -> 根据地区名去数据库或缓存中获取地区ID
- 还是这样?将IP库数据导入数据库中(ip_start, ip_end, area_code) -> SQL查找
粗看这两种应该是都可以实现,但是效率呢?都很差!特别是面对并发稍高的应用,这两种方式都经不起考验。
为什么不根据纯真IP库(其他IP库也可以)的数据与自己的地区数据关联起来,用自己的地区ID来代替纯真IP库的地区描述,最后制作一个自己的二进制IP库文件呢?
让我们进入正题,看看如何根据纯真IP库数据制作一个自己的二进制IP库文件。
注:本文只说明大致思路,没有详细代码,谢谢
二、准备工作
我们需要准备好两部分的数据:
1. 纯真IP库解压后的txt文件。
纯真IP库下载后会有个ip.exe工具,使用上面的解压即可生成。
生成的数据如图1-1,我这个版本有大概444290条。
图1-1
2. 自己的国家省市级联数据表。
这个网上应该比较多,自己进行导入,表结构类似(area_id, area_level, area_name, area_pid),分别代表地区ID,地区等级,地区名称,父地区ID。
当然你也可以自己使用不同的结构,不影响我们这次的处理。
三、过程
数据已经有了,现在来规划下我们需要生成的IP库的机构。
从标题中就知道,我们需要生成的IP库是二进制的数据包,而不是普通文本文件,那么我们的IP库文件结构应该是怎样的呢?
如图所示:
可以看到,我们的结构是这样的:
- 头部。位于文件的前8个字节。前4字节存放32位整数,值为数据部分的开始在文件中的位置;后4字节也存放32位整数,值为数据部分的结束在文件中的位置
- 主体数据部分。由N个固定结构体组成,每个结构体12字节,为一条IP范围数据(ip_start, ip_end, area_code)。结构体的三个部分也分别为32位有符号整数,各4字节。(area_code若是量小的话也可以使用1个字符)
IP数据包的结构已经定下来了,后面就是一步步处理了。
1. 逐条读取IP文本文件内容,IP转为32位有符号整数(自定义的ip2long),地区文字分析获取到最终地区
a. IP文本文件每行的规则为:前15字节为IP起始地址,后15字节为IP结束地址,最后为地区文字描述。
b. IP转为32位有符号整数只占4字节,且解决了PHP函数ip2long在32位与64位系统下值不同的问题,新的函数如下:
function ip2Long32($ip) { $ip = unpack('l', pack('l', ip2long($ip))); return $ip[1]; } // end func
当然,你也可以自己开发PHP扩展,详见这边:http://www.cnblogs.com/iblaze/archive/2013/06/02/3112603.html
c. 地区需要获取到各级别地区名称(包括省、市、县、区等,这边国外只保留国家),正则如图:
2. 将获取到的地区信息转为地区ID
这部分处理我不太好描述,因为可能每个人用到的地区都不一样,但是大致原理就是先根据最低级地区名称去查找ID(看实际情况,有可能要去掉市、县之类),若是没有则查找上一级,如此循环,直到获取到地区ID。
若是没有查找到地区ID,则都归入未知。
3. 压缩,压缩后的文件约为5.08M
压缩规则如图,format中的值对应pack中的类型:
这边有个地方必须提示下,由于IP转为有符号32位整数,则128.0.0.0以后的IP都会为负数,所以需要判断负数,并放入我们IP库的前面去,毕竟是使用二分查找,需要为有序数据。
4. 查找IP,使用二分查找,44W条数据最多只需要搜索19次,类似如下:
4. 单个测试,看起来速度还可以
5. 简单压测看效果
a. ab压测,使用本机的ab
b. 测试脚本在linux测试机(普通PC机)
c. 压测脚本如下:
d. 压测语句: ab -n 10000 -c 50 http://192.168.206.71/ipdata.php?type=php
表现还不错。呵呵
结束了,有什么更好的方式可以一起讨论下,谢谢~