今天对fastsearch爬业务公开数据做了详细的记录,由于sharepoint默认支持100万条爬网数据量,所以只爬了100万条(如果需要爬更多的数据可设置)。以下是记录的爬网数据:
用时(hh:mm)爬网数量(条)硬盘剩余(G)内存(G) cup占用(%)
--------------------------------------------------------
00:00 88600 79 8.1 1
00:44 88601 79 8.2 1
00:55 107300 76.5 9.4 99
00:58 110900 74.8 9.4 99
01:01 117000 74.1 9.4 100
01:07 133100 75.7 9.4 100
01:16 157600 75.4 9.4 100
01:21 171600 75.1 9.4 100
01:43 233400 72.4 9.4 100
03:03 460300 67.1 9.4 100
03:36 550300 68.8 9.4 100
04:20 671300 64.3 9.2 100
05:10 805200 59.7 9.2 100
05:28 854100 67.0 8.7 100
06:57 1088602 63.4 8.6 1
单看上面的数据可以看出每小时所爬数据量为20万,速度不快,不如solr,我认为这个不好比较,原因如下:
- 我安装fast用的是虚机,solr用实体机
- fast是爬网,solr是推送数据,如果需要爬网需要开发
只从表面对比fast的好处如下:
- sharepoint可边爬网边查询,solr需要开发
- fast搜索速度快,具体指标如下:
关键字 搜索结果数据量(条) 第一次搜索用时(秒) 第二次搜索用时(秒)
---------------------------------------------------------------------------------
‘1’ 1,088,522 0.1400 0.0150
‘订单’ 1,001,962 0.1370 0.0140
这是虚机的测试结果,如果采用实体机我相信会更快。
还可以看出在第二次搜索时明显又快了,这很容易解释因为采用了缓存。
当然solr也有好处就是开源,而fast是需要付出3万多美元的或更多。
也发现了个问题,就是fast在爬网的时候很耗cpu,使得网站访问速度变慢,这也就可以解释为什么官网要求sharepoint和fast不要安装在一起的原因了。
作者:金大昊
努力过就不后悔