zoukankan      html  css  js  c++  java
  • Fast Search:爬网测试 金大昊(jindahao)

    今天对fastsearch爬业务公开数据做了详细的记录,由于sharepoint默认支持100万条爬网数据量,所以只爬了100万条(如果需要爬更多的数据可设置)。以下是记录的爬网数据:

    用时(hh:mm)爬网数量(条)硬盘剩余(G)内存(G) cup占用(%)

    --------------------------------------------------------

    00:00       88600      79       8.1        1
    00:44       88601      79       8.2        1
    00:55      107300      76.5     9.4       99
    00:58      110900      74.8     9.4       99
    01:01      117000      74.1     9.4      100
    01:07      133100      75.7     9.4      100
    01:16      157600      75.4     9.4      100
    01:21      171600      75.1     9.4      100
    01:43      233400      72.4     9.4      100
    03:03      460300      67.1     9.4      100
    03:36      550300      68.8     9.4      100
    04:20      671300      64.3     9.2      100
    05:10      805200      59.7     9.2      100
    05:28      854100      67.0     8.7      100
    06:57     1088602      63.4     8.6        1 

    单看上面的数据可以看出每小时所爬数据量为20万,速度不快,不如solr,我认为这个不好比较,原因如下:

    1. 我安装fast用的是虚机,solr用实体机
    2. fast是爬网,solr是推送数据,如果需要爬网需要开发

    只从表面对比fast的好处如下:

    1. sharepoint可边爬网边查询,solr需要开发
    2. fast搜索速度快,具体指标如下:

    关键字   搜索结果数据量(条)   第一次搜索用时(秒)   第二次搜索用时(秒)

    ---------------------------------------------------------------------------------

     ‘1’            1,088,522               0.1400                   0.0150

       ‘订单’      1,001,962               0.1370                   0.0140

    这是虚机的测试结果,如果采用实体机我相信会更快。

    还可以看出在第二次搜索时明显又快了,这很容易解释因为采用了缓存。

    当然solr也有好处就是开源,而fast是需要付出3万多美元的或更多。

    也发现了个问题,就是fast在爬网的时候很耗cpu,使得网站访问速度变慢,这也就可以解释为什么官网要求sharepoint和fast不要安装在一起的原因了。

    作者:金大昊

    努力过就不后悔

  • 相关阅读:
    Zookeeper的功能以及工作原理
    高性能Server---Reactor模型
    python——PEP8 Python 编码规范整理
    python——数据结构之单链表的实现
    Git——使用gitignore建立项目过滤规则
    算法与数据结构——最大子序列和问题
    Django——Django,uwsgi Nginx组合建站
    使用Nginx+uWSGI+Django方法部署Django程序(下)
    使用Nginx+uWSGI+Django方法部署Django程序(上)
    Python——实现代理服务功能
  • 原文地址:https://www.cnblogs.com/jindahao/p/2442899.html
Copyright © 2011-2022 走看看