zoukankan      html  css  js  c++  java
  • Fast Search:爬网测试 金大昊(jindahao)

    今天对fastsearch爬业务公开数据做了详细的记录,由于sharepoint默认支持100万条爬网数据量,所以只爬了100万条(如果需要爬更多的数据可设置)。以下是记录的爬网数据:

    用时(hh:mm)爬网数量(条)硬盘剩余(G)内存(G) cup占用(%)

    --------------------------------------------------------

    00:00       88600      79       8.1        1
    00:44       88601      79       8.2        1
    00:55      107300      76.5     9.4       99
    00:58      110900      74.8     9.4       99
    01:01      117000      74.1     9.4      100
    01:07      133100      75.7     9.4      100
    01:16      157600      75.4     9.4      100
    01:21      171600      75.1     9.4      100
    01:43      233400      72.4     9.4      100
    03:03      460300      67.1     9.4      100
    03:36      550300      68.8     9.4      100
    04:20      671300      64.3     9.2      100
    05:10      805200      59.7     9.2      100
    05:28      854100      67.0     8.7      100
    06:57     1088602      63.4     8.6        1 

    单看上面的数据可以看出每小时所爬数据量为20万,速度不快,不如solr,我认为这个不好比较,原因如下:

    1. 我安装fast用的是虚机,solr用实体机
    2. fast是爬网,solr是推送数据,如果需要爬网需要开发

    只从表面对比fast的好处如下:

    1. sharepoint可边爬网边查询,solr需要开发
    2. fast搜索速度快,具体指标如下:

    关键字   搜索结果数据量(条)   第一次搜索用时(秒)   第二次搜索用时(秒)

    ---------------------------------------------------------------------------------

     ‘1’            1,088,522               0.1400                   0.0150

       ‘订单’      1,001,962               0.1370                   0.0140

    这是虚机的测试结果,如果采用实体机我相信会更快。

    还可以看出在第二次搜索时明显又快了,这很容易解释因为采用了缓存。

    当然solr也有好处就是开源,而fast是需要付出3万多美元的或更多。

    也发现了个问题,就是fast在爬网的时候很耗cpu,使得网站访问速度变慢,这也就可以解释为什么官网要求sharepoint和fast不要安装在一起的原因了。

    作者:金大昊

    努力过就不后悔

  • 相关阅读:
    Python_Tips[3] -> sort/sorted 排序函数
    Python_Tips[2] -> 函数延后估值及字节码分析
    Python_Tips[1] -> 利用 Python 的字典实现 Switch 功能
    Python_Tips[0] -> 关于 import
    Python与数据库[2] -> 关系对象映射/ORM[4] -> sqlalchemy 的显式 ORM 访问方式
    Python与数据库[2] -> 关系对象映射/ORM[3] -> sqlalchemy 的声明层 ORM 访问方式
    Python与数据库[2] -> 关系对象映射/ORM[2] -> 建立声明层表对象的两种方式
    JS实现网页选取截屏 保存+打印 功能(转)
    nodejs+koa2 实现一个get请求
    windwos下安装使用nginx(转)
  • 原文地址:https://www.cnblogs.com/jindahao/p/2442899.html
Copyright © 2011-2022 走看看