zoukankan      html  css  js  c++  java
  • Larbin的使用配置

    一、配置larbin.conf文件

    Larbin.conf是larbin的基本配置文件,里面有很多的配置选项,以下我只列举我经常用到的一些。

    httpPort

    8081

    利用web查看时的端口号

    pagesConnexions 

    100 

    并行链接的最大数目

    pagesConnexions

    100

    并行链接的最大数目

    depthInSite

     5

    爬虫的深度

    waitDuration

    30

    连续两次访问统一个服务器的间(以秒为单位)

    startUrl

    http://www.tianya.cn

    种子页面

    limitToDomain

     tianya.cn end

    域名的限制,可以加入多个,以end结尾

    二、配置option.h

    
    
    //#define DEFAULT_OUTPUT do nothing...
    #define SIMPLE_SAVE // save in files named save/dxxxxxx/fyyyyyy
    //#define MIRROR_SAVE // save in files (respect sites hierarchy)
    //#define STATS_OUTPUT // do some stats on pages

    option.h我用到的主要配置就是output module 。Larbin有四种output module:default、simple、mirror和stats。

    default:不会保存任何的东西。

    simple: 简单的把html文件按域名为文件夹分开,文件以fxxxx命名。xxxx为编号,还会有一个index文件,建议编号和url的对应。

    mirror: 把html文件按照它在网站上的结构保存。如http://www.cnblogs.com/lovesaber/archive/2012/02/28/2371618.html则会保存在文件夹cnblogd.com/lavesaber/archive/2012/02/28目录下,且文件名为2371618.html。

    配置好上面的一些参数后,就可以输入./larbin运行larbin了。运行后可以通过web进行查看。在浏览器中输入http://localhost:8081/可以查看现在的爬虫状态,如下图。

      

     

     

  • 相关阅读:
    使用nginx搭建https服务器
    CentOS6.*安装gitolite
    Nginx 下配置SSL证书的方法
    Nginx Location配置总结
    最优二叉树(哈夫曼树)知识点
    utf8字节
    utf8字节
    nginx 配置日志
    nginx 配置日志
    elk 索引
  • 原文地址:https://www.cnblogs.com/lovesaber/p/2585824.html
Copyright © 2011-2022 走看看