zoukankan      html  css  js  c++  java
  • Nutch的安装和配置

    Nutch是一个Java实现的网络爬虫。Nutch的安装可以使用二进制包,也可以使用源代码安装。这里介绍用二进制包安装。

    1. 下载apache-nutch-1.12-bin.tar.gz,并且解压,解压后会形成一个apache-nutch-1.12文件夹;

    2. 编辑conf/nutch-site.xml文件:

    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <!-- Put site-specific property overrides in this file. -->
    
    <configuration>
    
        <property>
            <name>http.agent.name</name>
            <value>My Spider</value>
        </property>
    
        <property>
            <name>plungin.folders</name>
            <value>/opt/apache-nutch-1.12/plugins</value>
        </property>
    
    </configuration>

    3. 进入apache-nutch-1.12文件夹,输入命令:

    mkdir -p ./urls
    cd urls
    touch seed.txt

    编辑seed.txt文件,加上你想要抓取的网站,如:

    http://xxxx.com/

    编辑conf/regex-urlfilter.txt文件,加上一个正则表达式:

    # accept anything else
    +^http://([a-z0-9]*.)*xxxx.com/

    这样,就会抓取http://xxxx.com/这个网站的所有网页。

    4. 新建一个crawls目录,运行:

    bin/crawl urls/seed.txt crawls 10

    这样就可以进行抓取网页了,其中crawls是抓取数据存放的目录,10是轮数。

    5. 抓取结束以后,会在crawls目录下产生三个文件夹:crawldb、linkdb、segments,使用下面的命令将二进制文件导出为文本文件:

    bin/nutch readseg -dump ./crawls/segments/20170328163131 ./crawls/segments/2017032816313_dump

    然后就可以用gedit打开文本文件查看抓取结果了。

  • 相关阅读:
    PAT B1045 快速排序 (25 分)
    PAT B1042 字符统计 (20 分)
    PAT B1040 有几个PAT (25 分)
    PAT B1035 插入与归并 (25 分)
    PAT B1034 有理数四则运算 (20 分)
    PAT B1033 旧键盘打字 (20 分)
    HDU 1231 最大连续子序列
    HDU 1166 敌兵布阵
    HDU 1715 大菲波数
    HDU 1016 Prime Ring Problem
  • 原文地址:https://www.cnblogs.com/mstk/p/6636267.html
Copyright © 2011-2022 走看看