zoukankan      html  css  js  c++  java
  • Nutch的安装和配置

    Nutch是一个Java实现的网络爬虫。Nutch的安装可以使用二进制包,也可以使用源代码安装。这里介绍用二进制包安装。

    1. 下载apache-nutch-1.12-bin.tar.gz,并且解压,解压后会形成一个apache-nutch-1.12文件夹;

    2. 编辑conf/nutch-site.xml文件:

    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <!-- Put site-specific property overrides in this file. -->
    
    <configuration>
    
        <property>
            <name>http.agent.name</name>
            <value>My Spider</value>
        </property>
    
        <property>
            <name>plungin.folders</name>
            <value>/opt/apache-nutch-1.12/plugins</value>
        </property>
    
    </configuration>

    3. 进入apache-nutch-1.12文件夹,输入命令:

    mkdir -p ./urls
    cd urls
    touch seed.txt

    编辑seed.txt文件,加上你想要抓取的网站,如:

    http://xxxx.com/

    编辑conf/regex-urlfilter.txt文件,加上一个正则表达式:

    # accept anything else
    +^http://([a-z0-9]*.)*xxxx.com/

    这样,就会抓取http://xxxx.com/这个网站的所有网页。

    4. 新建一个crawls目录,运行:

    bin/crawl urls/seed.txt crawls 10

    这样就可以进行抓取网页了,其中crawls是抓取数据存放的目录,10是轮数。

    5. 抓取结束以后,会在crawls目录下产生三个文件夹:crawldb、linkdb、segments,使用下面的命令将二进制文件导出为文本文件:

    bin/nutch readseg -dump ./crawls/segments/20170328163131 ./crawls/segments/2017032816313_dump

    然后就可以用gedit打开文本文件查看抓取结果了。

  • 相关阅读:
    mysql删除重复数据
    Spring缓存注解
    Spring事物不回滚
    java.net.MalformedURLException: no protocol: www.baidu.com
    shred:减少删除文件的还原度
    rm命令防止误操作
    软链接:要根据软链接来写路径
    linux与windows文本文件间的转换:针对回车换行
    cat:文本编辑工具
    算术运算;赋值
  • 原文地址:https://www.cnblogs.com/mstk/p/6636267.html
Copyright © 2011-2022 走看看