zoukankan      html  css  js  c++  java
  • nutch 1.7导入Eclipse

    1.下载Nutch1.7的包 apache-nutch-1.7-src.zip,解压之后应该包括 bin,conf,src等目录

    2.将解压之后的 apache-nutch-1.7 文件夹放到eclipse的workspace中

    3.创建工程(工程类型是 java Project from existing Ant Buildfile) 选择apache-nutch-1.7/build.xml, Project Name为apache-nutch-1.7

    4.右键 conf目录  bulidPath --> use as sourceFolder,并修改项目的编码方式为UTF8

    5. 修改conf下的nutch-site.xml,在configuration标签对中添加如下代码:

    <property>

       <name>http.agent.name</name>

        <value>test</value>

    </property>

    6. 用ant编译build.xml,勾选jar, job 和runtime(默认就勾选上了)

    7. 将生成的build/ jar  job  plugins复制到根目录下面

    注意,每次修改了conf目录中的配置文件,必须重新编译,重新把jar job plugins复制一份,修改才能生效

    8.在工程的根目录下建立urls文件夹,其中新建一个seed.txt文件,里边就是我们需要爬取的目标网站,如果需要爬多个网站,每个网站占一行

    9.修改crawl-urlfilter.txt,只过滤我们想要的网站(下边的正则表达式表示只过滤以.163结束的URL地址)

    # accept hosts in MY.DOMAIN.NAME

    +^http://([a-z0-9]*.)*163.com/

    10.手动运行 org.apache.nutch.crawl包里边的Crawl.java  需要一下的参数

    Usage: Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i] [-topN N]

    urlDir指的是需要爬取的url地址(就是上边我们建立的urls文件夹里seed.txt里的URL)这里我们写 urls

    sorlURL是slor服务的地址,暂时可以不管

    -dir是爬取之后的文件存放的位置 我们可以再建一个和urls平级的文件夹 dir

    -threads 是抓取的时候启动的线程的数量

    -depth 指的是抓取的深度

    -topN  每次抓取的最大page数量

    为Crewl.java 添加如下运行参数 Crawl urls -dir dir -threads 2 -depth 3 -topN 5 然后就可以抓取了

    在windows下可能会遇到的问题:

    1 fail to set permissions of path staging 0700

    nutch1.4往上的版本会有这个问题,hadoop设置的文件权限问题,linux下没有问题,

    解决的办法参看CSDN的这篇文章:http://blog.csdn.net/mengfei86/article/details/8155544  修改一下Hadoop-core1.2.0的源代码,注释掉检查文件权限的那段代码 ,重新编译一下。 替换掉apache-nutch-1.7/build/lib下的Hadoop-core-1.2.0.jar即可。

  • 相关阅读:
    python -m pip install captcha --user
    用隐马尔可夫模型做基因预测
    爬取知乎如何通俗易懂地解释「协方差」与「相关系数」的概念?
    梯度弥散与梯度爆炸
    CIFAR-10数据集图像分类【PCA+基于最小错误率的贝叶斯决策】
    CIFAR-10 dataset 的下载与使用
    JMeter Don't use GUI mode for load testing!
    JMeter5.0版本安装及配置
    POSTMAN之断言
    PLSQL基础使用
  • 原文地址:https://www.cnblogs.com/jiaoyiping/p/3350268.html
Copyright © 2011-2022 走看看