zoukankan      html  css  js  c++  java
  • Nutch2.x 演示抓取第一个网站

    http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral

    下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。

    在编译后 bin目录下有两个脚本文件:nutch 和 crawl ,在命令行下执行各命令即可查看具体使用说明:

    在Nutch2.x版本中,爬取流程所涉及的命令做了优化,整合到了crawl 命令中,使用者只需要执行一个命令 crawl 即可完成爬取流程,而不必像老版本中那样,必须依次地执行 inject、generate、fetch、parse等命令。对于初学者来说仍然可以依次执行相关命令 ,仔细观察每执行一步引起的数据变化。下面以抓取 本人博客网站为例详细说明下抓取的过程:

    [准备]:创建需要抓取的URL

    • 首先启动hbase (本文是在单机模式下演示的)
    • mkdir -p urls
    • cd urls
    • touch seed.txt
    • echo ‘http://micmiu.com’ >seed.txt

    下面每一步执行后都可以查看HBase中数据的变化情况。

    [第一步]:inject

    查看HBase中得数据:

    [第二步]:generate

    查看HBase中得数据:

    [第三步]:fetch

    ps:上一步执行的日志中 GenerateorJob batch id 的值 作为下面命令的参数 batchId的值

    也可以从hbase中重查询到:

    下面执行 fetch 命令:

    查看HBase中得数据:

    [第四步]:parse

    查看HBase中得数据:

    [第五步]:updatedb

    查看HBase中得数据:

    —————–  EOF @Michael Sun —————–

  • 相关阅读:
    Django RequestContext用法
    【Django】Django命令(Manager.py)
    Django:快速搭建简单的Blog
    win7下安装Ubuntukylin-14.04双系统
    activity生命周期
    Activity(三)
    BZOJ 3944 Sum 解题报告
    BZOJ 3901 棋盘游戏 解题报告
    web框架之socket
    新式类__new__()方法
  • 原文地址:https://www.cnblogs.com/zkwarrior/p/5392217.html
Copyright © 2011-2022 走看看