zoukankan      html  css  js  c++  java
  • Nutch2.x 演示抓取第一个网站

    http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral

    下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。

    在编译后 bin目录下有两个脚本文件:nutch 和 crawl ,在命令行下执行各命令即可查看具体使用说明:

    在Nutch2.x版本中,爬取流程所涉及的命令做了优化,整合到了crawl 命令中,使用者只需要执行一个命令 crawl 即可完成爬取流程,而不必像老版本中那样,必须依次地执行 inject、generate、fetch、parse等命令。对于初学者来说仍然可以依次执行相关命令 ,仔细观察每执行一步引起的数据变化。下面以抓取 本人博客网站为例详细说明下抓取的过程:

    [准备]:创建需要抓取的URL

    • 首先启动hbase (本文是在单机模式下演示的)
    • mkdir -p urls
    • cd urls
    • touch seed.txt
    • echo ‘http://micmiu.com’ >seed.txt

    下面每一步执行后都可以查看HBase中数据的变化情况。

    [第一步]:inject

    查看HBase中得数据:

    [第二步]:generate

    查看HBase中得数据:

    [第三步]:fetch

    ps:上一步执行的日志中 GenerateorJob batch id 的值 作为下面命令的参数 batchId的值

    也可以从hbase中重查询到:

    下面执行 fetch 命令:

    查看HBase中得数据:

    [第四步]:parse

    查看HBase中得数据:

    [第五步]:updatedb

    查看HBase中得数据:

    —————–  EOF @Michael Sun —————–

  • 相关阅读:
    c++输入输出,保留几位小数
    算法训练 旅行家的预算
    算法训练 拦截导弹(最长递增子序列和最长递减子序列问题,输入回车时停止输入)
    算法训练 字符串比较
    关于新博客的转移
    关于在对象内部访问实例变量的方式选择
    动态计算文本宽度和高度
    工作将近三个月的总结(未完持续)
    ViewController的.m文件代码布局规范
    Objective-C学习之Runtime
  • 原文地址:https://www.cnblogs.com/zkwarrior/p/5392217.html
Copyright © 2011-2022 走看看