zoukankan      html  css  js  c++  java
  • Nutch2.x 演示抓取第一个网站

    http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral

    下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。

    在编译后 bin目录下有两个脚本文件:nutch 和 crawl ,在命令行下执行各命令即可查看具体使用说明:

    在Nutch2.x版本中,爬取流程所涉及的命令做了优化,整合到了crawl 命令中,使用者只需要执行一个命令 crawl 即可完成爬取流程,而不必像老版本中那样,必须依次地执行 inject、generate、fetch、parse等命令。对于初学者来说仍然可以依次执行相关命令 ,仔细观察每执行一步引起的数据变化。下面以抓取 本人博客网站为例详细说明下抓取的过程:

    [准备]:创建需要抓取的URL

    • 首先启动hbase (本文是在单机模式下演示的)
    • mkdir -p urls
    • cd urls
    • touch seed.txt
    • echo ‘http://micmiu.com’ >seed.txt

    下面每一步执行后都可以查看HBase中数据的变化情况。

    [第一步]:inject

    查看HBase中得数据:

    [第二步]:generate

    查看HBase中得数据:

    [第三步]:fetch

    ps:上一步执行的日志中 GenerateorJob batch id 的值 作为下面命令的参数 batchId的值

    也可以从hbase中重查询到:

    下面执行 fetch 命令:

    查看HBase中得数据:

    [第四步]:parse

    查看HBase中得数据:

    [第五步]:updatedb

    查看HBase中得数据:

    —————–  EOF @Michael Sun —————–

  • 相关阅读:
    分布式锁的三种实现方式
    sharding-jdbc
    MySQL Proxy 实现 MySQL 读写分离提高并发负载
    python 使用流式游标 读取mysql怎么不会内存溢出
    数据仓库方案
    MySQL percona-toolkit工具详解
    percona-toolkit 主从工具 master-slave
    MySQL sql join 算发
    MySQL5.7.6 general tablespace
    MySQL Data Directory -- Creating file-per-table tablespaces outside the data directory
  • 原文地址:https://www.cnblogs.com/zkwarrior/p/5392217.html
Copyright © 2011-2022 走看看