Apache Nutch 1.3 学习笔记二

zoukankan html css js c++ java

Apache Nutch 1.3 学习笔记二
1. Nutch 1.3 运行命令的一些介绍

要看Nutch的命令说明，可执行如下命令bin/nutch
1. Usage: nutch [-core] COMMAND
2. where COMMAND is one of:
3. crawl one-step crawler for intranets
4. readdb read / dump crawl db
5. convdb convert crawl db from pre-0.9 format
6. mergedb merge crawldb-s, with optional filtering
7. readlinkdb read / dump link db
8. inject inject new urls into the database
9. generate generate new segments to fetch from crawl db
10. freegen generate new segments to fetch from text files
11. fetch fetch a segment's pages
12. parse parse a segment's pages
13. readseg read / dump segment data
14. mergesegs merge several segments, with optional filtering and slicing
15. updatedb update crawl db from segments after fetching
16. invertlinks create a linkdb from parsed segments
17. mergelinkdb merge linkdb-s, with optional filtering
18. solrindex run the solr indexer on parsed segments and linkdb
19. solrdedup remove duplicates from solr
20. solrclean remove HTTP 301 and 404 documents from solr
21. plugin load a plugin and run one of its classes main()
22. or
23. CLASSNAME run the class named CLASSNAME
24. Most commands print help when invoked w/o parameters.
27. Expert: -core option is for developers only. It avoids building the job jar,
28. instead it simply includes classes compiled with ant compile-core.
29. NOTE: this works only for jobs executed in 'local' mode
2. 单个命令的说明

2.1 bin/nutch crawl

Usage: Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i] [-topN N]
这是用于对urls进行一键式抓取的命令

2.2 bin/nutch readdb

Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
这是用于对crawldb数据库进行读取的命令，主要是用于dump相应的url文件

2.3 bin/nutch convdb

这个命令主要用于把nutch 0.9的crawldb数据转换成1.3的格式

2.4 bin/nutch mergedb

Usage: CrawlDbMerger <output_crawldb> <crawldb1> [<crawldb2> <crawldb3> ...] [-normalize] [-filter]
这个命令主要用于合并多个crawldb数据库

2.5 bin/nutch readlinkdb

Usage: LinkDbReader <linkdb> {-dump <out_dir> | -url <url>)
主要用于读取invertlinks产生的链接数据

2.6 bin/nutch inject

Usage: Injector <crawldb> <url_dir>
主要用于把url_dir中的url注入到crawldb数据库中去

2.7 bin/nutch generate

Usage: Generator <crawldb> <segments_dir> [-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]
用于产生准备抓取的url列表

2.8 bin/nutch freegen

Usage: FreeGenerator <inputDir> <segmentsDir> [-filter] [-normalize]
从文本文件中提取urls来产生新的抓取segment

2.9 bin/nutch fetch

Usage: Fetcher <segment> [-threads n] [-noParsing]
主要用来对generate产生的urls进行抓取，这里用到了Hadoop架构，使用了一个FetcherOutputFormat来对其结果进行多目录输出

2.10 bin/nutch parse

Usage: ParseSegment segment
主要是对抓取的内容进行分析

2.11 bin/nutch readseg

Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
这个命令主要是输出segment的内容

2.12 bin/nutch invertlinks

Usage: LinkDb <linkdb> (-dir <segmentsDir> | <seg1> <seg2> ...) [-force] [-noNormalize] [-noFilter]
这个命令主要是得到抓取内容的外链接数据

2.13 bin/nutch solrindex

Usage: SolrIndexer <solr url> <crawldb> <linkdb> (<segment> ... | -dir <segments>)
对抓以的内容进行索引建立，前提是要有solr环境。

2.14 bin/nutch plugin

Usage: PluginRepository pluginId className [arg1 arg2 ...]
这个命令主要对插件进行测试，运行其main方法

作者：http://blog.csdn.net/amuseme_lu

相关文章阅读及免费下载：

《Apache Nutch 1.3 学习笔记目录》

《Apache Nutch 1.3 学习笔记一》

《Apache Nutch 1.3 学习笔记二》

《Apache Nutch 1.3 学习笔记三（Inject）》

《Apache Nutch 1.3 学习笔记三（Inject CrawlDB Reader）》

《Apache Nutch 1.3 学习笔记四（Generate）》

《Apache Nutch 1.3 学习笔记四（SegmentReader分析）》

《Apache Nutch 1.3 学习笔记五（FetchThread）》

《Apache Nutch 1.3 学习笔记五（Fetcher流程）》

《Apache Nutch 1.3 学习笔记六（ParseSegment）》

《Apache Nutch 1.3 学习笔记七（CrawlDb - updatedb）》

《Apache Nutch 1.3 学习笔记八（LinkDb）》

《Apache Nutch 1.3 学习笔记九（SolrIndexer）》

《Apache Nutch 1.3 学习笔记十（Ntuch 插件机制简单介绍）》

《Apache Nutch 1.3 学习笔记十（插件扩展）》

《Apache Nutch 1.3 学习笔记十（插件机制分析）》

《Apache Nutch 1.3 学习笔记十一（页面评分机制 OPIC）》

《Apache Nutch 1.3 学习笔记十一（页面评分机制 LinkRank 介绍）》

《Apache Nutch 1.3 学习笔记十二（Nutch 2.0 的主要变化）》

更多《Apache Nutch文档》，尽在开卷有益360 http://www.docin.com/book_360
博客地址：【爱开卷360】http://www.cnblogs.com/ibook360
查看全文

相关阅读:
jetbrains 官网进不去以及webstorm、node下载慢的问题
 因为后端 xss 全局过滤器导致的 jquery ajax post 提交的数据全部为null的问题
 华为jdk镜像地址
 shiro解决两个请求的sessionId相同，但是某一个传入sessionId之后找不到session的原因
 推荐一个好的webapp的服务，支持android/ios/小程序打包，集成了大量本地api
对前后端分离的一些经验记录
 「caffe编译bug」python/caffe/_caffe.cpp:10:31: fatal error: numpy/arrayobject.h: No such file or directory
「caffe编译bug」 undefined reference to `boost::match_results<__gnu_cxx::__normal_iterator<char const*, std::__cxx11
「caffe编译bug」.build_release/lib/libcaffe.so: undefined reference to cv::imread
python的sorted函数对字典按value进行排序

原文地址：https://www.cnblogs.com/ibook360/p/2221469.html

Apache Nutch 1.3 学习笔记二

1. Nutch 1.3 运行命令的一些介绍

2. 单个命令的说明

2.1 bin/nutch crawl

2.2 bin/nutch readdb

2.3 bin/nutch convdb

2.4 bin/nutch mergedb

2.5 bin/nutch readlinkdb

2.6 bin/nutch inject

2.7 bin/nutch generate

2.8 bin/nutch freegen

2.9 bin/nutch fetch

2.10 bin/nutch parse

2.11 bin/nutch readseg

2.12 bin/nutch invertlinks

2.13 bin/nutch solrindex

2.14 bin/nutch plugin