第三章
1、nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?
2、命令:
crawldb
1)bin/nutch | grep read
Nutch提供了3个read命令来读取不同的文件夹下的数据
2)bin/nutch readdb data/crawldb -stats (统计url抓去情况,其中的data就是抓去时的自定义的存放数据的地方)
3)bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump 将统计信息打印到文件中
默认是以空行分割开的文字段
也可以通过参数进行格式的设定如:
bin/nutch readdb data /crawldb -dump data /crawldb/crawldb_dump_csv -format csv
可以查看特定url的信息
bin/nutch readdb data/crawldb -url http://4008209999.tianyaclub.com/
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
安排分取前十个
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_m 1
仅打印超出1值的那些链接
Segments
每执行一轮抓去,都会生成一个segment下图生成了5轮数据
其中每个文件夹下的内容都可以通过readseg命令进行读取:
共有
-nocontent ignore content directory
-nofetch ignore crawl_fetch directory
-nogenerate ignore crawl_generate directory
-noparse ignore crawl_parse directory
-noparsedata ignore parse_data directory
-noparsetext ignore parse_text directory
五个选项
crawl_generate:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata –noparsetext
查看的是crawl_generate文件夹下的内容,为注入的url信息
crawl_fetch:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nogenerate -noparse -noparsedata –noparsetext
第一轮抓取只有一个连接,即为注入连接
第二轮抓去到的(只显示连接):
content:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata –noparsetext
返回的html的代码
crawl_parse:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent –noparsedata –noparsetext
parse_data:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse –noparsetext
parse_text:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse -noparsedata
全部:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump
segments
bin/nutch readseg -list -dir data/segments 查看每一个segment的状态
bin/nutch readseg -list data/segments/20130325043023
直接查看某一个segment
bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/
bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/
linkdb
bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
bin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/