nutch相关目录说明 - 走看看

zoukankan html css js c++ java

nutch相关目录说明

Nutch数据包含3个目录结构，分别是：

1、Crawldb:用于存储Nutch将要检索的url信息，以及检索状态(是否检索、何时检索)

2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)

3、Segments:一组url的集合，他们作为一个检索单元，可用于分布式检索

Segment目录包含以下子目录信息:

(1)   crawl_generate:定义将要检索的url集合(文件类型为SequenceFile)

(2)   crawl_fetch:存储每一个url的检索状态(文件类型为MapFile)

(3)   content:存储每一个url所对应的二进制字节流(文件类型为MapFile)

(4)   parse_text:存储每一个url所解析出的文本内容(文件类型为MapFile)

(5)   parse_data:存储每一个url所解析出的元数据(文件类型为MapFile)

(6)   crawl_parse:用于及时更新crawldb中的内容(如要检索的url已不存在等情况)--文件类型为SequenceFile

注：结合Nutch的数据结构和组件结构来看，crawldb相当于WebDB，而segment相当于是fetchlists.

分布式crawl过程中，每个MapReduce Job都会生成一个segment，名称以时间来命名

查看全文

相关阅读:
【JavaScript】71 厘米换算英尺英寸 (15分)
【JavaScript PAT乙级】1001 害死人不偿命的(3n+1)猜想
 SQL注入漏洞全接触
 C# 检查字符串,防SQL注入攻击
 经典Sql注入攻击
 putty密钥登陆ssh
微软自带的WMI查看工具
 SQL Server应用程序中的高级SQL注入
 SQL注入法攻击一日通
 三步堵死SQL注入漏洞

原文地址：https://www.cnblogs.com/baolibin528/p/3982136.html

Copyright © 2011-2022 走看看