zoukankan      html  css  js  c++  java
  • Nutch2 WebPage 字段解释

    Nutch2 WebPage 字段解释

         Nutch2.2.1


    id

    主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息。

    headers

    标准的http headers ,其中包含非打印字符。Last-Modified 等信息可能于判断网页是否需要更新(仅需发一个head请求,而不是下载整个网页)

    text

    合并了解析出来的所有文本字段(utf-8),用于普通的检索,不过现在检索一般使用solr,所以这个字段意义不大。

    status

    记录抓取状态
    1. 1     unfetched (links not yet fetched due to limits set in regex-urlfilter.txt, -TopN crawl parameters, etc.)  
    2. 2     fetched (page was successfully fetched)  
    3. 3     gone (that page no longer exists)  
    4. 4     redir_temp (temporary redirection — see reprUrl below for more details)  
    5. 5     redir_perm (permanent redirection — see reprUrl below for more details)  
    6. 34     retry  
    7. 38     not modified  

    markers

    各个任务的标记(如:dist***injmrk_***updmrk_***ftcmrk_***gnmrk_***prsmrk_**)

    parseStatus

    parse状态,在执行parseJob之前都是NULL。 ParseStatusCodes.html

    modifiedTime

    最后更改时间

    score

    网页重要程度(PR),Nutch2.2.1 使用的是OPIC算法

    typ

    类型(如application/xhtml+xml)

    batchId

    批次ID,由generate生成( (curTime/1000) + "-" +randomSeed ), fetch时可选择特定batchId的任务

    baseUrl

    用于将网页源码中相对链接地址的转为绝对地址,通常就是当前网页的地址,有重定向的情况下,是最终定向到的地址

    content

    完整的网页源码,未经任何处理(字符集也没转)。 

    title

    title标签里的内容 (已转utf-8编码)

    reprUrl

    重定向url,将在下一轮抓取,不会立即跟入

    fetchInterval

    抓取间隔,默认是2592000(30天)

    prevFetchTime

    上次抓取时间

    inlinks

    入链(url+linktext)

    prevSignature

    上次更新时网页签名

    outlinks

    出链(url+linktext)

    fetchTime

    下次抓取时间,通常是间隔一个月

    retriesSinceFetch

    重试次数

    protocolStatus

    1. ACCESS_DENIED 17  
    2. BLOCKED 23  
    3. EXCEPTION 16  
    4. FAILED 2  
    5. GONE 11  
    6. MOVED 12  
    7. NOTFETCHING 20  
    8. NOTFOUND 14  
    9. NOTMODIFIED 21  
    10. PROTO_NOT_FOUND 10  
    11. REDIR_EXCEEDED 19  
    12. RETRY 15  
    13. ROBOTS_DENIED 18  
    14. SUCCESS 1  
    15. TEMP_MOVED 13  
    16. WOULDBLOCK 22  

    signature

    网页签名,用于判断网页是否改变,默认的实现是:org.apache.nutch.crawl.MD5Signature ,采用content的MD5值,另一个方案是org.apache.nutch.crawl.TextProfileSignature,content抽取文本、分词、排序等一系列操作后计算MD5值 TextProfileSignature

    metadata

    自定义元数据,可以在种子文件里面加,例如: "http://xxxx/xxx.html type=news"


查看全文
  • 相关阅读:
    设计模式学习笔记一
    linux学习记录(一)
    eclipse插件集合
    什么叫反向代理?
    shiro学习四
    shiro学习三
    shiro学习二
    第二次作业
    第一次作业
    自我介绍
  • 原文地址:https://www.cnblogs.com/jpfss/p/7903804.html
  • Copyright © 2011-2022 走看看