zoukankan      html  css  js  c++  java
  • 开源搜索引擎 Nutch 0.7 插件详解

    nutch 0.7 plug-ins 详解

    最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:
    1、
    nutch 0.7 发布了;
    2、nutch 的java源代码包路径改变成了org.apache...
    3、yahoo也使用了nutch,并做了很多的工作。1 2

    clustering-carrot2 :
       一个搜索结果类聚的代码框架,目前和Egothor等搜索引擎结合的很好;
                地址:http://sourceforge.net/projects/carrot2
                 相关类:org.apache.nutch.clustering.OnlineClusterer
                                Nutch Online Search Results Clustering Plugin
                                org.apache.nutch.clustering.carrot2
                                Carrot2 Clusterer
    creativecommons :
       一个创作共用的工具集合。地址:http://creativecommons.org/ ;
              相关类:
                          org.apache.nutch.parse.HtmlParseFilter
                            HTML Parse Filter
                            org.apache.nutch.indexer.IndexingFilter
                            Nutch Indexing Filter
                            org.apache.nutch.searcher.QueryFilter
                            Nutch Query Filter
    index-basic :
                          相关类:
                          org.apache.nutch.indexer.IndexingFilter
                          Nutch Indexing Filter
    index-more :
    language-identifier : 语言检测工具;

               用于实现检测本机语言,以使nutch的搜索界面自动转化为相对应语言
                             相关类:
                               org.apache.nutch.analysis.lang.LanguageParser
                               Nutch language Parser
                               org.apache.nutch.analysis.lang
                               Nutch language identifier filter
                               org.apache.nutch.analysis.lang.LanguageQueryFilter
                               Nutch Language Query Filter

    ontology : 一个概念话的规范,主要是针对人工智能的;
                             相关类:
                                org.apache.nutch.ontology.Ontology
                                Ontology Model Loader
    parse-ext :
    parse-html :
    parse-js :     解析js文档
    parse-msword : 解析msword文档
    parse-pdf : 解析pdf文档
                          相关类:
                             org.apache.nutch.parse.pdf.PdfParser
    parse-rss : 解析Rss格式文档
    parse-text : 解析text文档
    protocol-file :
    protocol-ftp :
    protocol-http :
    protocol-httpclient :
    query-basic :
    query-more :
    query-site :
    query-url :
    urlfilter-prefix :
    urlfilter-regex :

  • 相关阅读:
    Leetcode Spiral Matrix
    Leetcode Sqrt(x)
    Leetcode Pow(x,n)
    Leetcode Rotate Image
    Leetcode Multiply Strings
    Leetcode Length of Last Word
    Topcoder SRM 626 DIV2 SumOfPower
    Topcoder SRM 626 DIV2 FixedDiceGameDiv2
    Leetcode Largest Rectangle in Histogram
    Leetcode Set Matrix Zeroes
  • 原文地址:https://www.cnblogs.com/wycg1984/p/1537501.html
Copyright © 2011-2022 走看看