zoukankan      html  css  js  c++  java
  • Lucene简单介绍

    【2016.6.11】以前写的笔记,拿出来放到博客里面~

    相关软件:

    Solr, IK Analyzer, Luke, Nutch;Tomcat;
    

    1.是什么:

    Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包;
    
    为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文
    
    检索引擎;
    

    2.主要应用:

    对句子进行分词,从而实现自然语言分词后提取关键词并且进行拓展,再送入搜索引擎进行查询,提高精准度;
    
    对数据库中的文档简历索引,实现快速的查找;
    

    3.环境:

    用java开发,很方便调用jar包;
    

    4.具体类:

    org.apache.lucene.analysis;语言分析器,主要用于分词;
    

    5.相关的开源类库:

    IK Analyzer
    

    6.Lucene的开源企业搜索平台:

    Solr:
    
    Solr是用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的全文搜索服务器;
    
    Solr是高度可扩展的,并提供了分布式搜索和索引复制;
    

    7.Nutch:

    是一个开源的java实现的web 爬虫;
    
    主要用于收集网页数据然后进行分析,建立索引等,底层使用Hadoop进行分布式计算与存储,索引使用Solr分布式索引框架;
    
    依赖Hadoop的数据结构,适合批处理;
    
    可以和Solr结合使用,用Solr分析检索Nutch爬过的页面;
  • 相关阅读:
    页面使用本地IE版本
    C#获取客户端ip
    获取存储过程返回数据
    自制js表格排序
    读取数据用rs.open sql,conn,1,1
    学习存储过程
    COLLATE Chinese_PRC_CI_AS
    sqlserver存储过程语句(转)
    用P3P header解决iframe跨域访问cookie(转载)
    java通过dom创建和解析xml
  • 原文地址:https://www.cnblogs.com/robin2ML/p/6831886.html
Copyright © 2011-2022 走看看