zoukankan      html  css  js  c++  java
  • Lucene简介

    文档:Document
    包含了一个或多个域的容器;
        field:value
    域:
        有很多选项
            索引选项、存储选项、域向量使用选项
            可以单个使用,也可组合起来使用
        索引选项用于通过倒排索引来控制文本是否可被搜索;
            Index.ANYLYZED:分析(切词)并单独作为索引项;
            Index.Not_ANYLYZED:不分析(不切词),把整个内容当一个索引项;
            Index.ANYLYZED_NORMS:类似于Index.ANYLYZED,但不存储token的Norms(加权基准)信息
            Index.Not_ANYLYZED_NORMS:类似于Index:Not_ANYLYZED,但不存储token的Norms(加权基准)信息
            Index.NO:不对此域的值进行索引;因此不能被索引
        
        存储选项;是否需要存储域的真实值(分析前的内容)
            store.YES:存储真实值
            store.NO:不存储真实值
        
        域向量选项用于在搜索期间该文档所有的唯一项都能完全从文档中检索时使用;  
    文档和域的加权操作
        加权计算标准
    搜索:
        查询Lucene索引时,它返回的是一个有序的scoreDoc对象;查询时,Lucene会为每个文档计算出其score,根据score进行排序
        API:
            IndexSearcher:搜索索引入口;
            Query及其子类:
            QueryParser:
            TopDocs
            ScoreDoc
    Lucene的多样化查询:
        IndexSearcher中的search方法;
            TermQuery:对索引中的特定项进行搜索,term是索引中的最小索引片段,每个Term包含了一个域名和一个文本值
            TermRangeQuery:在索引中的多个特定项中进行搜索,能搜索制定的多个域;
            NumericRangeQuery:做数值范围搜索;
            PrefixQuery:用于搜索以制定字符串开头的项;
            BooleanQuery:用于实现组合查询;组合逻辑有:AND,OR,Not
            PhraseQuery:
            WildcardQuery:通配符
            FuzzyQuery:模糊查询,levenshtein

  • 相关阅读:
    英语词汇——day 1
    英语词汇——day 2
    PHP的流程控制语句(上)
    思维导图——四级词汇1
    PHP语句块中使用date()函数时需注意wampserver的设置
    (转)Linux服务器调优
    (转)linux服务器安全配置攻略
    mysql 创建[序列],功能类似于oracle的序列
    计算服务器最大并发量http协议请求以webSphere服务器为例考虑线程池
    Spring中ApplicationContextAware接口的说明
  • 原文地址:https://www.cnblogs.com/fansik/p/6806262.html
Copyright © 2011-2022 走看看