zoukankan      html  css  js  c++  java
  • lucene详细介绍

    1 lucene简介  
    1.1 什么是lucene  

    项目地址: https://github.com/apache/lucene-solr
    Lucene是一个全文搜索框架,而不是应用产品。它只是提供了一种工具让你能实现这些产品。

    它的特点概述起来就是:全Java实现、开源、高性能、功能完整、易拓展,功能完整体现在对分词的支持、各种查询方式(前缀、模糊、正则等)、打分高亮、列式存储(DocValues)等等。

    目录结构:
    Package Description
    org.apache.lucene

    Top-level package.

    org.apache.lucene.analysis

    Text analysis.

    org.apache.lucene.analysis.standard

    Fast, general-purpose grammar-based tokenizer StandardTokenizer implements the Word Break rules from the Unicode Text Segmentation algorithm, as specified inUnicode Standard Annex #29.

    org.apache.lucene.analysis.tokenattributes

    General-purpose attributes for text analysis.

    org.apache.lucene.codecs

    Codecs API: API for customization of the encoding and structure of the index.

    org.apache.lucene.codecs.blocktree

    BlockTree terms dictionary.

    org.apache.lucene.codecs.compressing

    StoredFieldsFormat that allows cross-document and cross-field compression of stored fields.

    org.apache.lucene.codecs.lucene50

    Components from the Lucene 5.0 index format See org.apache.lucene.codecs.lucene50 for an overview of the index format.

    org.apache.lucene.codecs.lucene60

    Components from the Lucene 6.0 index format.

    org.apache.lucene.codecs.lucene62

    Components from the Lucene 6.2 index format See org.apache.lucene.codecs.lucene70 for an overview of the current index format.

    org.apache.lucene.codecs.lucene70

    Lucene 7.0 file format.

    org.apache.lucene.codecs.perfield

    Postings format that can delegate to different formats per-field.

    org.apache.lucene.document

    The logical representation of a Document for indexing and searching.

    org.apache.lucene.geo

    Geospatial Utility Implementations for Lucene Core

    org.apache.lucene.index

    Code to maintain and access indices.

    org.apache.lucene.search

    Code to search indices.

    org.apache.lucene.search.similarities

    This package contains the various ranking models that can be used in Lucene.

    org.apache.lucene.search.spans

    The calculus of spans.

    org.apache.lucene.store

    Binary i/o API, used for all index data.

    org.apache.lucene.util

    Some utility classes.

    org.apache.lucene.util.automaton

    Finite-state automaton for regular expressions.

    org.apache.lucene.util.bkd

    Block KD-tree, implementing the generic spatial data structure described in this paper.

    org.apache.lucene.util.fst

    Finite state transducers

    org.apache.lucene.util.graph

    Utility classes for working with token streams as graphs.

    org.apache.lucene.util.mutable

    Comparable object wrappers

    org.apache.lucene.util.packed

    Packed integer arrays and streams.

    Package org.apache.lucene.analysis

    1.2 lucene能做什么  
    要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了,做个资料库;你可以把一个数据库表的若干个字段索引起来,那就不用再担心因为“%like%”而锁表了;你也可以写个自己的搜索引擎……

    样例:

        Analyzer analyzer = new StandardAnalyzer();
    
        // Store the index in memory:
        Directory directory = new RAMDirectory();
        // To store an index on disk, use this instead:
        //Directory directory = FSDirectory.open("/tmp/testindex");
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter iwriter = new IndexWriter(directory, config);
        Document doc = new Document();
        String text = "This is the text to be indexed.";
        doc.add(new Field("fieldname", text, TextField.TYPE_STORED));
        iwriter.addDocument(doc);
        iwriter.close();
        
        // Now search the index:
        DirectoryReader ireader = DirectoryReader.open(directory);
        IndexSearcher isearcher = new IndexSearcher(ireader);
        // Parse a simple query that searches for "text":
        QueryParser parser = new QueryParser("fieldname", analyzer);
        Query query = parser.parse("text");
        ScoreDoc[] hits = isearcher.search(query, null, 1000).scoreDocs;
        assertEquals(1, hits.length);
        // Iterate through the results:
        for (int i = 0; i < hits.length; i++) {
          Document hitDoc = isearcher.doc(hits[i].doc);
          assertEquals("This is the text to be indexed.", hitDoc.get("fieldname"));
        }
        ireader.close();
        directory.close();

    1.3 你该不该选择lucene  
    下面给出一些测试数据,如果你觉得可以接受,那么可以选择。  
    测试一:250万记录,300M左右文本,生成索引380M左右,800线程下平均处理时间300ms。  
    测试二:37000记录,索引数据库中的两个varchar字段,索引文件2.6M,800线程下平均处理时间1.5ms。

    2 lucene的工作方式  
    lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除;所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。

    2.1写入流程  
    源字符串首先经过analyzer处理,包括:分词,分成一个个单词;去除stopword(可选)。  
    将源中需要的信息加入Document的各个Field中,并把需要索引的Field索引起来,把需要存储的Field存储起来。  
    将索引写入存储器,存储器可以是内存或磁盘。

    2.2读出流程  
    用户提供搜索关键词,经过analyzer处理。  
    对处理后的关键词搜索索引找出对应的Document。  
    用户根据需要从找到的Document中提取需要的Field。

    3 一些需要知道的概念  
    lucene用到一些概念,了解它们的含义,有利于下面的讲解。

    3.1 analyzer  
    Analyzer 是分析器,它的作用是把一个字符串按某种规则划分成一个个词语,并去除其中的无效词语,这里说的无效词语是指英文中的“of”、 “the”,中文中的 “的”、“地”等词语,这些词语在文章中大量出现,但是本身不包含什么关键信息,去掉有利于缩小索引文件、提高效率、提高命中率。  
    分词的规则千变万化,但目的只有一个:按语义划分。这点在英文中比较容易实现,因为英文本身就是以单词为单位的,已经用空格分开;而中文则必须以某种方法将连成一片的句子划分成一个个词语。具体划分方法下面再详细介绍,这里只需了解分析器的概念即可。

    3.2 document  
    用户提供的源是一条条记录,它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后,就是以一个Document的形式存储在索引文件中的。用户进行搜索,也是以Document列表的形式返回。

    3.3 field  
    一个Document可以包含多个信息域,例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域,这些信息域就是通过Field在Document中存储的。  
    Field有两个属性可选:存储和索引。通过存储属性你可以控制是否对这个Field进行存储;通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话,事实上对这两个属性的正确组合很重要,下面举例说明:  
    还是以刚才的文章为例子,我们需要对标题和正文进行全文搜索,所以我们要把索引属性设置为真,同时我们希望能直接从搜索结果中提取文章标题,所以我们把标题域的存储属性设置为真,但是由于正文域太大了,我们为了缩小索引文件大小,将正文域的存储属性设置为假,当需要时再直接读取文件;我们只是希望能从搜索解果中提取最后修改时间,不需要对它进行搜索,所以我们把最后修改时间域的存储属性设置为真,索引属性设置为假。上面的三个域涵盖了两个属性的三种组合,还有一种全为假的没有用到,事实上Field不允许你那么设置,因为既不存储又不索引的域是没有意义的。

    3.4 term  
    term是搜索的最小单位,它表示文档的一个词语,term由两部分组成:它表示的词语和这个词语所出现的field。

    3.5 tocken  
    tocken是term的一次出现,它包含trem文本和相应的起止偏移,以及一个类型字符串。一句话中可以出现多次相同的词语,它们都用同一个term表示,但是用不同的tocken,每个tocken标记该词语出现的地方。

    3.6 segment  
    添加索引时并不是每个document都马上添加到同一个索引文件,它们首先被写入到不同的小文件,然后再合并成一个大索引文件,这里每个小文件都是一个segment。

    4 lucene的结构  
    lucene包括core和sandbox两部分,其中core是lucene稳定的核心部分,sandbox包含了一些附加功能,例如highlighter、各种分析器。  
    Lucene core有七个包:analysis,document,index,queryParser,search,store,util。  
    4.1 analysis  
    Analysis包含一些内建的分析器,例如按空白字符分词的WhitespaceAnalyzer,添加了stopwrod过滤的StopAnalyzer,最常用的StandardAnalyzer。  
    4.2 document  
    Document包含文档的数据结构,例如Document类定义了存储文档的数据结构,Field类定义了Document的一个域。  
    4.3 index  
    Index 包含了索引的读写类,例如对索引文件的segment进行写、合并、优化的IndexWriter类和对索引进行读取和删除操作的 IndexReader类,这里要注意的是不要被IndexReader这个名字误导,以为它是索引文件的读取类,实际上删除索引也是由它完成, IndexWriter只关心如何将索引写入一个个segment,并将它们合并优化;IndexReader则关注索引文件中各个文档的组织形式。  
    4.4 queryParser  
    QueryParser 包含了解析查询语句的类,lucene的查询语句和sql语句有点类似,有各种保留字,按照一定的语法可以组成各种查询。 Lucene有很多种 Query类,它们都继承自Query,执行各种特殊的查询,QueryParser的作用就是解析查询语句,按顺序调用各种 Query类查找出结果。  
    4.5 search  
    Search包含了从索引中搜索结果的各种类,例如刚才说的各种Query类,包括TermQuery、BooleanQuery等就在这个包里。  
    4.6 store  
    Store包含了索引的存储类,例如Directory定义了索引文件的存储结构,FSDirectory为存储在文件中的索引,RAMDirectory为存储在内存中的索引,MmapDirectory为使用内存映射的索引。  
    4.7 util  
    Util包含一些公共工具类,例如时间和字符串之间的转换工具。

    5 如何建索引  
    5.1 最简单的能完成索引的代码片断

    IndexWriter writer = new IndexWriter(“/data/index/”, new StandardAnalyzer(), true);  
    Document doc = new Document();  
    doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));  
    doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));  
    writer.addDocument(doc);  
    writer.optimize();  
    writer.close();

    下面我们分析一下这段代码。  
    首先我们创建了一个writer,并指定存放索引的目录为“/data/index”,使用的分析器为StandardAnalyzer,第三个参数说明如果已经有索引文件在索引目录下,我们将覆盖它们。  
    然后我们新建一个document。  
    我们向document添加一个field,名字是“title”,内容是“lucene introduction”,对它进行存储并索引。  
    再添加一个名字是“content”的field,内容是“lucene works well”,也是存储并索引。  
    然后我们将这个文档添加到索引中,如果有多个文档,可以重复上面的操作,创建document并添加。  
    添加完所有document,我们对索引进行优化,优化主要是将多个segment合并到一个,有利于提高索引速度。  
    随后将writer关闭,这点很重要。

    对,创建索引就这么简单!  
    当然你可能修改上面的代码获得更具个性化的服务。

    5.2 将索引直接写在内存  
    你需要首先创建一个RAMDirectory,并将其传给writer,代码如下:

    Directory dir = new RAMDirectory();  
    IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);  
    Document doc = new Document();  
    doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));  
    doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));  
    writer.addDocument(doc);  
    writer.optimize();  
    writer.close();

    5.3 索引文本文件  
    如果你想把纯文本文件索引起来,而不想自己将它们读入字符串创建field,你可以用下面的代码创建field:

    Field field = new Field("content", new FileReader(file));

    这里的file就是该文本文件。该构造函数实际上是读去文件内容,并对其进行索引,但不存储。

    6 如何维护索引  
    索引的维护操作都是由IndexReader类提供。

    6.1 如何删除索引  
    lucene提供了两种从索引中删除document的方法,一种是

    void deleteDocument(int docNum)

    这种方法是根据document在索引中的编号来删除,每个document加进索引后都会有个唯一编号,所以根据编号删除是一种精确删除,但是这个编号是索引的内部结构,一般我们不会知道某个文件的编号到底是几,所以用处不大。另一种是

    void deleteDocuments(Term term)

    这种方法实际上是首先根据参数term执行一个搜索操作,然后把搜索到的结果批量删除了。我们可以通过这个方法提供一个严格的查询条件,达到删除指定document的目的。  
    下面给出一个例子:

    Directory dir = FSDirectory.getDirectory(PATH, false);  
    IndexReader reader = IndexReader.open(dir);  
    Term term = new Term(field, key);  
    reader.deleteDocuments(term);  
    reader.close();

    6.2 如何更新索引  
    lucene并没有提供专门的索引更新方法,我们需要先将相应的document删除,然后再将新的document加入索引。例如:

    Directory dir = FSDirectory.getDirectory(PATH, false);  
    IndexReader reader = IndexReader.open(dir);  
    Term term = new Term(“title”, “lucene introduction”);  
    reader.deleteDocuments(term);  
    reader.close();
    
    IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);  
    Document doc = new Document();  
    doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));  
    doc.add(new Field("content", "lucene is funny", Field.Store.YES, Field.Index.TOKENIZED));  
    writer.addDocument(doc);  
    writer.optimize();  
    writer.close();


    7 如何搜索  
    lucene 的搜索相当强大,它提供了很多辅助查询类,每个类都继承自Query类,各自完成一种特殊的查询,你可以像搭积木一样将它们任意组合使用,完成一些复杂操作;另外lucene还提供了Sort类对结果进行排序,提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较: “lucene能执行and、or、order by、where、like ‘%xx%’操作吗?”回答是:“当然没问题!”

    7.1 各种各样的Query  
    下面我们看看lucene到底允许我们进行哪些查询操作:

    7.1.1 TermQuery  
    首先介绍最基本的查询,如果你想执行一个这样的查询:“在content域中包含‘lucene’的document”,那么你可以用TermQuery:

    Term t = new Term("content", " lucene";  
    Query query = new TermQuery(t);

    7.1.2 BooleanQuery  
    如果你想这么查询:“在content域中包含java或perl的document”,那么你可以建立两个TermQuery并把它们用BooleanQuery连接起来:

    TermQuery termQuery1 = new TermQuery(new Term("content", "java");  
    TermQuery termQuery 2 = new TermQuery(new Term("content", "perl");  
    BooleanQuery booleanQuery = new BooleanQuery();  
    booleanQuery.add(termQuery 1, BooleanClause.Occur.SHOULD);  
    booleanQuery.add(termQuery 2, BooleanClause.Occur.SHOULD);

    7.1.3 WildcardQuery  
    如果你想对某单词进行通配符查询,你可以用WildcardQuery,通配符包括’?’匹配一个任意字符和’*’匹配零个或多个任意字符,例如你搜索’use*’,你可能找到’useful’或者’useless’:

    Query query = new WildcardQuery(new Term("content", "use*");

    7.1.4 PhraseQuery  
    你可能对中日关系比较感兴趣,想查找‘中’和‘日’挨得比较近(5个字的距离内)的文章,超过这个距离的不予考虑,你可以:

    PhraseQuery query = new PhraseQuery();  
    query.setSlop(5);  
    query.add(new Term("content ", “中”));  
    query.add(new Term(“content”, “日”));

    那么它可能搜到“中日合作……”、“中方和日方……”,但是搜不到“中国某高层领导说日本欠扁”。

    7.1.5 PrefixQuery  
    如果你想搜以‘中’开头的词语,你可以用PrefixQuery:

    PrefixQuery query = new PrefixQuery(new Term("content ", "中");

    7.1.6 FuzzyQuery  
    FuzzyQuery用来搜索相似的term,使用Levenshtein算法。假设你想搜索跟‘wuzza’相似的词语,你可以:

    Query query = new FuzzyQuery(new Term("content", "wuzza");

    你可能得到‘fuzzy’和‘wuzzy’。

    7.1.7 RangeQuery  
    另一个常用的Query是RangeQuery,你也许想搜索时间域从20060101到20060130之间的document,你可以用RangeQuery:

    RangeQuery query = new RangeQuery(new Term(“time”, “20060101”), new Term(“time”, “20060130”), true);

    最后的true表示用闭合区间。

    7.2 QueryParser  
    看了这么多Query,你可能会问:“不会让我自己组合各种Query吧,太麻烦了!”当然不会,lucene提供了一种类似于SQL语句的查询语句,我们姑且叫它lucene语句,通过它,你可以把各种查询一句话搞定,lucene会自动把它们查分成小块交给相应Query执行。下面我们对应每种 Query演示一下:  
    TermQuery可以用“field:key”方式,例如“content:lucene”。  
    BooleanQuery中‘与’用‘+’,‘或’用‘ ’,例如“content:java contenterl”。  
    WildcardQuery仍然用‘?’和‘*’,例如“content:use*”。  
    PhraseQuery用‘~’,例如“content:"中日"~5”。  
    PrefixQuery用‘*’,例如“中*”。  
    FuzzyQuery用‘~’,例如“content: wuzza ~”。  
    RangeQuery用‘[]’或‘{}’,前者表示闭区间,后者表示开区间,例如“time:[20060101 TO 20060130]”,注意TO区分大小写。  
    你可以任意组合query string,完成复杂操作,例如“标题或正文包括lucene,并且时间在20060101到20060130之间的文章”可以表示为:“+ (title:lucene content:lucene) +time:[20060101 TO 20060130]”。代码如下:

    Directory dir = FSDirectory.getDirectory(PATH, false);  
    IndexSearcher is = new IndexSearcher(dir);  
    QueryParser parser = new QueryParser("content", new StandardAnalyzer());  
    Query query = parser.parse("+(title:lucene content:lucene) +time:[20060101 TO 20060130]";  
    Hits hits = is.search(query);  
    for (int i = 0; i < hits.length(); i++)  
    {  
    Document doc = hits.doc(i);  
    System.out.println(doc.get("title");  
    }  
    is.close();

    首先我们创建一个在指定文件目录上的IndexSearcher。  
    然后创建一个使用StandardAnalyzer作为分析器的QueryParser,它默认搜索的域是content。  
    接着我们用QueryParser来parse查询字串,生成一个Query。  
    然后利用这个Query去查找结果,结果以Hits的形式返回。  
    这个Hits对象包含一个列表,我们挨个把它的内容显示出来。

    7.3 Filter  
    filter 的作用就是限制只查询索引的某个子集,它的作用有点像SQL语句里的where,但又有区别,它不是正规查询的一部分,只是对数据源进行预处理,然后交给查询语句。注意它执行的是预处理,而不是对查询结果进行过滤,所以使用filter的代价是很大的,它可能会使一次查询耗时提高一百倍。  
    最常用的filter是RangeFilter和QueryFilter。RangeFilter是设定只搜索指定范围内的索引;QueryFilter是在上次查询的结果中搜索。  
    Filter的使用非常简单,你只需创建一个filter实例,然后把它传给searcher。继续上面的例子,查询“时间在20060101到20060130之间的文章”除了将限制写在query string中,你还可以写在RangeFilter中:

    Directory dir = FSDirectory.getDirectory(PATH, false);  
    IndexSearcher is = new IndexSearcher(dir);  
    QueryParser parser = new QueryParser("content", new StandardAnalyzer());  
    Query query = parser.parse("title:lucene content:lucene";  
    RangeFilter filter = new RangeFilter("time", "20060101", "20060230", true, true);  
    Hits hits = is.search(query, filter);  
    for (int i = 0; i < hits.length(); i++)  
    {  
    Document doc = hits.doc(i);  
    System.out.println(doc.get("title");  
    }  
    is.close();

    7.4 Sort  
    有时你想要一个排好序的结果集,就像SQL语句的“order by”,lucene能做到:通过Sort。  
    Sort sort = new Sort(“time”); //相当于SQL的“order by time”  
    Sort sort = new Sort(“time”, true); // 相当于SQL的“order by time desc”  
    下面是一个完整的例子:

    Directory dir = FSDirectory.getDirectory(PATH, false);  
    IndexSearcher is = new IndexSearcher(dir);  
    QueryParser parser = new QueryParser("content", new StandardAnalyzer());  
    Query query = parser.parse("title:lucene content:lucene";  
    RangeFilter filter = new RangeFilter("time", "20060101", "20060230", true, true);  
    Sort sort = new Sort(“time”);  
    Hits hits = is.search(query, filter, sort);  
    for (int i = 0; i < hits.length(); i++)  
    {  
    Document doc = hits.doc(i);  
    System.out.println(doc.get("title");  
    }  
    is.close();

    8 分析器  
    在前面的概念介绍中我们已经知道了分析器的作用,就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器: StandardAnalyzer,很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。  
    但是我们的焦点是中文分词,StandardAnalyzer能支持中文分词吗?实践证明是可以的,但是效果并不好,搜索“如果” 会把“牛奶不如果汁好喝”也搜索出来,而且索引文件很大。那么我们手头上还有什么分析器可以使用呢?core里面没有,我们可以在sandbox里面找到两个: ChineseAnalyzer和CJKAnalyzer。但是它们同样都有分词不准的问题。相比之下用StandardAnalyzer和 ChineseAnalyzer建立索引时间差不多,索引文件大小也差不多,CJKAnalyzer表现会差些,索引文件大且耗时比较长。  
    要解决问题,首先分析一下这三个分析器的分词方式。StandardAnalyzer和ChineseAnalyzer都是把句子按单个字切分,也就是说 “牛奶不如果汁好喝”会被它们切分成“牛 奶 不 如 果 汁 好 喝”;而CJKAnalyzer则会切分成“牛奶 奶不 不如 如果 果汁 汁好好喝”。这也就解释了为什么搜索“果汁”都能匹配这个句子。  
    以上分词的缺点至少有两个:匹配不准确和索引文件大。我们的目标是将上面的句子分解成 “牛奶 不如 果汁好喝”。这里的关键就是语义识别,我们如何识别“牛奶”是一个词而“奶不”不是词语?我们很自然会想到基于词库的分词法,也就是我们先得到一个词库,里面列举了大部分词语,我们把句子按某种方式切分,当得到的词语与词库中的项匹配时,我们就认为这种切分是正确的。这样切词的过程就转变成匹配的过程,而匹配的方式最简单的有正向最大匹配和逆向最大匹配两种,说白了就是一个从句子开头向后进行匹配,一个从句子末尾向前进行匹配。基于词库的分词词库非常重要,词库的容量直接影响搜索结果,在相同词库的前提下,据说逆向最大匹配优于正向最大匹配。  
    当然还有别的分词方法,这本身就是一个学科,我这里也没有深入研究。回到具体应用,我们的目标是能找到成熟的、现成的分词工具,避免重新发明车轮。经过网上搜索,用的比较多的是中科院的 ICTCLAS和一个不开放源码但是免费的JE-Analysis。ICTCLAS有个问题是它是一个动态链接库, java调用需要本地方法调用,不方便也有安全隐患,而且口碑也确实不大好。JE-Analysis效果还不错,当然也会有分词不准的地方,相比比较方便放心。

    9 性能优化  
    一直到这里,我们还是在讨论怎么样使lucene跑起来,完成指定任务。利用前面说的也确实能完成大部分功能。但是测试表明lucene的性能并不是很好,在大数据量大并发的条件下甚至会有半分钟返回的情况。另外大数据量的数据初始化建立索引也是一个十分耗时的过程。那么如何提高lucene的性能呢?下面从优化创建索引性能和优化搜索性能两方面介绍。

    9.1 优化创建索引性能  
    这方面的优化途径比较有限,IndexWriter提供了一些接口可以控制建立索引的操作,另外我们可以先将索引写入RAMDirectory,再批量写入FSDirectory,不管怎样,目的都是尽量少的文件IO,因为创建索引的最大瓶颈在于磁盘IO。另外选择一个较好的分析器也能提高一些性能。

    9.1.1 通过设置IndexWriter的参数优化索引建立  
    setMaxBufferedDocs(int maxBufferedDocs)  
    控制写入一个新的segment前内存中保存的document的数目,设置较大的数目可以加快建索引速度,默认为10。  
    setMaxMergeDocs(int maxMergeDocs)  
    控制一个segment中可以保存的最大document数目,值较小有利于追加索引的速度,默认Integer.MAX_VALUE,无需修改。  
    setMergeFactor(int mergeFactor)  
    控制多个segment合并的频率,值较大时建立索引速度较快,默认是10,可以在建立索引时设置为100。

    9.1.2 通过RAMDirectory缓写提高性能  
    我们可以先把索引写入RAMDirectory,达到一定数量时再批量写进FSDirectory,减少磁盘IO次数。

    FSDirectory fsDir = FSDirectory.getDirectory("/data/index", true);  
    RAMDirectory ramDir = new RAMDirectory();  
    IndexWriter fsWriter = new IndexWriter(fsDir, new StandardAnalyzer(), true);  
    IndexWriter ramWriter = new IndexWriter(ramDir, new StandardAnalyzer(), true);  
    while (there are documents to index)  
    {  
    ... create Document ...  
    ramWriter.addDocument(doc);  
    if (condition for flushing memory to disk has been met)  
    {  
    fsWriter.addIndexes(new Directory[] { ramDir });  
    ramWriter.close();  
    ramWriter = new IndexWriter(ramDir, new StandardAnalyzer(), true);  
    }  
    }

    9.1.3 选择较好的分析器  
    这个优化主要是对磁盘空间的优化,可以将索引文件减小将近一半,相同测试数据下由600M减少到380M。但是对时间并没有什么帮助,甚至会需要更长时间,因为较好的分析器需要匹配词库,会消耗更多cpu,测试数据用StandardAnalyzer耗时133分钟;用MMAnalyzer耗时150分钟。

    9.2 优化搜索性能  
    虽然建立索引的操作非常耗时,但是那毕竟只在最初创建时才需要,平时只是少量的维护操作,更何况这些可以放到一个后台进程处理,并不影响用户搜索。我们创建索引的目的就是给用户搜索,所以搜索的性能才是我们最关心的。下面就来探讨一下如何提高搜索性能。

    9.2.1 将索引放入内存  
    这是一个最直观的想法,因为内存比磁盘快很多。Lucene提供了RAMDirectory可以在内存中容纳索引:

    Directory fsDir = FSDirectory.getDirectory(“/data/index/”, false);  
    Directory ramDir = new RAMDirectory(fsDir);  
    Searcher searcher = new IndexSearcher(ramDir);

    但是实践证明RAMDirectory和FSDirectory速度差不多,当数据量很小时两者都非常快,当数据量较大时(索引文件400M)RAMDirectory甚至比FSDirectory还要慢一点,这确实让人出乎意料。  
    而且lucene的搜索非常耗内存,即使将400M的索引文件载入内存,在运行一段时间后都会out of memory,所以个人认为载入内存的作用并不大。

    9.2.2 优化时间范围限制  
    既然载入内存并不能提高效率,一定有其它瓶颈,经过测试发现最大的瓶颈居然是时间范围限制,那么我们可以怎样使时间范围限制的代价最小呢?  
    当需要搜索指定时间范围内的结果时,可以:  
    1、用RangeQuery,设置范围,但是RangeQuery的实现实际上是将时间范围内的时间点展开,组成一个个BooleanClause加入到 BooleanQuery中查询,因此时间范围不可能设置太大,经测试,范围超过一个月就会抛 BooleanQuery.TooManyClauses,可以通过设置 BooleanQuery.setMaxClauseCount (int maxClauseCount)扩大,但是扩大也是有限的,并且随着maxClauseCount扩大,占用内存也扩大  
    2、用 RangeFilter代替RangeQuery,经测试速度不会比RangeQuery慢,但是仍然有性能瓶颈,查询的90%以上时间耗费在 RangeFilter,研究其源码发现RangeFilter实际上是首先遍历所有索引,生成一个BitSet,标记每个document,在时间范围内的标记为true,不在的标记为false,然后将结果传递给Searcher查找,这是十分耗时的。  
    3、进一步提高性能,这个又有两个思路:  
    a、缓存Filter结果。既然RangeFilter的执行是在搜索之前,那么它的输入都是一定的,就是IndexReader,而 IndexReader是由Directory决定的,所以可以认为RangeFilter的结果是由范围的上下限决定的,也就是由具体的 RangeFilter对象决定,所以我们只要以RangeFilter对象为键,将filter结果BitSet缓存起来即可。lucene API 已经提供了一个CachingWrapperFilter类封装了Filter及其结果,所以具体实施起来我们可以 cache CachingWrapperFilter对象,需要注意的是,不要被CachingWrapperFilter的名字及其说明误导, CachingWrapperFilter看起来是有缓存功能,但的缓存是针对同一个filter的,也就是在你用同一个filter过滤不同 IndexReader时,它可以帮你缓存不同IndexReader的结果,而我们的需求恰恰相反,我们是用不同filter过滤同一个 IndexReader,所以只能把它作为一个封装类。  
    b、降低时间精度。研究Filter的工作原理可以看出,它每次工作都是遍历整个索引的,所以时间粒度越大,对比越快,搜索时间越短,在不影响功能的情况下,时间精度越低越好,有时甚至牺牲一点精度也值得,当然最好的情况是根本不作时间限制。  
    下面针对上面的两个思路演示一下优化结果(都采用800线程随机关键词随即时间范围):  
    第一组,时间精度为秒:  
    方式 直接用RangeFilter 使用cache 不用filter  
    平均每个线程耗时 10s 1s 300ms

    第二组,时间精度为天  
    方式 直接用RangeFilter 使用cache 不用filter  
    平均每个线程耗时 900ms 360ms 300ms

    由以上数据可以得出结论:  
    1、 尽量降低时间精度,将精度由秒换成天带来的性能提高甚至比使用cache还好,最好不使用filter。  
    2、 在不能降低时间精度的情况下,使用cache能带了10倍左右的性能提高。

    9.2.3 使用更好的分析器  
    这个跟创建索引优化道理差不多,索引文件小了搜索自然会加快。当然这个提高也是有限的。较好的分析器相对于最差的分析器对性能的提升在20%以下。

    10 一些经验

    10.1关键词区分大小写  
    or AND TO等关键词是区分大小写的,lucene只认大写的,小写的当做普通单词。

    10.2 读写互斥性  
    同一时刻只能有一个对索引的写操作,在写的同时可以进行搜索

    10.3 文件锁  
    在写索引的过程中强行退出将在tmp目录留下一个lock文件,使以后的写操作无法进行,可以将其手工删除

    10.4 时间格式  
    lucene只支持一种时间格式yyMMddHHmmss,所以你传一个yy-MM-dd HH:mm:ss的时间给lucene它是不会当作时间来处理的

    10.5 设置boost  
    有些时候在搜索时某个字段的权重需要大一些,例如你可能认为标题中出现关键词的文章比正文中出现关键词的文章更有价值,你可以把标题的boost设置的更大,那么搜索结果会优先显示标题中出现关键词的文章(没有使用排序的前题下)。使用方法:  
    Field. setBoost(float boost);默认值是1.0,也就是说要增加权重的需要设置得比1大。

    ====================================================================================

    分词器

    1) 标准分词技术(StandardAnalyzer):标准分词技术对英文来说是不错的,把单词分成一个一个的词根,但是对于中文来说,只是简单的把中文分成一个一个的汉字。
    
    2)IK中文分词器(IKAnalyzer):结合词典分词和文法分析算法的中文分词技术,能够对词典进行扩展,是一个很好的中文分词器。
    
    3)空格分词器(WhitespaceAnalyzer):按照空格切分字符串。
    
    4)简单分词器(SimpleAnalyzer):根据标点符号分词。
    
    5)二分法分词器(CJKAnalyzer):二分法分词技术中每个汉字都会和它前边和后边的汉字组成一个词,也就是说每个汉字都会出现两次,除了首字和末字(前提是纯汉字,没有英文,因为英文会根据词根来分词),这种分词技术会有太多的词,会产生太多冗余。
    
    6)关键词分词器(KeywordAnalyzer):不进行分割。
    
    7)被忽略词分词器(StopAnalyzer):被忽略词如标点符号,这种分词技术和SimpleAnalyzer结果很像。

    Lucene自带多种分词器,其中对中文分词支持比较好的是smartcn。

    1. 标准分词器StandardAnalyzer

    在演示smartcn中文分词器之前,先来看看Lucene标准分词器对中文分词的效果。需要的jar为lucene-5.5.5core下的lucene-core-5.5.5.jar和lucene-5.5.5analysiscommon下的lucene-analyzers-common-5.5.5.jar。新建测试类TestLucene04:

    package net.xxpsw.demo.lucene.test;
    
    import org.apache.lucene.analysis.Analyzer;
    
    import org.apache.lucene.analysis.TokenStream;
    
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    
    public class TestLucene04 {
    
    private void print(Analyzer analyzer) throws Exception {
    
    String text = "Lucene自带多种分词器,其中对中文分词支持比较好的是smartcn。";
    
    TokenStream tokenStream = analyzer.tokenStream("content", text);
    
    CharTermAttribute attribute = tokenStream.addAttribute(CharTermAttribute.class);
    
    tokenStream.reset();
    
    while (tokenStream.incrementToken()) {
    
    System.out.println(new String(attribute.toString()));
    
    }
    
    }
    
    }

    增加测试方法testStandardAnalyzer:

    /**
    
    * @Description: 测试标准分词器
    
    * @throws Exception
    
    */
    
    @Test
    
    public void testStandardAnalyzer() throws Exception {
    
    StandardAnalyzer standardAnalyzer = new StandardAnalyzer();
    
    print(standardAnalyzer);
    
    }

    执行测试,控制台打印结果如下:

    由上可见,标准分词器对中文的分词结果是分成了单个汉字,而并没有识别常用的汉语词组。

    2. 中文分词器SmartChineseAnalyzer

    引入analysissmartcn下的lucene-analyzers-smartcn-xx.jar,新增测试方法testSmartChineseAnalyzer:

     /**
    
    * @Description: 测试中文分词器
    
    * @throws Exception
    
    */
    
    @Test
    
    public void testSmartChineseAnalyzer() throws Exception {
    
    SmartChineseAnalyzer smartChineseAnalyzer = new SmartChineseAnalyzer();
    
    print(smartChineseAnalyzer);
    
    }

    执行测试方法,控制台打印结果如下:

    从上述打印结果中可以看到,“多种”、“分词”、“其中”、“中文”、“支持”、“比较”等中文词组都被顺利的识别出来。
    进入SmartChineseAnalyzer源码中可以看到如下代码:

     public SmartChineseAnalyzer() {
    
    this(true);
    
    }

    查看this(true):

    public SmartChineseAnalyzer(boolean useDefaultStopWords) {
    
    stopWords = useDefaultStopWords ? DefaultSetHolder.DEFAULT_STOP_SET
    
    : CharArraySet.EMPTY_SET;
    
    }

    查看DefaultSetHolder.DEFAULT_STOP_SET:

     private static class DefaultSetHolder {
    
    static final CharArraySet DEFAULT_STOP_SET;
    
    
    static {
    
    try {
    
    DEFAULT_STOP_SET = loadDefaultStopWordSet();
    
    } catch (IOException ex) {
    
    // default set should always be present as it is part of the
    
    // distribution (JAR)
    
    throw new RuntimeException("Unable to load default stopword set");
    
    }
    
    }
    
    
    static CharArraySet loadDefaultStopWordSet() throws IOException {
    
    // make sure it is unmodifiable as we expose it in the outer class
    
    return CharArraySet.unmodifiableSet(WordlistLoader.getWordSet(IOUtils
    
    .getDecodingReader(SmartChineseAnalyzer.class, DEFAULT_STOPWORD_FILE,
    
    StandardCharsets.UTF_8), STOPWORD_FILE_COMMENT));
    
    }
    
    }

    查看DEFAULT_STOPWORD_FILE:

    private static final String DEFAULT_STOPWORD_FILE = "stopwords.txt";

    可见SmartChineseAnalyzer的空构造函数实际上默认加载了一个停用词列表文件stopwords.txt,该文件在jar包中的位置如下:

    该文件中包含了53个需要停用的标点符号,分别是,.`-_=?'|"(){}[]<>*#&^$@!~:;+/《》—-,。、:;!·?“”)(【】[]●及中文空格。

    3. 自定义停用词

    SmartChineseAnalyzer还支持自定义停用词,新建测试方法testMySmartChineseAnalyzer:

     /**
    
    * @Description: 测试自定义停用词
    
    * @throws Exception
    
    */
    
    @Test
    
    public void testMySmartChineseAnalyzer() throws Exception {
    
    CharArraySet charArraySet = new CharArraySet(0, true);
    
    
    // 系统默认停用词
    
    Iterator<Object> iterator = SmartChineseAnalyzer.getDefaultStopSet().iterator();
    
    while (iterator.hasNext()) {
    
    charArraySet.add(iterator.next());
    
    }
    
    
    // 自定义停用词
    
    String[] myStopWords = { "对", "的", "是", "其中" };
    
    for (String stopWord : myStopWords) {
    
    charArraySet.add(stopWord);
    
    }
    
    
    SmartChineseAnalyzer smartChineseAnalyzer = new SmartChineseAnalyzer(charArraySet);
    
    print(smartChineseAnalyzer);
    
    }
    
    }

    执行测试方法,控制台打印如下:

    对比测试方法testSmartChineseAnalyzer可以看出,"对", "的", "是", "其中"等中文词已被停用而不再出现。

    =============================================================================================

    谈谈架构:

    Lucene简介

    Lucene最初由鼎鼎大名Doug Cutting开发,2000年开源,现在也是开源全文检索方案的不二选择,它的特点概述起来就是:全Java实现、开源、高性能、功能完整、易拓展,功能完整体现在对分词的支持、各种查询方式(前缀、模糊、正则等)、打分高亮、列式存储(DocValues)等等。
    而且Lucene虽已发展10余年,但仍保持着一个活跃的开发度,以适应着日益增长的数据分析需求,最新的6.0版本里引入block k-d trees,全面提升了数字类型和地理位置信息的检索性能,另基于Lucene的Solr和ElasticSearch分布式检索分析系统也发展地如火如荼,ElasticSearch也在我们项目中有所应用。
    Lucene整体使用如图所示:

    结合代码说明一下四个步骤:

    
    IndexWriter iw=new IndexWriter();//创建IndexWriter
    
    Document doc=new Document( new StringField("name", "Donald Trump", Field.Store.YES)); //构建索引文档
    
    iw.addDocument(doc); //做索引库
    
    IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(index)));
    
    IndexSearcher searcher = new IndexSearcher(reader); //打开索引
    
    Query query = parser.parse("name:trump");//解析查询
    
    
    TopDocs results =searcher.search(query, 100);//检索并取回前100个文档号
    
    for(ScoreDoc hit:results.hits)
    
    {
    
    Document doc=searcher .doc(hit.doc)//真正取文档
    
    }

    使用起来很简单,但只有知道这背后的原理,才能更好地用好Lucene,后面将介绍通用检索原理和Lucene的实现细节。

    1.2 索引原理

    全文检索技术由来已久,绝大多数都基于倒排索引来做,曾经也有过一些其他方案如文件指纹。倒排索引,顾名思义,它相反于一篇文章包含了哪些词,它从词出发,记载了这个词在哪些文档中出现过,由两部分组成——词典和倒排表。

    这里写图片描述

    其中词典结构尤为重要,有很多种词典结构,各有各的优缺点,最简单如排序数组,通过二分查找来检索数据,更快的有哈希表,磁盘查找有B树、B+树,但一个能支持TB级数据的倒排索引结构需要在时间和空间上有个平衡,下图列了一些常见词典的优缺点:

    这里写图片描述

      其中可用的有:B+树、跳跃表、FST
      B+树:
                  mysql的InnoDB B+数结构

    这里写图片描述

    
     
    1. 理论基础:平衡多路查找树

    2. 优点:外存索引、可更新

    3. 缺点:空间大、速度不够快

    4. 跳跃表:

    这里写图片描述

    1. 优点:结构简单、跳跃间隔、级数可控,Lucene3.0之前使用的也是跳跃表结构,后换成了FST,但跳跃表在Lucene其他地方还有应用如倒排表合并和文档号索引。

    2. 缺点:模糊查询支持不好

    3. FST

      Lucene现在使用的索引结构
    这里写图片描述

    1. 理论基础: 《Direct construction of minimal acyclic subsequential transducers》,通过输入有序字符串构建最小有向无环图。

    2. 优点:内存占用率低,压缩率一般在3倍~20倍之间、模糊查询支持好、查询快

    3. 缺点:结构复杂、输入要求有序、更新不易

    4. Lucene里有个FST的实现,从对外接口上看,它跟Map结构很相似,有查找,有迭代:

    String inputs={"abc","abd","acf","acg"}; //keys
    
    long outputs={1,3,5,7}; //values
    
    FST fst=new FST<>();
    
    for(int i=0;i iterator=new BytesRefFSTEnum<>(fst);
    
    while(iterator.next!=null){...}
    1. 100万数据性能测试:

    数据结构 HashMap TreeMap FST
    构建时间(ms) 185 500 1512
    查询所有key(ms) 106 218 890

      可以看出,FST性能基本跟HaspMap差距不大,但FST有个不可比拟的优势就是占用内存小,只有HashMap10分之一左右,这对大数据规模检索是至关重要的,毕竟速度再快放不进内存也是没用的。
      因此一个合格的词典结构要求有:
      1. 查询速度。
      2. 内存占用。
      3. 内存+磁盘结合。
      后面我们将解析Lucene索引结构,重点从Lucene的FST实现特点来阐述这三点。

    1.3 Lucene索引实现

    1. *(本文对Lucene的原理介绍都是基于4.10.3)*

    2. Lucene经多年演进优化,现在的一个索引文件结构如图所示,基本可以分为三个部分:词典、倒排表、正向文件。

    这里写图片描述

    下面详细介绍各部分结构:

    索引结构

      Lucene现在采用的数据结构为FST,它的特点就是:
      1、词查找复杂度为O(len(str))
      2、共享前缀、节省空间
      3、内存存放前缀索引、磁盘存放后缀词块
      这跟我们前面说到的词典结构三要素是一致的:1. 查询速度。2. 内存占用。3. 内存+磁盘结合。我们往索引库里插入四个单词abd、abe、acf、acg,看看它的索引文件内容。

    这里写图片描述

      tip部分,每列一个FST索引,所以会有多个FST,每个FST存放前缀和后缀块指针,这里前缀就为a、ab、ac。tim里面存放后缀块和词的其他信息如倒排表指针、TFDF等,doc文件里就为每个单词的倒排表。
      所以它的检索过程分为三个步骤:
      1. 内存加载tip文件,通过FST匹配前缀找到后缀词块位置。
      2. 根据词块位置,读取磁盘中tim文件中后缀块并找到后缀和相应的倒排表位置信息。
      3. 根据倒排表位置去doc文件中加载倒排表。
      这里就会有两个问题,第一就是前缀如何计算,第二就是后缀如何写磁盘并通过FST定位,下面将描述下Lucene构建FST过程:
      已知FST要求输入有序,所以Lucene会将解析出来的文档单词预先排序,然后构建FST,我们假设输入为abd,abd,acf,acg,那么整个构建过程如下:

    这里写图片描述

    1. 插入abd时,没有输出。
    
    2. 插入abe时,计算出前缀ab,但此时不知道后续还不会有其他以ab为前缀的词,所以此时无输出。
    
    3. 插入acf时,因为是有序的,知道不会再有ab前缀的词了,这时就可以写tip和tim了,tim中写入后缀词块d、e和它们的倒排表位置ip_d,ip_e,tip中写入a,b和以ab为前缀的后缀词块位置(真实情况下会写入更多信息如词频等)。
    
    4. 插入acg时,计算出和acf共享前缀ac,这时输入已经结束,所有数据写入磁盘。tim中写入后缀词块f、g和相对应的倒排表位置,tip中写入c和以ac为前缀的后缀词块位置。
    
    以上是一个简化过程,Lucene的FST实现的主要优化策略有:
    1. 最小后缀数。Lucene对写入tip的前缀有个最小后缀数要求,默认25,这时为了进一步减少内存使用。如果按照25的后缀数,那么就不存在ab、ac前缀,将只有一个跟节点,abd、abe、acf、acg将都作为后缀存在tim文件中。我们的10g的一个索引库,索引内存消耗只占20M左右。
    
    2. 前缀计算基于byte,而不是char,这样可以减少后缀数,防止后缀数太多,影响性能。如对宇(e9 b8 a2)、守(e9 b8 a3)、安(e9 b8 a4)这三个汉字,FST构建出来,不是只有根节点,三个汉字为后缀,而是从unicode码出发,以e9、b8为前缀,a2、a3、a4为后缀,如下图:

    这里写图片描述

    倒排表结构

      倒排表就是文档号集合,但怎么存,怎么取也有很多讲究,Lucene现使用的倒排表结构叫Frame of reference,它主要有两个特点:
      1. 数据压缩,可以看下图怎么将6个数字从原先的24bytes压缩到7bytes。

    这里写图片描述

      2. 跳跃表加速合并,因为布尔查询时,and 和or 操作都需要合并倒排表,这时就需要快速定位相同文档号,所以利用跳跃表来进行相同文档号查找。
      这部分可参考ElasticSearch的一篇博客,里面有一些性能测试:
      ElasticSearch 倒排表

    正向文件

      正向文件指的就是原始文档,Lucene对原始文档也提供了存储功能,它存储特点就是分块+压缩,fdt文件就是存放原始文档的文件,它占了索引库90%的磁盘空间,fdx文件为索引文件,通过文档号(自增数字)快速得到文档位置,它们的文件结构如下:

      这里写图片描述

      fnm中为元信息存放了各列类型、列名、存储方式等信息。
      fdt为文档值,里面一个chunk就是一个块,Lucene索引文档时,先缓存文档,缓存大于16KB时,就会把文档压缩存储。一个chunk包含了该chunk起始文档、多少个文档、压缩后的文档内容。
      fdx为文档号索引,倒排表存放的时文档号,通过fdx才能快速定位到文档位置即chunk位置,它的索引结构比较简单,就是跳跃表结构,首先它会把1024个chunk归为一个block,每个block记载了起始文档值,block就相当于一级跳表。
      所以查找文档,就分为三步:
      第一步二分查找block,定位属于哪个block。
      第二步就是根据从block里根据每个chunk的起始文档号,找到属于哪个chunk和chunk位置。
      第三步就是去加载fdt的chunk,找到文档。这里还有一个细节就是存放chunk起始文档值和chunk位置不是简单的数组,而是采用了平均值压缩法。所以第N个chunk的起始文档值由 DocBase + AvgChunkDocs * n + DocBaseDeltas[n]恢复而来,而第N个chunk再fdt中的位置由 StartPointerBase + AvgChunkSize * n + StartPointerDeltas[n]恢复而来。
      从上面分析可以看出,lucene对原始文件的存放是行是存储,并且为了提高空间利用率,是多文档一起压缩,因此取文档时需要读入和解压额外文档,因此取文档过程非常依赖随机IO,以及lucene虽然提供了取特定列,但从存储结构可以看出,并不会减少取文档时间。

    Lucene总的来说是:

    • 一个高效的,可扩展的,全文检索库。
    • 全部用Java实现,无须配置。
    • 仅支持纯文本文件的索引(Indexing)和搜索(Search)。
    • 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。

    在Lucene in action中,Lucene 的构架和过程如下图,

    [图]Lucene的构架和过程

    说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。

    让我们更细一些看Lucene的各组件:

    [图]Lucene各组件

    • 被索引的文档用Document对象 表示。
    • IndexWriter 通过函数addDocument 将文档添加到索引中,实现创建索引的过程。
    • Lucene 的索引是应用反向索引。
    • 当用户有请求时,Query 代表用户的查询语句。
    • IndexSearcher 通过函数search 搜索Lucene Index 。
    • IndexSearcher 计算term weight 和score 并且将结果返回给用户。
    • 返回给用户的文档集合用TopDocsCollector 表示。

    那么如何应用这些组件呢?

    让我们再详细到对Lucene API 的调用实现索引和搜索过程。

    [图]Lucene API的调用

    • 索引过程如下:
      • 创建一个IndexWriter 用来写索引文件,它有几个参数,INDEX_DIR 就是索引文件所存放的位置,Analyzer 便是用来对文档进行词法分析和语言处理的。
      • 创建一个Document 代表我们要索引的文档。
      • 将不同的Field 加入到文档中。我们知道,一篇文档有多种信息,如题目,作者,修改时间,内容等。不同类型的信息用不同的Field 来表示,在本例子中,一共有两类信息进行了索引,一个是文件路径,一个是文件内容。其中FileReader 的SRC_FILE 就表示要索引的源文件。
      • IndexWriter 调用函数addDocument 将索引写到索引文件夹中。
    • 搜索过程如下:
      • IndexReader 将磁盘上的索引信息读入到内存,INDEX_DIR 就是索引文件存放的位置。
      • 创建IndexSearcher 准备进行搜索。
      • 创建Analyer 用来对查询语句进行词法分析和语言处理。
      • 创建QueryParser 用来对查询语句进行语法分析。
      • QueryParser 调用parser 进行语法分析,形成查询语法树,放到Query 中。
      • IndexSearcher 调用search 对查询语法树Query 进行搜索,得到结果TopScoreDocCollector 。

    以上便是Lucene API函数的简单调用。

    然而当进入Lucene的源代码后,发现Lucene有很多包,关系错综复杂。

    然而通过下图,我们不难发现,Lucene的各源码模块,都是对普通索引和搜索过程的一种实现。

    此图是上一节介绍的全文检索的流程对应的Lucene实现的包结构。(参照http://www.lucene.com.cn/about.htm 中文章《开放源代码的全文检索引擎Lucene》)

    [图]Lucene包结构

    • Lucene 的analysis 模块主要负责词法分析及语言处理而形成Term 。
    • Lucene 的index 模块主要负责索引的创建,里面有IndexWriter 。
    • Lucene 的store 模块主要负责索引的读写。
    • Lucene 的QueryParser 主要负责语法分析。
    • Lucene 的search 模块主要负责对索引的搜索。
    • Lucene 的similarity 模块主要负责对相关性打分的实现。

    转载于: http://m.2cto.com/kf/201701/584148.html

    正因为当初对未来做了太多的憧憬,所以对现在的自己尤其失望。生命中曾经有过的所有灿烂,终究都需要用寂寞来偿还。
  • 相关阅读:
    【C3】04 工作原理
    【C3】03 如何构建
    【C3】02 操作总览
    【C3】01 概述
    【H5】16 表单 其五 表单验证
    【H5】15 表单 其四 数据发送
    【H5】14 表单 其三 原生表单部件
    【H5】13 表单 其二 如何构造
    【H5】12 表单 其一 第一个表单
    【H5】11 表格
  • 原文地址:https://www.cnblogs.com/candlia/p/11920063.html
Copyright © 2011-2022 走看看