zoukankan      html  css  js  c++  java
  • Lucene系列-近实时搜索(1)

    近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大、更新较频繁的情况下使用。本文主要来介绍下如何使用,其原理还没弄透,改天再续。本文代码基于lucene 4.10

    IndexReader的重建

    想要看到新的结果就需要重新打开一个IndexReader,DirectoryReader提供了DirectoryReader openIfChanged(DirectoryReader oldReader)函数,只有索引有变化时才建立新reader(不是完全打开一个new reader,会复用old reader的一些资源,并入新索引,降低一些开销), 否则返回oldReader。

    IndexWriter writer = new IndexWriter(ramDir, writerConfig);
    //IndexReader,基于IndexWriter打开的IndexReader
    IndexReader reader = DirectoryReader.open(writer, true);
    IndexSearcher searcher = new IndexSearcher(reader);
    //update index
    //openIfChanged,如果有提交或未提交的变化,就打开新的indexreader。记住关闭old reader
    IndexReader newReader = DirectoryReader.openIfChanged((DirectoryReader) reader, writer, true);
    if (reader != newReader) {
        searcher = new IndexSearcher(newReader);
        reader.close();
    }
    

    使用过程:DirectoryReader尝试打开新IndexReader;判断是否获得新Reader;如果成功,关闭老reader。


    SearchManager

    在实际应用中,会并行的进行搜索、建索引、打开新Reader、关闭老reader,操作比较复杂还有线程安全问题。为了简化使用流程,lucene提供了SearcherManager extends ReferenceManager<IndexSearcher>管理IndexReader的重建和关闭,保证了线程安全,封装了IndexSearcher的生成。主要提供如下三个接口:

    • acquire获取当前已打开的最新IndexSearcher
    • release释放不用的引用,本质调的是IndexReader.close(),当一个IndexReader内部的引用计数为0时,会关闭自己释放资源。
    • maybeRefresh,尝试打开新的IndexReader,本质调用的是DirectoryReader.openIfChanged
    ReferenceManager<IndexSearcher> searcherManager = new SearcherManager(writer, true, new SearcherFactory());
    SearchersearcherManager.maybeRefresh()
    IndexSearcher searcher = searcherManager.acquire();
    //after using,释放掉
    searcherManager.release(searcher);
    searcherManager.close();


    ControlledRealTimeReopenThread

    如上,如果想获得最新的searcher,就需要周期性的调用maybeRefresh来更新searcher引用。Lucene提供了ControlledRealTimeReopenThread线程工具类来负责周期性的打开ReferenceManager(调用ReferenceManager.maybeRefresh)。该线程类控制打开间隔比较灵活,当有外部用户在等待重新打开Searcher时就按最小时间间隔等待,如果没有用户着急获取新Searcher,则等待最大时间间隔后再打开。其构造函数如下:

    ControlledRealTimeReopenThread(TrackingIndexWriter writer, ReferenceManager<T> manager, 
        double targetMaxStaleSec, double targetMinStaleSec)//单位秒
    

    如何判断是否有人等待?

    TrackingIndexWriter封装了IndexWriter,为每次更新索引的操作赋予一个标记(generation,代数),递增变化。用户使用ControlledRealTimeReopenThread.waitForGeneration告诉其期望获得更新代数,ControlledRealTimeReopenThread记录了当前已打开的代数,当期望更新代数大于已打开代数时,就表示有用户期望获得最新Search。

    如果想利用TrackingIndexWriter提供的代数概念,每次使用IndexWriter都要经过TrackingIndexWriter,否则代数没意义。但是如果只希望每隔10s打开一次新searcher,并不在意某次更新快速看到,那就可以忽略TrackingIndexWriter,ControlledRealTimeReopenThread就退化为一个clock线程。

    ControlledRealTimeReopenThread th = new ...;
    th.start();
    th.waitForGeneration(targetGen);
  • 相关阅读:
    iOS:CALayer(17-12-06更)
    iOS:绘图(18-01-25更)
    iOS:动画(18-10-15更)
    iOS:文件操作相关(18-03-23更)
    iOS:SQL
    iOS开发 - OC - block的详解
    iOS开发 - Swift - 自己写的一个九宫格解锁的Demo
    关于如何使用脚本自动打包IPA文件
    iOS开发 - OC - 苹果为大家提供的后台:CloudKit 的简单使用
    iOS开发 - OC - duplicate symbol _OBJC / undefind symbol 错误的相关处理
  • 原文地址:https://www.cnblogs.com/whuqin/p/4981964.html
Copyright © 2011-2022 走看看