zoukankan      html  css  js  c++  java
  • Lucene系列-近实时搜索(1)

    近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大、更新较频繁的情况下使用。本文主要来介绍下如何使用,其原理还没弄透,改天再续。本文代码基于lucene 4.10

    IndexReader的重建

    想要看到新的结果就需要重新打开一个IndexReader,DirectoryReader提供了DirectoryReader openIfChanged(DirectoryReader oldReader)函数,只有索引有变化时才建立新reader(不是完全打开一个new reader,会复用old reader的一些资源,并入新索引,降低一些开销), 否则返回oldReader。

    IndexWriter writer = new IndexWriter(ramDir, writerConfig);
    //IndexReader,基于IndexWriter打开的IndexReader
    IndexReader reader = DirectoryReader.open(writer, true);
    IndexSearcher searcher = new IndexSearcher(reader);
    //update index
    //openIfChanged,如果有提交或未提交的变化,就打开新的indexreader。记住关闭old reader
    IndexReader newReader = DirectoryReader.openIfChanged((DirectoryReader) reader, writer, true);
    if (reader != newReader) {
        searcher = new IndexSearcher(newReader);
        reader.close();
    }
    

    使用过程:DirectoryReader尝试打开新IndexReader;判断是否获得新Reader;如果成功,关闭老reader。


    SearchManager

    在实际应用中,会并行的进行搜索、建索引、打开新Reader、关闭老reader,操作比较复杂还有线程安全问题。为了简化使用流程,lucene提供了SearcherManager extends ReferenceManager<IndexSearcher>管理IndexReader的重建和关闭,保证了线程安全,封装了IndexSearcher的生成。主要提供如下三个接口:

    • acquire获取当前已打开的最新IndexSearcher
    • release释放不用的引用,本质调的是IndexReader.close(),当一个IndexReader内部的引用计数为0时,会关闭自己释放资源。
    • maybeRefresh,尝试打开新的IndexReader,本质调用的是DirectoryReader.openIfChanged
    ReferenceManager<IndexSearcher> searcherManager = new SearcherManager(writer, true, new SearcherFactory());
    SearchersearcherManager.maybeRefresh()
    IndexSearcher searcher = searcherManager.acquire();
    //after using,释放掉
    searcherManager.release(searcher);
    searcherManager.close();


    ControlledRealTimeReopenThread

    如上,如果想获得最新的searcher,就需要周期性的调用maybeRefresh来更新searcher引用。Lucene提供了ControlledRealTimeReopenThread线程工具类来负责周期性的打开ReferenceManager(调用ReferenceManager.maybeRefresh)。该线程类控制打开间隔比较灵活,当有外部用户在等待重新打开Searcher时就按最小时间间隔等待,如果没有用户着急获取新Searcher,则等待最大时间间隔后再打开。其构造函数如下:

    ControlledRealTimeReopenThread(TrackingIndexWriter writer, ReferenceManager<T> manager, 
        double targetMaxStaleSec, double targetMinStaleSec)//单位秒
    

    如何判断是否有人等待?

    TrackingIndexWriter封装了IndexWriter,为每次更新索引的操作赋予一个标记(generation,代数),递增变化。用户使用ControlledRealTimeReopenThread.waitForGeneration告诉其期望获得更新代数,ControlledRealTimeReopenThread记录了当前已打开的代数,当期望更新代数大于已打开代数时,就表示有用户期望获得最新Search。

    如果想利用TrackingIndexWriter提供的代数概念,每次使用IndexWriter都要经过TrackingIndexWriter,否则代数没意义。但是如果只希望每隔10s打开一次新searcher,并不在意某次更新快速看到,那就可以忽略TrackingIndexWriter,ControlledRealTimeReopenThread就退化为一个clock线程。

    ControlledRealTimeReopenThread th = new ...;
    th.start();
    th.waitForGeneration(targetGen);
  • 相关阅读:
    文件上传漏洞总结篇
    python 构造mysql爆破器
    python写exploit采集器
    文件包含漏洞总结
    python Flask篇(一)
    Python写一个目录检索器
    python爬搜狗微信获取指定微信公众号的文章
    python打造文件包含漏洞检测工具
    python打造漏洞补丁缺少检测
    表单
  • 原文地址:https://www.cnblogs.com/whuqin/p/4981964.html
Copyright © 2011-2022 走看看