zoukankan      html  css  js  c++  java
  • Lucene聚类分组统计功能(grouping)

    http://sujitpal.blogspot.com/2007/04/lucene-search-within-search-with.html
    http://blog.csdn.net/lansine2005/article/details/6787472
     

    Lucene聚类分组统计功能(grouping)

    分类: Lucene 229人阅读 评论(1) 收藏 举报
    在搜索的项目中,我们经常有对搜索结果进行分组或对字段进行压缩的需求。之前的文章提到这个功能已经添加到solr中并成为用户一个非常需要的特性。最近结果分组被作为一个扩展包加入到lucene3.1中,而在4.0中将直接作为一个模块。添加这个功能到lucene中使用起来将会更灵活。目前正在努力将结果分组放入到solr的3.X版本分支中。具体参考SOLR-2524这意味着在solr3.2中我们将可以使用这个功能了!

    历史
    这个功能起于4年前,分支SOLR-236被创建的时候。那时结果分组关注于在结果集中对拥有相同字段值的文档进行压缩。随着时间的推移,越来越多的人开始使用这个补丁。很多人提交了一些新的特性、调优。而字段的压缩在Jira上作为一个补丁起始于3年前,用户需要对solr打补丁并运行在这个构建的版本上。这种明显是一种错误的方式,以至于在这方面的问题发给了Solr的邮件组。另外,在Jira上有很多关于字段分组的补丁,这让用户很迷惑

    去年9月结果分组在4.0-dev版中变的可用。字段压缩功能也被重写(SOLR-1682),并且性能也得到提升。另外,结果分组也被加入,所以这个特性有些小的改变。

    最近,正尝试着放入LUCENE-1421。这个Jira创建的目的是暴露结果分组的功能给lucene。在Solr主干中,分组的代码将会被重写,并将分组模块放入到lucene中。在3.x版本中,它已经被作为一个扩展包了。目前还不能支持按方法(function)或查询(query)进行分组。LUCENE-3099已经被创建,不久lucene就可以使用这些功能了。

    Lucene的结果分组
    Lucene中的分组很容易使用,参考下面的例子。类FirstPassGroupingCollector用来收集每组中有多少个文档;SecondPassGroupingCollector收集有多少个分组。


    1. FirstPassGroupingCollector c1 = new FirstPassGroupingCollector("author", groupSort, groupOffset + topNGroups);  
    2. indexSearcher.search(new TermQuery(new Term("content", searchTerm)), c1);  
    3.    
    4. Collection<SearchGroup> topGroups = c1.getTopGroups(groupOffset, fillFields);  
    5.    
    6. if (topGroups == null) {  
    7.    // No groups matched  
    8.   return;  
    9. }  
    10.    
    11. boolean getScores = true;  
    12. boolean getMaxScores = true;  
    13. boolean fillFields = true;  
    14. SecondPassGroupingCollector c2 = new SecondPassGroupingCollector("author", topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields);  
    15.     indexSearcher.search(new TermQuery(new Term("content", searchTerm)), c2);  
    16.    
    17. TopGroups groupsResult = c2.getTopGroups(docOffset);  



    如果search的性能耗费大,则可以考虑使用CachingCollector。这个cache可以缓存第一次search时的文档Id和评分,并提供给之后的查询使用。使用方法请参考grouping documentation


    有另一个收集器叫AllGroupsCollector,它可以收集查询结果的所有组。下面的例子为得到各个分组收集的总数量:

    1. // First pass search has been executed  
    2. boolean getScores = true;  
    3. boolean getMaxScores = true;  
    4. boolean fillFields = true;  
    5. AllGroupsCollector c3 = new AllGroupsCollector("author");  
    6. SecondPassGroupingCollector c2 = new SecondPassGroupingCollector("author", topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields);  
    7. indexSearcher.search(new TermQuery(new Term("content", searchTerm)), MultiCollector.wrap(c2, c3));  
    8.    
    9. TopGroups groupsResult = c2.getTopGroups(docOffset);  
    10. groupsResult = new TopGroups(groupsResult, c3.getGroupCount());  



    通过MultiCollectorAllGroupsCollector能很好的封装SecondPassGroupingCollectorAllGroupsCollector 也能独立的在其他的收集器中使用。

    结果分组在solr中的使用
    现在Solr主干上还没有使用lucene 分组模块;它使用它自己的分组模块。Solr还没有使用lucene的分组模块的原因,是它还没有对function和query的支持。然而Solr3.1还没有实现分组的支持,用户仍需要自己下分支然后编译。更坏的是,很多用户还在使用过时的补丁SOLR-236,这是我为什么创建SOLR-2524的原因.

    SOLR-2524 分支涉及到集成lucene的扩展包到solr3.x分支中。这个版本也为集成分组模块的主干版本到Solr4.0中作为参考。Solr3.x的主干分组将支持相同的响应格式和请求参数,具体描述请参见Solr FieldCollapse wiki page;它还不支持的功能还是function和query。

    如果运行良好,这个分支将会提交到Solr3.2版本中,Solr的用户就可以直接使用啦

  • 相关阅读:
    Mysql存储过程和函数
    python反编译chm文件并生成pdf文件
    python转换html到pdf文件
    python获取系统开机时间
    OpenSL ES: 利用OpenSL ES实现录音功能
    android: 根据文件uri 获取文件名
    Java: InputStream转化为byte数组
    Linux: 查看二进制文件
    Vim: 回到上次编辑的位置
    LayoutInflate: Avoid passing null as the view root
  • 原文地址:https://www.cnblogs.com/lexus/p/2291860.html
Copyright © 2011-2022 走看看